# Google Pathways и тайны OpenAI: как ИИ учится решать задачи и видеть мир

Источник: https://www.youtube.com/watch?v=G7-fRGaCZts
Канал: Yannic Kilcher
Опубликовано: 05.11.2021

---

Янник Кильхер в новом выпуске ML News анализирует амбициозный проект Google Pathways, новую систему OpenAI для решения школьных математических задач и масштабный датасет Meta для обучения ИИ восприятию мира «от первого лица». В центре внимания — переход от узкоспециализированных моделей к универсальным архитектурам и методам проверки логических выводов нейросетей.

## 🚀 Google Pathways: Будущее универсального интеллекта
[[JUMP:02:15]]

Компания Google представила Pathways — новую архитектуру обучения моделей, которая призвана решить главные проблемы современного ИИ: узкую специализацию и неэффективность вычислений [02:28]. Янник Кильхер отмечает, что современные модели обычно обучаются «с нуля» для каждой новой задачи. Pathways же нацелена на создание единой модели, способной выполнять тысячи различных задач, обобщать знания и обучаться более эффективно.

Ключевые особенности Pathways:

*   **Мультимодальность:** Модель способна обрабатывать текст, изображения и аудио одновременно, что позволяет ей лучше понимать контекст (например, отличить леопарда по звуку, картинке или описанию) [03:31].
*   **Разреженная активация (Sparse Activation):** Вместо того чтобы активировать всю нейронную сеть для каждого запроса, Pathways задействует только нужные «пути» (pathways) [04:10]. Это делает модель гораздо мощнее, но при этом экономичнее в плане энергопотребления.
*   **Динамическое распределение ресурсов:** По словам Янника Кильхера, это похоже на работу человеческого мозга: мы не используем все свои знания о квантовой физике, когда завязываем шнурки.

Янник считает, что Google пытается отойти от парадигмы «одна модель — один навык» к системе, которая напоминает биологический интеллект [05:03]. Однако он подчеркивает, что пока это лишь архитектурное видение, и реальные масштабируемые результаты еще предстоит увидеть.

## 🧮 OpenAI и решение математических задач
[[JUMP:06:36]]

OpenAI опубликовала работу, посвященную решению сложных математических задач школьного уровня с использованием нейросетей [06:50]. Основная проблема здесь заключается не в вычислениях, а в многошаговом логическом выводе. Стандартные языковые модели часто допускают мелкие ошибки в середине решения, что приводит к неверному итогу.

Для решения этой проблемы OpenAI применила метод «верификаторов» (verifiers):

1.  **Генерация решений:** Модель создает множество вариантов ответа [07:16].
2.  **Проверка (Verification):** Отдельная модель-верификатор оценивает каждое решение на предмет логической корректности [07:29].
3.  **Выбор лучшего:** Выбирается решение с наивысшим баллом от верификатора.

Этот подход позволил значительно превзойти результаты обычного дообучения на математических данных [08:08]. Янник подчеркивает, что верификаторы позволяют модели «думать» дольше, генерируя больше попыток, что является ключом к решению задач, требующих рассуждений. Также обсуждается датасет GSM8K (8.5 тысяч задач), на котором проводились тесты [08:35]. По мнению автора, это важный шаг на пути к ИИ, способному к проверке собственных выводов.

## 👁️ Meta Ego4D: Мир глазами человека
[[JUMP:19:23]]

Компания Meta (ранее Facebook) представила Ego4D — колоссальный проект по сбору видеоданных «от первого лица» (egocentric vision) [19:36]. В отличие от традиционных датасетов, где камера смотрит на объект со стороны, Ego4D показывает мир глазами участника событий.

Масштаб проекта впечатляет:

*   **3025 часов видео** [21:13].
*   **9 стран** и 746 участников из разных культурных контекстов [20:57].
*   Данные включают повседневные активности: приготовление еды, работу в мастерской, общение.

Янник Кильхер объясняет, что этот датасет критически важен для носимых устройств дополненной реальности (AR) и роботов-помощников [21:28]. С его помощью ИИ должен научиться отвечать на вопросы типа: «Где я оставил ключи?» или «Что этот человек сказал мне минуту назад?». Ведущий замечает, что аннотирование таких данных — огромный труд, требующий фиксации взглядов, манипуляций руками и аудиоряда [21:40].

## 🧠 Оптимизация и новые инструменты: Microsoft и Weights & Biases
[[JUMP:22:07]]

В технической части выпуска Янник рассматривает несколько важных обновлений в инструментарии ML-инженеров:

*   **Configurable Floating Point (Microscaling):** Рассказывается о новых форматах чисел (например, MX-форматы от Microsoft и NVIDIA), которые позволяют использовать меньше битов (4-8 бит) для весов моделей без потери точности [22:20]. Это критично для ускорения обучения гигантских моделей.
*   **Weights & Biases (W&B):** Ведущий демонстрирует возможности платформы для отслеживания экспериментов [24:31]. Он подчеркивает удобство использования W&B при работе в командах: возможность сохранять артефакты (модели, датасеты), сравнивать графики обучения в реальном времени и создавать отчеты. По мнению Янника, это «золотой стандарт» для современной разработки [24:57].
*   **Hugging Face Spaces:** Упоминается рост популярности платформы для быстрого деплоя демо-версий моделей, что демократизирует доступ к результатам исследований [27:42].

## 📑 Научная этика и «бумажные фабрики»
[[JUMP:09:45]]

Янник затрагивает острую тему чистоты научных публикаций. Обсуждаются подозрения в адрес некоторых крупных компаний, которые якобы ограничивают своих исследователей в публикации работ, способных нанести репутационный ущерб или раскрыть коммерческие тайны [10:12]. 

В частности, упоминается кейс вокруг этических принципов Google и увольнения сотрудников (в контексте истории Тимнит Гебру, хотя Янник фокусируется на системных процессах) [10:40]. По словам ведущего, в индустрии существует напряжение между «открытой наукой» и корпоративными интересами. Он также упоминает рост числа низкокачественных статей в ML, что затрудняет поиск действительно прорывных идей среди «шума» [11:23].

---