Google Pathways и тайны OpenAI: как ИИ учится решать задачи и видеть мир

Янник Кильхер в новом выпуске ML News анализирует амбициозный проект Google Pathways, новую систему OpenAI для решения школьных математических задач и масштабный датасет Meta для обучения ИИ восприятию мира «от первого лица». В центре внимания — переход от узкоспециализированных моделей к универсальным архитектурам и методам проверки логических выводов нейросетей.

🚀 Google Pathways: Будущее универсального интеллекта 2:15

Компания Google представила Pathways — новую архитектуру обучения моделей, которая призвана решить главные проблемы современного ИИ: узкую специализацию и неэффективность вычислений . Янник Кильхер отмечает, что современные модели обычно обучаются «с нуля» для каждой новой задачи. Pathways же нацелена на создание единой модели, способной выполнять тысячи различных задач, обобщать знания и обучаться более эффективно.

Ключевые особенности Pathways:

Мультимодальность: Модель способна обрабатывать текст, изображения и аудио одновременно, что позволяет ей лучше понимать контекст (например, отличить леопарда по звуку, картинке или описанию) .
Разреженная активация (Sparse Activation): Вместо того чтобы активировать всю нейронную сеть для каждого запроса, Pathways задействует только нужные «пути» (pathways) . Это делает модель гораздо мощнее, но при этом экономичнее в плане энергопотребления.
Динамическое распределение ресурсов: По словам Янника Кильхера, это похоже на работу человеческого мозга: мы не используем все свои знания о квантовой физике, когда завязываем шнурки.

Янник считает, что Google пытается отойти от парадигмы «одна модель — один навык» к системе, которая напоминает биологический интеллект . Однако он подчеркивает, что пока это лишь архитектурное видение, и реальные масштабируемые результаты еще предстоит увидеть.

🧮 OpenAI и решение математических задач 6:36

OpenAI опубликовала работу, посвященную решению сложных математических задач школьного уровня с использованием нейросетей . Основная проблема здесь заключается не в вычислениях, а в многошаговом логическом выводе. Стандартные языковые модели часто допускают мелкие ошибки в середине решения, что приводит к неверному итогу.

Для решения этой проблемы OpenAI применила метод «верификаторов» (verifiers):

Генерация решений: Модель создает множество вариантов ответа .
Проверка (Verification): Отдельная модель-верификатор оценивает каждое решение на предмет логической корректности .
Выбор лучшего: Выбирается решение с наивысшим баллом от верификатора.

Этот подход позволил значительно превзойти результаты обычного дообучения на математических данных . Янник подчеркивает, что верификаторы позволяют модели «думать» дольше, генерируя больше попыток, что является ключом к решению задач, требующих рассуждений. Также обсуждается датасет GSM8K (8.5 тысяч задач), на котором проводились тесты . По мнению автора, это важный шаг на пути к ИИ, способному к проверке собственных выводов.

👁️ Meta Ego4D: Мир глазами человека 19:23

Компания Meta (ранее Facebook) представила Ego4D — колоссальный проект по сбору видеоданных «от первого лица» (egocentric vision) . В отличие от традиционных датасетов, где камера смотрит на объект со стороны, Ego4D показывает мир глазами участника событий.

Масштаб проекта впечатляет:

3025 часов видео .
9 стран и 746 участников из разных культурных контекстов .
Данные включают повседневные активности: приготовление еды, работу в мастерской, общение.

Янник Кильхер объясняет, что этот датасет критически важен для носимых устройств дополненной реальности (AR) и роботов-помощников . С его помощью ИИ должен научиться отвечать на вопросы типа: «Где я оставил ключи?» или «Что этот человек сказал мне минуту назад?». Ведущий замечает, что аннотирование таких данных — огромный труд, требующий фиксации взглядов, манипуляций руками и аудиоряда .

🧠 Оптимизация и новые инструменты: Microsoft и Weights & Biases 22:07

В технической части выпуска Янник рассматривает несколько важных обновлений в инструментарии ML-инженеров:

Configurable Floating Point (Microscaling): Рассказывается о новых форматах чисел (например, MX-форматы от Microsoft и NVIDIA), которые позволяют использовать меньше битов (4-8 бит) для весов моделей без потери точности . Это критично для ускорения обучения гигантских моделей.
Weights & Biases (W&B): Ведущий демонстрирует возможности платформы для отслеживания экспериментов . Он подчеркивает удобство использования W&B при работе в командах: возможность сохранять артефакты (модели, датасеты), сравнивать графики обучения в реальном времени и создавать отчеты. По мнению Янника, это «золотой стандарт» для современной разработки .
Hugging Face Spaces: Упоминается рост популярности платформы для быстрого деплоя демо-версий моделей, что демократизирует доступ к результатам исследований .

📑 Научная этика и «бумажные фабрики» 9:45

Янник затрагивает острую тему чистоты научных публикаций. Обсуждаются подозрения в адрес некоторых крупных компаний, которые якобы ограничивают своих исследователей в публикации работ, способных нанести репутационный ущерб или раскрыть коммерческие тайны .

В частности, упоминается кейс вокруг этических принципов Google и увольнения сотрудников (в контексте истории Тимнит Гебру, хотя Янник фокусируется на системных процессах) . По словам ведущего, в индустрии существует напряжение между «открытой наукой» и корпоративными интересами. Он также упоминает рост числа низкокачественных статей в ML, что затрудняет поиск действительно прорывных идей среди «шума» .