Google Pathways и тайны OpenAI: как ИИ учится решать задачи и видеть мир

Yannic Kilcher 58,8 тыс. 36 мин 4 мин 05.11.2021
Главное

Янник Кильхер в новом выпуске ML News анализирует амбициозный проект Google Pathways, новую систему OpenAI для решения школьных математических задач и масштабный датасет Meta для обучения ИИ восприятию мира «от первого лица». В центре внимания — переход от узкоспециализированных моделей к универсальным архитектурам и методам проверки логических выводов нейросетей.

🚀 Google Pathways: Будущее универсального интеллекта 2:15

Компания Google представила Pathways — новую архитектуру обучения моделей, которая призвана решить главные проблемы современного ИИ: узкую специализацию и неэффективность вычислений . Янник Кильхер отмечает, что современные модели обычно обучаются «с нуля» для каждой новой задачи. Pathways же нацелена на создание единой модели, способной выполнять тысячи различных задач, обобщать знания и обучаться более эффективно.

Ключевые особенности Pathways:

Янник считает, что Google пытается отойти от парадигмы «одна модель — один навык» к системе, которая напоминает биологический интеллект . Однако он подчеркивает, что пока это лишь архитектурное видение, и реальные масштабируемые результаты еще предстоит увидеть.

🧮 OpenAI и решение математических задач 6:36

OpenAI опубликовала работу, посвященную решению сложных математических задач школьного уровня с использованием нейросетей . Основная проблема здесь заключается не в вычислениях, а в многошаговом логическом выводе. Стандартные языковые модели часто допускают мелкие ошибки в середине решения, что приводит к неверному итогу.

Для решения этой проблемы OpenAI применила метод «верификаторов» (verifiers):

  1. Генерация решений: Модель создает множество вариантов ответа .
  2. Проверка (Verification): Отдельная модель-верификатор оценивает каждое решение на предмет логической корректности .
  3. Выбор лучшего: Выбирается решение с наивысшим баллом от верификатора.

Этот подход позволил значительно превзойти результаты обычного дообучения на математических данных . Янник подчеркивает, что верификаторы позволяют модели «думать» дольше, генерируя больше попыток, что является ключом к решению задач, требующих рассуждений. Также обсуждается датасет GSM8K (8.5 тысяч задач), на котором проводились тесты . По мнению автора, это важный шаг на пути к ИИ, способному к проверке собственных выводов.

👁️ Meta Ego4D: Мир глазами человека 19:23

Компания Meta (ранее Facebook) представила Ego4D — колоссальный проект по сбору видеоданных «от первого лица» (egocentric vision) . В отличие от традиционных датасетов, где камера смотрит на объект со стороны, Ego4D показывает мир глазами участника событий.

Масштаб проекта впечатляет:

Янник Кильхер объясняет, что этот датасет критически важен для носимых устройств дополненной реальности (AR) и роботов-помощников . С его помощью ИИ должен научиться отвечать на вопросы типа: «Где я оставил ключи?» или «Что этот человек сказал мне минуту назад?». Ведущий замечает, что аннотирование таких данных — огромный труд, требующий фиксации взглядов, манипуляций руками и аудиоряда .

🧠 Оптимизация и новые инструменты: Microsoft и Weights & Biases 22:07

В технической части выпуска Янник рассматривает несколько важных обновлений в инструментарии ML-инженеров:

📑 Научная этика и «бумажные фабрики» 9:45

Янник затрагивает острую тему чистоты научных публикаций. Обсуждаются подозрения в адрес некоторых крупных компаний, которые якобы ограничивают своих исследователей в публикации работ, способных нанести репутационный ущерб или раскрыть коммерческие тайны .

В частности, упоминается кейс вокруг этических принципов Google и увольнения сотрудников (в контексте истории Тимнит Гебру, хотя Янник фокусируется на системных процессах) . По словам ведущего, в индустрии существует напряжение между «открытой наукой» и корпоративными интересами. Он также упоминает рост числа низкокачественных статей в ML, что затрудняет поиск действительно прорывных идей среди «шума» .


💬 Цитаты

«Pathways — это попытка Google уйти от обучения тысячи моделей для тысячи задач к одной модели, которая умеет всё.»

Янник Кильхер 02:40

«Верификаторы позволяют нейросети 'думать' дольше, проверяя свои собственные догадки.»

Янник Кильхер 07:56
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Разреженная активация
Метод работы нейросети, при котором для каждого конкретного входа задействуется лишь малая часть всей структуры.
Мультимодальность
Способность модели ИИ одновременно работать с данными разных типов: текстом, картинками, видео и звуком.
Верификатор
Вспомогательная модель, которая оценивает правильность решения, предложенного основной моделью.
📊 Цифры
🗓 Хронология
  1. Октябрь 2021 Google анонсирует архитектуру Pathways и публикует видение будущего ИИ.
  2. Октябрь 2021 Meta (Facebook) представляет проект Ego4D и крупнейший в истории датасет видео от первого лица.
⚖️ Другая сторона
Искусственный интеллект Google Pathways OpenAI Meta Ego4D Yannic Kilcher Weights & Biases