Янник Кильхер в новом выпуске ML News анализирует амбициозный проект Google Pathways, новую систему OpenAI для решения школьных математических задач и масштабный датасет Meta для обучения ИИ восприятию мира «от первого лица». В центре внимания — переход от узкоспециализированных моделей к универсальным архитектурам и методам проверки логических выводов нейросетей.
🚀 Google Pathways: Будущее универсального интеллекта 2:15
Компания Google представила Pathways — новую архитектуру обучения моделей, которая призвана решить главные проблемы современного ИИ: узкую специализацию и неэффективность вычислений . Янник Кильхер отмечает, что современные модели обычно обучаются «с нуля» для каждой новой задачи. Pathways же нацелена на создание единой модели, способной выполнять тысячи различных задач, обобщать знания и обучаться более эффективно.
Ключевые особенности Pathways:
- Мультимодальность: Модель способна обрабатывать текст, изображения и аудио одновременно, что позволяет ей лучше понимать контекст (например, отличить леопарда по звуку, картинке или описанию) .
- Разреженная активация (Sparse Activation): Вместо того чтобы активировать всю нейронную сеть для каждого запроса, Pathways задействует только нужные «пути» (pathways) . Это делает модель гораздо мощнее, но при этом экономичнее в плане энергопотребления.
- Динамическое распределение ресурсов: По словам Янника Кильхера, это похоже на работу человеческого мозга: мы не используем все свои знания о квантовой физике, когда завязываем шнурки.
Янник считает, что Google пытается отойти от парадигмы «одна модель — один навык» к системе, которая напоминает биологический интеллект . Однако он подчеркивает, что пока это лишь архитектурное видение, и реальные масштабируемые результаты еще предстоит увидеть.
🧮 OpenAI и решение математических задач 6:36
OpenAI опубликовала работу, посвященную решению сложных математических задач школьного уровня с использованием нейросетей . Основная проблема здесь заключается не в вычислениях, а в многошаговом логическом выводе. Стандартные языковые модели часто допускают мелкие ошибки в середине решения, что приводит к неверному итогу.
Для решения этой проблемы OpenAI применила метод «верификаторов» (verifiers):
- Генерация решений: Модель создает множество вариантов ответа .
- Проверка (Verification): Отдельная модель-верификатор оценивает каждое решение на предмет логической корректности .
- Выбор лучшего: Выбирается решение с наивысшим баллом от верификатора.
Этот подход позволил значительно превзойти результаты обычного дообучения на математических данных . Янник подчеркивает, что верификаторы позволяют модели «думать» дольше, генерируя больше попыток, что является ключом к решению задач, требующих рассуждений. Также обсуждается датасет GSM8K (8.5 тысяч задач), на котором проводились тесты . По мнению автора, это важный шаг на пути к ИИ, способному к проверке собственных выводов.
👁️ Meta Ego4D: Мир глазами человека 19:23
Компания Meta (ранее Facebook) представила Ego4D — колоссальный проект по сбору видеоданных «от первого лица» (egocentric vision) . В отличие от традиционных датасетов, где камера смотрит на объект со стороны, Ego4D показывает мир глазами участника событий.
Масштаб проекта впечатляет:
- 3025 часов видео .
- 9 стран и 746 участников из разных культурных контекстов .
- Данные включают повседневные активности: приготовление еды, работу в мастерской, общение.
Янник Кильхер объясняет, что этот датасет критически важен для носимых устройств дополненной реальности (AR) и роботов-помощников . С его помощью ИИ должен научиться отвечать на вопросы типа: «Где я оставил ключи?» или «Что этот человек сказал мне минуту назад?». Ведущий замечает, что аннотирование таких данных — огромный труд, требующий фиксации взглядов, манипуляций руками и аудиоряда .
🧠 Оптимизация и новые инструменты: Microsoft и Weights & Biases 22:07
В технической части выпуска Янник рассматривает несколько важных обновлений в инструментарии ML-инженеров:
- Configurable Floating Point (Microscaling): Рассказывается о новых форматах чисел (например, MX-форматы от Microsoft и NVIDIA), которые позволяют использовать меньше битов (4-8 бит) для весов моделей без потери точности . Это критично для ускорения обучения гигантских моделей.
- Weights & Biases (W&B): Ведущий демонстрирует возможности платформы для отслеживания экспериментов . Он подчеркивает удобство использования W&B при работе в командах: возможность сохранять артефакты (модели, датасеты), сравнивать графики обучения в реальном времени и создавать отчеты. По мнению Янника, это «золотой стандарт» для современной разработки .
- Hugging Face Spaces: Упоминается рост популярности платформы для быстрого деплоя демо-версий моделей, что демократизирует доступ к результатам исследований .
📑 Научная этика и «бумажные фабрики» 9:45
Янник затрагивает острую тему чистоты научных публикаций. Обсуждаются подозрения в адрес некоторых крупных компаний, которые якобы ограничивают своих исследователей в публикации работ, способных нанести репутационный ущерб или раскрыть коммерческие тайны .
В частности, упоминается кейс вокруг этических принципов Google и увольнения сотрудников (в контексте истории Тимнит Гебру, хотя Янник фокусируется на системных процессах) . По словам ведущего, в индустрии существует напряжение между «открытой наукой» и корпоративными интересами. Он также упоминает рост числа низкокачественных статей в ML, что затрудняет поиск действительно прорывных идей среди «шума» .