Q STAR 2.0: как технология MIT позволяет ИИ обучаться в реальном времени

Wes Roth 112 тыс. 21 мин 4 мин 21.11.2024
Главное

В мире искусственного интеллекта разгорается дискуссия о том, достигло ли масштабирование нейросетей своего предела. Однако последние разработки, в частности новая работа исследователей из MIT, указывают на появление «Q STAR 2.0» — технологии, позволяющей моделям обучаться прямо в процессе решения задачи. Исследователь ИИ Уэс Рот (Wes Roth) разбирает, как новый метод Test-Time Training (TTT) позволяет даже небольшим моделям достигать уровня человеческого интеллекта в сложнейших тестах на абстрактное мышление.

🇨🇳 Китайский ответ OpenAI: DeepSeek R1 бросает вызов 0:00

На фоне слухов о замедлении прогресса ИИ, китайская модель DeepSeek R1 Lite Preview показала результаты, сопоставимые с OpenAI o1 (известной под кодовым именем Strawberry) всего через пару месяцев после выхода последней . Это означает, что исследователям удалось быстро разгадать и воспроизвести механизмы «длительного размышления», которые OpenAI считала своим главным преимуществом.

Согласно графикам, представленным в видео, DeepSeek R1 в некоторых тестах даже превосходит o1 Preview, хотя в среднем пока немного уступает . По мнению Уэса Рота, это свидетельствует о том, что открытые разработки и конкуренция со стороны Китая будут только усиливаться, лишая лидеров рынка монополии на продвинутые методы рассуждения.

🧠 Бенчмарк Arc AGI: настоящий тест на разумность 1:07

Большинство современных тестов ИИ (бенчмарков) стали бесполезными, так как ответы на них могут содержаться в обучающих данных моделей. Франсуа Шолле (François Chollet), создатель библиотеки Keras и исследователь в Google, предложил бенчмарк Arc AGI как единственный достоверный способ измерения ИИ .

Ключевые идеи Франсуа Шолле относительно интеллекта:

Бенчмарк Arc AGI состоит из визуальных головоломок, где нужно понять логику изменения цветов и форм. Человек легко справляется с ними на 85%, в то время как лучшие ИИ-модели до недавнего времени показывали крайне низкие результаты .

🐕 Аналогия с полосой препятствий: что такое обобщение 2:01

Для объяснения разницы между обучением и реальным интеллектом Уэс Рот приводит аналогию с собакой на полосе препятствий:

  1. Тренировочные данные: Пять конкретных трасс на заднем дворе, по которым собака бегает каждый день .
  2. Переобучение (Overfitting): Собака идеально запоминает эти пять трасс, но теряется на любых других .
  3. Обобщение (Generalization): Собака понимает сам принцип преодоления препятствий и может пройти любую новую трассу на соревнованиях .
  4. Тестовые данные: Совершенно новая полоса препятствий, которую собака видит впервые .

Цель проекта Arc AGI — заставить нейросеть «понять принципы», а не просто заучить ответы .

⚡️ Прорыв от MIT: Test-Time Training (TTT) против Test-Time Compute 11:07

Главная новость выпуска — научная работа MIT «Удивительная эффективность обучения во время тестирования для абстрактного мышления» (The surprising effectiveness of test time training for abstract reasoning). Уэс Рот называет этот подход «Q STAR 2.0» .

Различия в подходах к работе нейросетей:

По словам Уэса Рота, Марк Цукерберг ранее намекал на «стирание грани между обучением и выводом» (inference), и метод TTT является воплощением этой идеи .

🛠 Техническая реализация метода TTT 14:56

Метод, предложенный MIT, позволяет модели адаптироваться к конкретной задаче за доли секунды. Это происходит в несколько этапов:

  1. Создание синтетических данных: На основе конкретного вопроса теста модель сама генерирует для себя похожие примеры и задачи (своего рода «тренировочные тесты для самопроверки») .
  2. Микро-обучение: Параметры нейросети (её цифровой «мозг») временно корректируются, чтобы минимизировать ошибки на этих синтетических примерах .
  3. Выполнение прогноза: Обновленная модель решает основную задачу теста .
  4. Сброс системы: После выдачи ответа модель возвращается к исходному состоянию, чтобы «забыть» лишнее и быть готовой к следующей задаче .

Результаты впечатляют: использование TTT на модели с 8 миллиардами параметров (что считается очень маленьким размером) позволило достичь точности в 61,9% на Arc AGI . Это практически совпадает со средним результатом обычного человека .

🔮 Будущее AGI: взломала ли OpenAI этот код? 19:10

Уэс Рот задается вопросом: если маленькая модель 8B достигла уровня человека с помощью TTT, на что способны гиганты вроде OpenAI или Google, если применят этот метод к своим мощным системам? .

Глава OpenAI Сэм Альтман в недавней переписке в соцсетях намекнул, что они, возможно, уже решили проблему бенчмарка Arc AGI . Если это так, то мир стоит на пороге создания настоящего общего искусственного интеллекта (AGI), способного решать задачи, к которым его никогда не готовили заранее. Победители текущего этапа соревнования Arc AGI будут объявлены 6 декабря , и это событие может стать поворотным моментом в истории индустрии.

💬 Цитаты

«Интеллект — это не умение решать конкретную задачу, это способность обучаться новым навыкам эффективно.»

Франсуа Шолле 06:22

«Мы впервые видим реальное стирание границ между фазой обучения и фазой работы (inference).»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Inference
Процесс использования уже обученной нейросети для получения предсказаний на новых данных.
Overfitting
Ошибка обучения, при которой модель слишком хорошо запоминает тренировочные примеры, но не может работать с новыми данными.
Synthetic Data
Данные, созданные искусственно (другой нейросетью или алгоритмом), а не взятые из реального мира.
Parameters (веса)
Внутренние переменные нейросети, которые определяют, как она обрабатывает входящие сигналы.
📊 Цифры
🗓 Хронология
  1. 2019 Франсуа Шолле публикует работу «On the Measure of Intelligence» и представляет Arc AGI.
  2. 2023 Утечка информации о модели Q* (Strawberry) от OpenAI.
  3. Ноябрь 2024 Релиз китайской модели DeepSeek R1 Lite Preview.
  4. 6 декабря 2024 Официальное объявление победителей соревнования Arc AGI Prize.
⚖️ Другая сторона
Искусственный интеллект MIT Q STAR 2.0 Arc AGI Test-Time Training DeepSeek R1