# Q STAR 2.0: как технология MIT позволяет ИИ обучаться в реальном времени

Источник: https://www.youtube.com/watch?v=hkiozZAoJ_c
Канал: Wes Roth
Опубликовано: 21.11.2024

---

В мире искусственного интеллекта разгорается дискуссия о том, достигло ли масштабирование нейросетей своего предела. Однако последние разработки, в частности новая работа исследователей из MIT, указывают на появление «Q STAR 2.0» — технологии, позволяющей моделям обучаться прямо в процессе решения задачи. Исследователь ИИ Уэс Рот (Wes Roth) разбирает, как новый метод Test-Time Training (TTT) позволяет даже небольшим моделям достигать уровня человеческого интеллекта в сложнейших тестах на абстрактное мышление.

## 🇨🇳 Китайский ответ OpenAI: DeepSeek R1 бросает вызов
[[JUMP:0:00]]

На фоне слухов о замедлении прогресса ИИ, китайская модель DeepSeek R1 Lite Preview показала результаты, сопоставимые с OpenAI o1 (известной под кодовым именем Strawberry) всего через пару месяцев после выхода последней [0:28]. Это означает, что исследователям удалось быстро разгадать и воспроизвести механизмы «длительного размышления», которые OpenAI считала своим главным преимуществом.

Согласно графикам, представленным в видео, DeepSeek R1 в некоторых тестах даже превосходит o1 Preview, хотя в среднем пока немного уступает [0:40]. По мнению Уэса Рота, это свидетельствует о том, что открытые разработки и конкуренция со стороны Китая будут только усиливаться, лишая лидеров рынка монополии на продвинутые методы рассуждения.

## 🧠 Бенчмарк Arc AGI: настоящий тест на разумность
[[JUMP:1:07]]

Большинство современных тестов ИИ (бенчмарков) стали бесполезными, так как ответы на них могут содержаться в обучающих данных моделей. Франсуа Шолле (François Chollet), создатель библиотеки Keras и исследователь в Google, предложил бенчмарк Arc AGI как единственный достоверный способ измерения ИИ [1:21]. 

Ключевые идеи Франсуа Шолле относительно интеллекта:

*   **Навык — не равно интеллект:** Шахматные движки или AlphaGo могут обыграть любого человека, но они узкоспециализированы и не обладают общим интеллектом [7:16].
*   **Проблема памяти:** Современные языковые модели часто не «думают», а просто извлекают из памяти вариации того, что уже видели [7:45].
*   **Способность к обобщению:** Истинный интеллект — это умение решать абсолютно новые задачи, используя минимальное количество примеров [5:54].

Бенчмарк Arc AGI состоит из визуальных головоломок, где нужно понять логику изменения цветов и форм. Человек легко справляется с ними на 85%, в то время как лучшие ИИ-модели до недавнего времени показывали крайне низкие результаты [10:08].

## 🐕 Аналогия с полосой препятствий: что такое обобщение
[[JUMP:2:01]]

Для объяснения разницы между обучением и реальным интеллектом Уэс Рот приводит аналогию с собакой на полосе препятствий:

1.  **Тренировочные данные:** Пять конкретных трасс на заднем дворе, по которым собака бегает каждый день [2:28].
2.  **Переобучение (Overfitting):** Собака идеально запоминает эти пять трасс, но теряется на любых других [4:10].
3.  **Обобщение (Generalization):** Собака понимает сам принцип преодоления препятствий и может пройти любую новую трассу на соревнованиях [3:32].
4.  **Тестовые данные:** Совершенно новая полоса препятствий, которую собака видит впервые [3:05].

Цель проекта Arc AGI — заставить нейросеть «понять принципы», а не просто заучить ответы [3:58].

## ⚡️ Прорыв от MIT: Test-Time Training (TTT) против Test-Time Compute
[[JUMP:11:07]]

Главная новость выпуска — научная работа MIT «Удивительная эффективность обучения во время тестирования для абстрактного мышления» (The surprising effectiveness of test time training for abstract reasoning). Уэс Рот называет этот подход «Q STAR 2.0» [12:07]. 

Различия в подходах к работе нейросетей:

*   **Классические модели (GPT-4):** Статичны. Обучаются один раз, затем выдают ответы на основе того, что помнят [10:48].
*   **Test-Time Compute (OpenAI o1 / DeepSeek):** Модели дают больше времени на размышления (генерацию скрытых токенов мысли), но сами параметры модели не меняются [11:14].
*   **Test-Time Training (TTT):** Модель временно обновляет свои собственные веса (параметры) прямо во время обработки конкретного вопроса [12:46].

По словам Уэса Рота, Марк Цукерберг ранее намекал на «стирание грани между обучением и выводом» (inference), и метод TTT является воплощением этой идеи [13:00].

## 🛠 Техническая реализация метода TTT
[[JUMP:14:56]]

Метод, предложенный MIT, позволяет модели адаптироваться к конкретной задаче за доли секунды. Это происходит в несколько этапов:

1.  **Создание синтетических данных:** На основе конкретного вопроса теста модель сама генерирует для себя похожие примеры и задачи (своего рода «тренировочные тесты для самопроверки») [16:04].
2.  **Микро-обучение:** Параметры нейросети (её цифровой «мозг») временно корректируются, чтобы минимизировать ошибки на этих синтетических примерах [18:15].
3.  **Выполнение прогноза:** Обновленная модель решает основную задачу теста [18:28].
4.  **Сброс системы:** После выдачи ответа модель возвращается к исходному состоянию, чтобы «забыть» лишнее и быть готовой к следующей задаче [18:35].

Результаты впечатляют: использование TTT на модели с 8 миллиардами параметров (что считается очень маленьким размером) позволило достичь точности в 61,9% на Arc AGI [13:50]. Это практически совпадает со средним результатом обычного человека [14:04].

## 🔮 Будущее AGI: взломала ли OpenAI этот код?
[[JUMP:19:10]]

Уэс Рот задается вопросом: если маленькая модель 8B достигла уровня человека с помощью TTT, на что способны гиганты вроде OpenAI или Google, если применят этот метод к своим мощным системам? [20:46].

Глава OpenAI Сэм Альтман в недавней переписке в соцсетях намекнул, что они, возможно, уже решили проблему бенчмарка Arc AGI [20:33]. Если это так, то мир стоит на пороге создания настоящего общего искусственного интеллекта (AGI), способного решать задачи, к которым его никогда не готовили заранее. Победители текущего этапа соревнования Arc AGI будут объявлены 6 декабря [20:06], и это событие может стать поворотным моментом в истории индустрии.