В мире искусственного интеллекта разгорается дискуссия о том, достигло ли масштабирование нейросетей своего предела. Однако последние разработки, в частности новая работа исследователей из MIT, указывают на появление «Q STAR 2.0» — технологии, позволяющей моделям обучаться прямо в процессе решения задачи. Исследователь ИИ Уэс Рот (Wes Roth) разбирает, как новый метод Test-Time Training (TTT) позволяет даже небольшим моделям достигать уровня человеческого интеллекта в сложнейших тестах на абстрактное мышление.
🇨🇳 Китайский ответ OpenAI: DeepSeek R1 бросает вызов 0:00
На фоне слухов о замедлении прогресса ИИ, китайская модель DeepSeek R1 Lite Preview показала результаты, сопоставимые с OpenAI o1 (известной под кодовым именем Strawberry) всего через пару месяцев после выхода последней . Это означает, что исследователям удалось быстро разгадать и воспроизвести механизмы «длительного размышления», которые OpenAI считала своим главным преимуществом.
Согласно графикам, представленным в видео, DeepSeek R1 в некоторых тестах даже превосходит o1 Preview, хотя в среднем пока немного уступает . По мнению Уэса Рота, это свидетельствует о том, что открытые разработки и конкуренция со стороны Китая будут только усиливаться, лишая лидеров рынка монополии на продвинутые методы рассуждения.
🧠 Бенчмарк Arc AGI: настоящий тест на разумность 1:07
Большинство современных тестов ИИ (бенчмарков) стали бесполезными, так как ответы на них могут содержаться в обучающих данных моделей. Франсуа Шолле (François Chollet), создатель библиотеки Keras и исследователь в Google, предложил бенчмарк Arc AGI как единственный достоверный способ измерения ИИ .
Ключевые идеи Франсуа Шолле относительно интеллекта:
- Навык — не равно интеллект: Шахматные движки или AlphaGo могут обыграть любого человека, но они узкоспециализированы и не обладают общим интеллектом .
- Проблема памяти: Современные языковые модели часто не «думают», а просто извлекают из памяти вариации того, что уже видели .
- Способность к обобщению: Истинный интеллект — это умение решать абсолютно новые задачи, используя минимальное количество примеров .
Бенчмарк Arc AGI состоит из визуальных головоломок, где нужно понять логику изменения цветов и форм. Человек легко справляется с ними на 85%, в то время как лучшие ИИ-модели до недавнего времени показывали крайне низкие результаты .
🐕 Аналогия с полосой препятствий: что такое обобщение 2:01
Для объяснения разницы между обучением и реальным интеллектом Уэс Рот приводит аналогию с собакой на полосе препятствий:
- Тренировочные данные: Пять конкретных трасс на заднем дворе, по которым собака бегает каждый день .
- Переобучение (Overfitting): Собака идеально запоминает эти пять трасс, но теряется на любых других .
- Обобщение (Generalization): Собака понимает сам принцип преодоления препятствий и может пройти любую новую трассу на соревнованиях .
- Тестовые данные: Совершенно новая полоса препятствий, которую собака видит впервые .
Цель проекта Arc AGI — заставить нейросеть «понять принципы», а не просто заучить ответы .
⚡️ Прорыв от MIT: Test-Time Training (TTT) против Test-Time Compute 11:07
Главная новость выпуска — научная работа MIT «Удивительная эффективность обучения во время тестирования для абстрактного мышления» (The surprising effectiveness of test time training for abstract reasoning). Уэс Рот называет этот подход «Q STAR 2.0» .
Различия в подходах к работе нейросетей:
- Классические модели (GPT-4): Статичны. Обучаются один раз, затем выдают ответы на основе того, что помнят .
- Test-Time Compute (OpenAI o1 / DeepSeek): Модели дают больше времени на размышления (генерацию скрытых токенов мысли), но сами параметры модели не меняются .
- Test-Time Training (TTT): Модель временно обновляет свои собственные веса (параметры) прямо во время обработки конкретного вопроса .
По словам Уэса Рота, Марк Цукерберг ранее намекал на «стирание грани между обучением и выводом» (inference), и метод TTT является воплощением этой идеи .
🛠 Техническая реализация метода TTT 14:56
Метод, предложенный MIT, позволяет модели адаптироваться к конкретной задаче за доли секунды. Это происходит в несколько этапов:
- Создание синтетических данных: На основе конкретного вопроса теста модель сама генерирует для себя похожие примеры и задачи (своего рода «тренировочные тесты для самопроверки») .
- Микро-обучение: Параметры нейросети (её цифровой «мозг») временно корректируются, чтобы минимизировать ошибки на этих синтетических примерах .
- Выполнение прогноза: Обновленная модель решает основную задачу теста .
- Сброс системы: После выдачи ответа модель возвращается к исходному состоянию, чтобы «забыть» лишнее и быть готовой к следующей задаче .
Результаты впечатляют: использование TTT на модели с 8 миллиардами параметров (что считается очень маленьким размером) позволило достичь точности в 61,9% на Arc AGI . Это практически совпадает со средним результатом обычного человека .
🔮 Будущее AGI: взломала ли OpenAI этот код? 19:10
Уэс Рот задается вопросом: если маленькая модель 8B достигла уровня человека с помощью TTT, на что способны гиганты вроде OpenAI или Google, если применят этот метод к своим мощным системам? .
Глава OpenAI Сэм Альтман в недавней переписке в соцсетях намекнул, что они, возможно, уже решили проблему бенчмарка Arc AGI . Если это так, то мир стоит на пороге создания настоящего общего искусственного интеллекта (AGI), способного решать задачи, к которым его никогда не готовили заранее. Победители текущего этапа соревнования Arc AGI будут объявлены 6 декабря , и это событие может стать поворотным моментом в истории индустрии.