Уэс Рот: «ИИ от MIT научился переписывать собственные веса, чтобы стать умнее»

Исследователи из MIT представили концепцию «самоадаптирующихся языковых моделей» (Self-Adaptive Language Models, SEAL), которые способны буквально «переписывать свой мозг» в реальном времени для решения новых задач. Автор канала Wes Roth разбирает, как этот прорыв позволяет ИИ преодолеть ограничения статичного обучения, превращая модели из «амнезиков» в полноценных учеников, способных к непрерывному самосовершенствованию.

🧠 Прорыв MIT: Модели, которые меняют собственные «веса» 0:00

Традиционные большие языковые модели (LLM), такие как GPT-4 или Claude, являются статичными после завершения этапа обучения. Как отмечает Уэс Рот, несмотря на их мощь, они не могут адаптировать свои внутренние параметры (веса) в ответ на новые задачи или примеры . Исследователи из MIT предложили фреймворк SEAL, который позволяет моделям:

Самостоятельно генерировать данные для тонкой настройки (fine-tuning).
Формировать директивы для обновления собственных весов.
Использовать цикл обучения с подкреплением (RL), чтобы оценивать эффективность этих правок .

По словам одного из авторов работы, Адама Цвигера, этот подход открывает путь к созданию системы «учитель — ученик», где одна модель (или та же самая модель в другой роли) готовит «учебные курсы» для улучшения своих способностей . Рот подчеркивает, что это ранняя стадия того, что многие предсказывали годами: ИИ, способный улучшать свой цифровой интеллект без участия человека .

🛠 Техническая база: От статичных весов к динамическому обучению 1:29

Чтобы понять значимость SEAL, ведущий объясняет устройство нейросетей через аналогию с человеческим мозгом. В нашем мозгу нейроны соединены синапсами; в ИИ эти связи представлены числами — «весами» . Обычно процесс обучения (градиентный спуск) направлен на минимизацию «функции потерь» — разницы между предсказанием модели и реальностью .

После завершения обучения модель «замерзает». Тонкая настройка (fine-tuning) обычно используется для адаптации модели под конкретную узкую задачу на небольшом наборе данных . Однако SEAL делает этот процесс автономным:

Получив новый входной сигнал, модель создает «селф-эдит» (самостоятельную правку).
Она может реструктурировать информацию, задавать гиперпараметры оптимизации или вызывать инструменты для дополнения данных .
Эти изменения приводят к «стойким обновлениям весов», обеспечивая долгосрочную адаптацию, а не просто временное удержание информации в контекстном окне .

✍️ Аналогия со студентом: Почему «конспекты» лучше зубрежки 4:44

Авторы статьи из MIT приводят аналогию с человеческим обучением. Студент, готовясь к экзамену, не просто перечитывает учебник, а пишет конспекты. В процессе переработки информации (лекций, книг) в собственные заметки происходит ассимиляция знаний — данные «впечатываются» в мозг .

Уэс Рот делится личным опытом, подтверждающим эту теорию:

Он утверждает, что гораздо лучше запоминает научные работы по машинному обучению, когда записывает видео о них .
Процесс объяснения вслух, выделения текста маркером и последующего монтажа видео (где он слышит себя 50 раз) создает мощный эффект обучения .

По мнению Рота, современные LLM лишены этой возможности — они обучаются на данных «как есть», не имея возможности разработать собственные «индивидуальные стратегии» обучения . SEAL же позволяет модели создавать свои «конспекты» (синтетические данные) и обучаться именно на них .

📈 Результаты тестов: Превосходство над GPT-4 8:26

Система SEAL была протестирована на двух ключевых задачах: интеграция новых фактов и решение головоломок ARC AGI. Результаты оказались впечатляющими:

В задаче ответов на вопросы производительность выросла с 33,5% до 47% .
Синтетические данные, созданные самой моделью для своего обучения, оказались эффективнее данных, сгенерированных GPT-4 .

Особое внимание Рот уделяет бенчмарку ARC AGI. Эти задачи интуитивно понятны людям, но крайне сложны для ИИ, так как требуют выявления закономерностей «на лету» . Ведущий называет современные LLM «амнезиками», потому что они не учатся в процессе выполнения теста, полагаясь только на ограниченное контекстное окно . SEAL решает эту проблему, позволяя модели временно менять веса под конкретный тип задач в процессе тестирования .

🔄 Двойной цикл обучения и «интуиция» вместо оценок 12:36

Алгоритм SEAL состоит из двух вложенных циклов:

Внешний цикл (RL): Оптимизирует процесс генерации правок (учит «учителя» лучше учить) .
Внутренний цикл: Применяет эти правки для обновления весов через градиентный спуск .

Рот также упоминает еще более радикальные исследования, появившиеся на днях. По его словам, некоторые ученые утверждают, что ИИ может обучаться даже без внешних наград (правильных ответов) . Вместо этого в качестве сигнала для обучения с подкреплением можно использовать «уверенность» или «интуицию» модели: если модель уверена в своем ответе, это коррелирует с его правильностью . Ведущий признает, что эта идея звучит «безумно», но обещает обсудить её подробнее в следующем подкасте с экс-сотрудниками Google .

🚀 Решение проблемы «стен данных» и будущее ИИ-агентов 15:20

Человечество приближается к «стене данных» — моменту, когда все доступные тексты, написанные людьми, будут использованы для обучения . Рот считает, что выход — в синтетических данных. Примером успеха этого подхода он называет проекты Google DeepMind — AlphaGeometry и AlphaProof, которые почти достигли уровня золотой медали на Международной математической олимпиаде 2024 года благодаря тренировкам на огромных массивах синтетических задач .

В будущем SEAL может позволить моделям:

Изучать научные статьи и самостоятельно генерировать тысячи страниц разъяснений для самосовершенствования .
Обновлять веса прямо в процессе рассуждений (mid-reasoning), чтобы корректировать ход своих мыслей .

Наибольший потенциал SEAL видится в создании автономных ИИ-агентов. Сегодня агенты часто «теряют нить» (lose the plot) при выполнении длительных задач, потому что не сохраняют опыт, полученный в процессе работы .

Уэс Рот приводит яркое сравнение:

Представьте коллегу, который ходит на работу год, но не усвоил ни одного урока и совершает те же ошибки, что и в первый день. Это — нынешние ИИ-агенты .

Технология SEAL может стать «тем самым исправлением», которое позволит агентам накапливать опыт, менять свое поведение на основе прошлых взаимодействий и наконец-то стать по-настоящему полезными в долгосрочных проектах без постоянного надзора человека .