# Уэс Рот: «ИИ от MIT научился переписывать собственные веса, чтобы стать умнее»

Источник: https://www.youtube.com/watch?v=7e7iCrUREmE
Канал: Wes Roth
Опубликовано: 16.06.2025

---

Исследователи из MIT представили концепцию «самоадаптирующихся языковых моделей» (Self-Adaptive Language Models, SEAL), которые способны буквально «переписывать свой мозг» в реальном времени для решения новых задач. Автор канала Wes Roth разбирает, как этот прорыв позволяет ИИ преодолеть ограничения статичного обучения, превращая модели из «амнезиков» в полноценных учеников, способных к непрерывному самосовершенствованию.

## 🧠 Прорыв MIT: Модели, которые меняют собственные «веса»
[[JUMP:0:00]]

Традиционные большие языковые модели (LLM), такие как GPT-4 или Claude, являются статичными после завершения этапа обучения. Как отмечает Уэс Рот, несмотря на их мощь, они не могут адаптировать свои внутренние параметры (веса) в ответ на новые задачи или примеры [0:12]. Исследователи из MIT предложили фреймворк SEAL, который позволяет моделям:

*   Самостоятельно генерировать данные для тонкой настройки (fine-tuning).
*   Формировать директивы для обновления собственных весов.
*   Использовать цикл обучения с подкреплением (RL), чтобы оценивать эффективность этих правок [0:38].

По словам одного из авторов работы, Адама Цвигера, этот подход открывает путь к созданию системы «учитель — ученик», где одна модель (или та же самая модель в другой роли) готовит «учебные курсы» для улучшения своих способностей [0:25]. Рот подчеркивает, что это ранняя стадия того, что многие предсказывали годами: ИИ, способный улучшать свой цифровой интеллект без участия человека [1:04].

## 🛠 Техническая база: От статичных весов к динамическому обучению
[[JUMP:1:29]]

Чтобы понять значимость SEAL, ведущий объясняет устройство нейросетей через аналогию с человеческим мозгом. В нашем мозгу нейроны соединены синапсами; в ИИ эти связи представлены числами — «весами» [1:42]. Обычно процесс обучения (градиентный спуск) направлен на минимизацию «функции потерь» — разницы между предсказанием модели и реальностью [2:45].

После завершения обучения модель «замерзает». Тонкая настройка (fine-tuning) обычно используется для адаптации модели под конкретную узкую задачу на небольшом наборе данных [3:24]. Однако SEAL делает этот процесс автономным:

1.  Получив новый входной сигнал, модель создает «селф-эдит» (самостоятельную правку).
2.  Она может реструктурировать информацию, задавать гиперпараметры оптимизации или вызывать инструменты для дополнения данных [4:05].
3.  Эти изменения приводят к «стойким обновлениям весов», обеспечивая долгосрочную адаптацию, а не просто временное удержание информации в контекстном окне [4:18].

## ✍️ Аналогия со студентом: Почему «конспекты» лучше зубрежки
[[JUMP:4:44]]

Авторы статьи из MIT приводят аналогию с человеческим обучением. Студент, готовясь к экзамену, не просто перечитывает учебник, а пишет конспекты. В процессе переработки информации (лекций, книг) в собственные заметки происходит ассимиляция знаний — данные «впечатываются» в мозг [5:21].

Уэс Рот делится личным опытом, подтверждающим эту теорию:

*   Он утверждает, что гораздо лучше запоминает научные работы по машинному обучению, когда записывает видео о них [6:14].
*   Процесс объяснения вслух, выделения текста маркером и последующего монтажа видео (где он слышит себя 50 раз) создает мощный эффект обучения [6:41].

По мнению Рота, современные LLM лишены этой возможности — они обучаются на данных «как есть», не имея возможности разработать собственные «индивидуальные стратегии» обучения [6:54]. SEAL же позволяет модели создавать свои «конспекты» (синтетические данные) и обучаться именно на них [8:52].

## 📈 Результаты тестов: Превосходство над GPT-4
[[JUMP:8:26]]

Система SEAL была протестирована на двух ключевых задачах: интеграция новых фактов и решение головоломок ARC AGI. Результаты оказались впечатляющими:

*   В задаче ответов на вопросы производительность выросла с 33,5% до 47% [9:19].
*   Синтетические данные, созданные самой моделью для своего обучения, оказались эффективнее данных, сгенерированных GPT-4 [9:31].

Особое внимание Рот уделяет бенчмарку ARC AGI. Эти задачи интуитивно понятны людям, но крайне сложны для ИИ, так как требуют выявления закономерностей «на лету» [9:59]. Ведущий называет современные LLM «амнезиками», потому что они не учатся в процессе выполнения теста, полагаясь только на ограниченное контекстное окно [10:39]. SEAL решает эту проблему, позволяя модели временно менять веса под конкретный тип задач в процессе тестирования [12:10].

## 🔄 Двойной цикл обучения и «интуиция» вместо оценок
[[JUMP:12:36]]

Алгоритм SEAL состоит из двух вложенных циклов:

1.  **Внешний цикл (RL):** Оптимизирует процесс генерации правок (учит «учителя» лучше учить) [12:50].
2.  **Внутренний цикл:** Применяет эти правки для обновления весов через градиентный спуск [13:04].

Рот также упоминает еще более радикальные исследования, появившиеся на днях. По его словам, некоторые ученые утверждают, что ИИ может обучаться даже без внешних наград (правильных ответов) [13:56]. Вместо этого в качестве сигнала для обучения с подкреплением можно использовать «уверенность» или «интуицию» модели: если модель уверена в своем ответе, это коррелирует с его правильностью [14:38]. Ведущий признает, что эта идея звучит «безумно», но обещает обсудить её подробнее в следующем подкасте с экс-сотрудниками Google [15:05].

## 🚀 Решение проблемы «стен данных» и будущее ИИ-агентов
[[JUMP:15:20]]

Человечество приближается к «стене данных» — моменту, когда все доступные тексты, написанные людьми, будут использованы для обучения [15:20]. Рот считает, что выход — в синтетических данных. Примером успеха этого подхода он называет проекты Google DeepMind — AlphaGeometry и AlphaProof, которые почти достигли уровня золотой медали на Международной математической олимпиаде 2024 года благодаря тренировкам на огромных массивах синтетических задач [15:58].

В будущем SEAL может позволить моделям:

*   Изучать научные статьи и самостоятельно генерировать тысячи страниц разъяснений для самосовершенствования [16:39].
*   Обновлять веса прямо в процессе рассуждений (mid-reasoning), чтобы корректировать ход своих мыслей [17:43].

Наибольший потенциал SEAL видится в создании автономных ИИ-агентов. Сегодня агенты часто «теряют нить» (lose the plot) при выполнении длительных задач, потому что не сохраняют опыт, полученный в процессе работы [19:25].

Уэс Рот приводит яркое сравнение:

> Представьте коллегу, который ходит на работу год, но не усвоил ни одного урока и совершает те же ошибки, что и в первый день. Это — нынешние ИИ-агенты [20:16].

Технология SEAL может стать «тем самым исправлением», которое позволит агентам накапливать опыт, менять свое поведение на основе прошлых взаимодействий и наконец-то стать по-настоящему полезными в долгосрочных проектах без постоянного надзора человека [20:42].