Исследователи из MIT представили концепцию «самоадаптирующихся языковых моделей» (Self-Adaptive Language Models, SEAL), которые способны буквально «переписывать свой мозг» в реальном времени для решения новых задач. Автор канала Wes Roth разбирает, как этот прорыв позволяет ИИ преодолеть ограничения статичного обучения, превращая модели из «амнезиков» в полноценных учеников, способных к непрерывному самосовершенствованию.
🧠 Прорыв MIT: Модели, которые меняют собственные «веса» 0:00
Традиционные большие языковые модели (LLM), такие как GPT-4 или Claude, являются статичными после завершения этапа обучения. Как отмечает Уэс Рот, несмотря на их мощь, они не могут адаптировать свои внутренние параметры (веса) в ответ на новые задачи или примеры . Исследователи из MIT предложили фреймворк SEAL, который позволяет моделям:
- Самостоятельно генерировать данные для тонкой настройки (fine-tuning).
- Формировать директивы для обновления собственных весов.
- Использовать цикл обучения с подкреплением (RL), чтобы оценивать эффективность этих правок .
По словам одного из авторов работы, Адама Цвигера, этот подход открывает путь к созданию системы «учитель — ученик», где одна модель (или та же самая модель в другой роли) готовит «учебные курсы» для улучшения своих способностей . Рот подчеркивает, что это ранняя стадия того, что многие предсказывали годами: ИИ, способный улучшать свой цифровой интеллект без участия человека .
🛠 Техническая база: От статичных весов к динамическому обучению 1:29
Чтобы понять значимость SEAL, ведущий объясняет устройство нейросетей через аналогию с человеческим мозгом. В нашем мозгу нейроны соединены синапсами; в ИИ эти связи представлены числами — «весами» . Обычно процесс обучения (градиентный спуск) направлен на минимизацию «функции потерь» — разницы между предсказанием модели и реальностью .
После завершения обучения модель «замерзает». Тонкая настройка (fine-tuning) обычно используется для адаптации модели под конкретную узкую задачу на небольшом наборе данных . Однако SEAL делает этот процесс автономным:
- Получив новый входной сигнал, модель создает «селф-эдит» (самостоятельную правку).
- Она может реструктурировать информацию, задавать гиперпараметры оптимизации или вызывать инструменты для дополнения данных .
- Эти изменения приводят к «стойким обновлениям весов», обеспечивая долгосрочную адаптацию, а не просто временное удержание информации в контекстном окне .
✍️ Аналогия со студентом: Почему «конспекты» лучше зубрежки 4:44
Авторы статьи из MIT приводят аналогию с человеческим обучением. Студент, готовясь к экзамену, не просто перечитывает учебник, а пишет конспекты. В процессе переработки информации (лекций, книг) в собственные заметки происходит ассимиляция знаний — данные «впечатываются» в мозг .
Уэс Рот делится личным опытом, подтверждающим эту теорию:
- Он утверждает, что гораздо лучше запоминает научные работы по машинному обучению, когда записывает видео о них .
- Процесс объяснения вслух, выделения текста маркером и последующего монтажа видео (где он слышит себя 50 раз) создает мощный эффект обучения .
По мнению Рота, современные LLM лишены этой возможности — они обучаются на данных «как есть», не имея возможности разработать собственные «индивидуальные стратегии» обучения . SEAL же позволяет модели создавать свои «конспекты» (синтетические данные) и обучаться именно на них .
📈 Результаты тестов: Превосходство над GPT-4 8:26
Система SEAL была протестирована на двух ключевых задачах: интеграция новых фактов и решение головоломок ARC AGI. Результаты оказались впечатляющими:
- В задаче ответов на вопросы производительность выросла с 33,5% до 47% .
- Синтетические данные, созданные самой моделью для своего обучения, оказались эффективнее данных, сгенерированных GPT-4 .
Особое внимание Рот уделяет бенчмарку ARC AGI. Эти задачи интуитивно понятны людям, но крайне сложны для ИИ, так как требуют выявления закономерностей «на лету» . Ведущий называет современные LLM «амнезиками», потому что они не учатся в процессе выполнения теста, полагаясь только на ограниченное контекстное окно . SEAL решает эту проблему, позволяя модели временно менять веса под конкретный тип задач в процессе тестирования .
🔄 Двойной цикл обучения и «интуиция» вместо оценок 12:36
Алгоритм SEAL состоит из двух вложенных циклов:
- Внешний цикл (RL): Оптимизирует процесс генерации правок (учит «учителя» лучше учить) .
- Внутренний цикл: Применяет эти правки для обновления весов через градиентный спуск .
Рот также упоминает еще более радикальные исследования, появившиеся на днях. По его словам, некоторые ученые утверждают, что ИИ может обучаться даже без внешних наград (правильных ответов) . Вместо этого в качестве сигнала для обучения с подкреплением можно использовать «уверенность» или «интуицию» модели: если модель уверена в своем ответе, это коррелирует с его правильностью . Ведущий признает, что эта идея звучит «безумно», но обещает обсудить её подробнее в следующем подкасте с экс-сотрудниками Google .
🚀 Решение проблемы «стен данных» и будущее ИИ-агентов 15:20
Человечество приближается к «стене данных» — моменту, когда все доступные тексты, написанные людьми, будут использованы для обучения . Рот считает, что выход — в синтетических данных. Примером успеха этого подхода он называет проекты Google DeepMind — AlphaGeometry и AlphaProof, которые почти достигли уровня золотой медали на Международной математической олимпиаде 2024 года благодаря тренировкам на огромных массивах синтетических задач .
В будущем SEAL может позволить моделям:
- Изучать научные статьи и самостоятельно генерировать тысячи страниц разъяснений для самосовершенствования .
- Обновлять веса прямо в процессе рассуждений (mid-reasoning), чтобы корректировать ход своих мыслей .
Наибольший потенциал SEAL видится в создании автономных ИИ-агентов. Сегодня агенты часто «теряют нить» (lose the plot) при выполнении длительных задач, потому что не сохраняют опыт, полученный в процессе работы .
Уэс Рот приводит яркое сравнение:
Представьте коллегу, который ходит на работу год, но не усвоил ни одного урока и совершает те же ошибки, что и в первый день. Это — нынешние ИИ-агенты .
Технология SEAL может стать «тем самым исправлением», которое позволит агентам накапливать опыт, менять свое поведение на основе прошлых взаимодействий и наконец-то стать по-настоящему полезными в долгосрочных проектах без постоянного надзора человека .