Уэс Рот: «ИИ от MIT научился переписывать собственные веса, чтобы стать умнее»

Wes Roth 99,2 тыс. 21 мин 4 мин 16.06.2025
Главное

Исследователи из MIT представили концепцию «самоадаптирующихся языковых моделей» (Self-Adaptive Language Models, SEAL), которые способны буквально «переписывать свой мозг» в реальном времени для решения новых задач. Автор канала Wes Roth разбирает, как этот прорыв позволяет ИИ преодолеть ограничения статичного обучения, превращая модели из «амнезиков» в полноценных учеников, способных к непрерывному самосовершенствованию.

🧠 Прорыв MIT: Модели, которые меняют собственные «веса» 0:00

Традиционные большие языковые модели (LLM), такие как GPT-4 или Claude, являются статичными после завершения этапа обучения. Как отмечает Уэс Рот, несмотря на их мощь, они не могут адаптировать свои внутренние параметры (веса) в ответ на новые задачи или примеры . Исследователи из MIT предложили фреймворк SEAL, который позволяет моделям:

По словам одного из авторов работы, Адама Цвигера, этот подход открывает путь к созданию системы «учитель — ученик», где одна модель (или та же самая модель в другой роли) готовит «учебные курсы» для улучшения своих способностей . Рот подчеркивает, что это ранняя стадия того, что многие предсказывали годами: ИИ, способный улучшать свой цифровой интеллект без участия человека .

🛠 Техническая база: От статичных весов к динамическому обучению 1:29

Чтобы понять значимость SEAL, ведущий объясняет устройство нейросетей через аналогию с человеческим мозгом. В нашем мозгу нейроны соединены синапсами; в ИИ эти связи представлены числами — «весами» . Обычно процесс обучения (градиентный спуск) направлен на минимизацию «функции потерь» — разницы между предсказанием модели и реальностью .

После завершения обучения модель «замерзает». Тонкая настройка (fine-tuning) обычно используется для адаптации модели под конкретную узкую задачу на небольшом наборе данных . Однако SEAL делает этот процесс автономным:

  1. Получив новый входной сигнал, модель создает «селф-эдит» (самостоятельную правку).
  2. Она может реструктурировать информацию, задавать гиперпараметры оптимизации или вызывать инструменты для дополнения данных .
  3. Эти изменения приводят к «стойким обновлениям весов», обеспечивая долгосрочную адаптацию, а не просто временное удержание информации в контекстном окне .

✍️ Аналогия со студентом: Почему «конспекты» лучше зубрежки 4:44

Авторы статьи из MIT приводят аналогию с человеческим обучением. Студент, готовясь к экзамену, не просто перечитывает учебник, а пишет конспекты. В процессе переработки информации (лекций, книг) в собственные заметки происходит ассимиляция знаний — данные «впечатываются» в мозг .

Уэс Рот делится личным опытом, подтверждающим эту теорию:

По мнению Рота, современные LLM лишены этой возможности — они обучаются на данных «как есть», не имея возможности разработать собственные «индивидуальные стратегии» обучения . SEAL же позволяет модели создавать свои «конспекты» (синтетические данные) и обучаться именно на них .

📈 Результаты тестов: Превосходство над GPT-4 8:26

Система SEAL была протестирована на двух ключевых задачах: интеграция новых фактов и решение головоломок ARC AGI. Результаты оказались впечатляющими:

Особое внимание Рот уделяет бенчмарку ARC AGI. Эти задачи интуитивно понятны людям, но крайне сложны для ИИ, так как требуют выявления закономерностей «на лету» . Ведущий называет современные LLM «амнезиками», потому что они не учатся в процессе выполнения теста, полагаясь только на ограниченное контекстное окно . SEAL решает эту проблему, позволяя модели временно менять веса под конкретный тип задач в процессе тестирования .

🔄 Двойной цикл обучения и «интуиция» вместо оценок 12:36

Алгоритм SEAL состоит из двух вложенных циклов:

  1. Внешний цикл (RL): Оптимизирует процесс генерации правок (учит «учителя» лучше учить) .
  2. Внутренний цикл: Применяет эти правки для обновления весов через градиентный спуск .

Рот также упоминает еще более радикальные исследования, появившиеся на днях. По его словам, некоторые ученые утверждают, что ИИ может обучаться даже без внешних наград (правильных ответов) . Вместо этого в качестве сигнала для обучения с подкреплением можно использовать «уверенность» или «интуицию» модели: если модель уверена в своем ответе, это коррелирует с его правильностью . Ведущий признает, что эта идея звучит «безумно», но обещает обсудить её подробнее в следующем подкасте с экс-сотрудниками Google .

🚀 Решение проблемы «стен данных» и будущее ИИ-агентов 15:20

Человечество приближается к «стене данных» — моменту, когда все доступные тексты, написанные людьми, будут использованы для обучения . Рот считает, что выход — в синтетических данных. Примером успеха этого подхода он называет проекты Google DeepMind — AlphaGeometry и AlphaProof, которые почти достигли уровня золотой медали на Международной математической олимпиаде 2024 года благодаря тренировкам на огромных массивах синтетических задач .

В будущем SEAL может позволить моделям:

Наибольший потенциал SEAL видится в создании автономных ИИ-агентов. Сегодня агенты часто «теряют нить» (lose the plot) при выполнении длительных задач, потому что не сохраняют опыт, полученный в процессе работы .

Уэс Рот приводит яркое сравнение:

Представьте коллегу, который ходит на работу год, но не усвоил ни одного урока и совершает те же ошибки, что и в первый день. Это — нынешние ИИ-агенты .

Технология SEAL может стать «тем самым исправлением», которое позволит агентам накапливать опыт, менять свое поведение на основе прошлых взаимодействий и наконец-то стать по-настоящему полезными в долгосрочных проектах без постоянного надзора человека .

💬 Цитаты

«Представьте коллегу, который ходит на работу год, но не усвоил ни одного урока и совершает те же ошибки, что и в первый день. Это — нынешние ИИ-агенты.»

«В практике может быть гораздо эффективнее иметь модель-учителя и модель-ученика, у каждой из которых есть свои собственные тренировочные курсы.»

Уэс Рот 0:38
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Веса (Weights)
Числовые параметры внутри нейросети, которые определяют силу связей между нейронами и влияют на результат вычислений.
Градиентный спуск (Gradient Descent)
Математический алгоритм оптимизации, используемый для изменения весов модели с целью минимизации ошибок.
Синтетические данные
Данные, созданные искусственным интеллектом, а не человеком, используемые для обучения других моделей.
ARC AGI
Тест на интеллект для ИИ, состоящий из визуальных головоломок, требующих выявления логических закономерностей.
📊 Цифры
🗓 Хронология
  1. 2024 Выпуск статьи MIT о самоадаптирующихся языковых моделях (SEAL).
  2. Июль 2024 Проекты AlphaGeometry 2 и AlphaProof от Google DeepMind успешно выступили на IMO 2024.
⚖️ Другая сторона
Искусственный интеллект MIT SEAL Wes Roth AlphaGeometry ARC AGI