Уэс Рот: «OpenAI совершили прорыв в рекурсивном самообучении ИИ»

В мире искусственного интеллекта наметился тектонический сдвиг: ведущие лаборатории, включая OpenAI и Anthropic, перешли от простого масштабирования вычислительных мощностей к созданию систем, способных к глубокому рассуждению и самообучению. Использование методов обучения с подкреплением и синтетических данных позволяет моделям «вырываться» за пределы человеческих способностей, фактически запуская процесс рекурсивного самосовершенствования, который может привести к появлению суперинтеллекта гораздо быстрее, чем предполагалось ранее.

📈 Вертикальный взлет: переход от GPT-4 к «рассуждающим» моделям 0:00

Автор канала Уэс Рот (Wes Roth) обращает внимание на графики прогресса ИИ, которые в последнее время стали практически вертикальными . Этот скачок связан с переходом от моделей класса GPT-4 к так называемым «рассуждающим» моделям (Reasoners), таким как OpenAI o1. В отличие от предшественников, которые выдают ответ мгновенно, эти системы способны «думать» за кулисами, выстраивая цепочки мыслей (Chain of Thought) перед тем, как озвучить результат .

Исследователь OpenAI Джейсон Вей (Jason Wei) недавно охарактеризовал текущий момент как «магию», возникающую при встрече неостановимого алгоритма оптимизации обучения с подкреплением (RL), достаточных вычислительных мощностей и «невзламываемой» среды обучения . Сэм Альтман, глава OpenAI, также пересматривает прогнозы в сторону сокращения сроков: по его мнению, AGI (общий искусственный интеллект) и суперинтеллект (ASI) ближе, чем казалось, и их возможности будут значительно превосходить первоначальные ожидания .

🧠 Технология «Королевы улья»: самообучение через дистилляцию знаний 2:11

Одной из самых обсуждаемых тем в сообществе стала концепция, изложенная аналитиком под псевдонимом Gwern. Он утверждает, что основной смысл моделей вроде o1 заключается не в их публикации для пользователей, а в генерации тренировочных данных для следующего поколения систем .

Уэс Рот предлагает аналогию с «Королевой улья»:

Модель-учитель: Ее задача — находить решения сложнейших задач, при этом неважно, сколько времени и ресурсов она на это тратит.
Дистилляционный процесс: Каждая сессия, в которой модель o1 в итоге находит верное решение, превращается в «чистый» транскрипт без тупиковых ветвей .
Модели-трутни: На этих идеальных транскриптах обучаются более компактные, быстрые и дешевые модели (например, будущая o3-mini), которые в итоге превосходят своих «учителей» по эффективности .

Ярким примером этой стратегии стала китайская модель DeepSeek V3. Она продемонстрировала феноменальные результаты в математических тестах (40% точности на AIME против 9% у GPT-4o) . Секрет успеха DeepSeek, по мнению Уэса Рота, кроется в использовании модели R1 (аналог o1) для дистилляции цепочек рассуждений в более стандартные языковые модели .

🔄 Рекурсивное самосовершенствование: путь к сингулярности 8:37

Если одна версия ИИ способна создать улучшенную вторую версию, а та — еще более совершенную третью, процесс уходит в бесконечность . Этот феномен был описан в работе Стэнфорда и Google 2022 года под названием «STaR: Self-Taught Reasoner» . Исследователи доказали, что ИИ может «вытаскивать себя за волосы» на более высокие уровни интеллекта, потенциально превосходя человеческий.

Сэм Альтман в своем недавнем заявлении подтвердил, что OpenAI теперь фокусируется именно на суперинтеллекте «в истинном смысле этого слова» . Уэс Рот интерпретирует это так: если ИИ сможет автоматизировать хотя бы одну область — исследования в области самого ИИ — то падет «первое домино», которое приведет к автоматизации всего остального .

Важные аспекты этого процесса:

Приватность разработок: Лаборатории могут перестать публиковать промежуточные «умные» модели, используя их исключительно внутри корпораций для ускорения R&D .
Экономика суперинтеллекта: Как только ИИ-исследователь сможет «оплачивать сам себя» через повышение эффективности технологий, ограничения в финансировании исчезнут .
Безопасный суперинтеллект (SSI): Новая компания Ильи Суцкевера (Safe Superintelligence Inc.) открыто заявляет, что их единственный продукт — это суперинтеллект, а бизнес-модель защищена от краткосрочного коммерческого давления, что позволяет им не отвлекаться на промежуточные продукты для рынка .

🌍 Сравнение с AlphaGo и «идеальная игра» в реальности 20:05

Уэс Рот сравнивает текущий прогресс в рассуждениях с тем, как AlphaZero достигла совершенства в шахматах и го. В этих играх существует понятие «идеальной игры» . Модели обучались через миллионы партий против самих себя (self-play), начиная с полного хаоса и за один день становясь сильнее любого чемпиона мира .

Долгое время этот рецепт не работал для общих задач (текст, логика), потому что не было четкой «метрики выигрыша». Однако теперь, по мнению автора, лаборатории нашли способ внедрить общее рассуждение в этот алгоритм оптимизации .

Возможные сферы применения «идеальной игры» ИИ вне шахмат:

Управление гигантскими корпорациями с максимальной прибылью.
Научные открытия (разработка новых материалов, лекарств) .
Управление государственными системами, больницами и трафиком .

В заключение Уэс Рот отмечает, что хотя многие воспринимали разговоры о самообучении ИИ как конспирологию еще год назад, сегодня это становится объективной реальностью . По его мнению, человечество находится в самом захватывающем периоде истории, и главный совет автора зрителям звучит лаконично: «Просто постарайтесь не умереть сейчас — это было бы очень несвоевременно» .