# Уэс Рот: «OpenAI совершили прорыв в рекурсивном самообучении ИИ»

Источник: https://www.youtube.com/watch?v=Zy8tKHVSJfo
Канал: Wes Roth
Опубликовано: 18.01.2025

---

В мире искусственного интеллекта наметился тектонический сдвиг: ведущие лаборатории, включая OpenAI и Anthropic, перешли от простого масштабирования вычислительных мощностей к созданию систем, способных к глубокому рассуждению и самообучению. Использование методов обучения с подкреплением и синтетических данных позволяет моделям «вырываться» за пределы человеческих способностей, фактически запуская процесс рекурсивного самосовершенствования, который может привести к появлению суперинтеллекта гораздо быстрее, чем предполагалось ранее.

## 📈 Вертикальный взлет: переход от GPT-4 к «рассуждающим» моделям
[[JUMP:0:00]]

Автор канала Уэс Рот (Wes Roth) обращает внимание на графики прогресса ИИ, которые в последнее время стали практически вертикальными [0:14]. Этот скачок связан с переходом от моделей класса GPT-4 к так называемым «рассуждающим» моделям (Reasoners), таким как OpenAI o1. В отличие от предшественников, которые выдают ответ мгновенно, эти системы способны «думать» за кулисами, выстраивая цепочки мыслей (Chain of Thought) перед тем, как озвучить результат [0:42].

Исследователь OpenAI Джейсон Вей (Jason Wei) недавно охарактеризовал текущий момент как «магию», возникающую при встрече неостановимого алгоритма оптимизации обучения с подкреплением (RL), достаточных вычислительных мощностей и «невзламываемой» среды обучения [0:42]. Сэм Альтман, глава OpenAI, также пересматривает прогнозы в сторону сокращения сроков: по его мнению, AGI (общий искусственный интеллект) и суперинтеллект (ASI) ближе, чем казалось, и их возможности будут значительно превосходить первоначальные ожидания [1:47].

## 🧠 Технология «Королевы улья»: самообучение через дистилляцию знаний
[[JUMP:2:11]]

Одной из самых обсуждаемых тем в сообществе стала концепция, изложенная аналитиком под псевдонимом Gwern. Он утверждает, что основной смысл моделей вроде o1 заключается не в их публикации для пользователей, а в генерации тренировочных данных для следующего поколения систем [3:32].

Уэс Рот предлагает аналогию с «Королевой улья»:

*   **Модель-учитель:** Ее задача — находить решения сложнейших задач, при этом неважно, сколько времени и ресурсов она на это тратит.
*   **Дистилляционный процесс:** Каждая сессия, в которой модель o1 в итоге находит верное решение, превращается в «чистый» транскрипт без тупиковых ветвей [4:13].
*   **Модели-трутни:** На этих идеальных транскриптах обучаются более компактные, быстрые и дешевые модели (например, будущая o3-mini), которые в итоге превосходят своих «учителей» по эффективности [1:22].

Ярким примером этой стратегии стала китайская модель DeepSeek V3. Она продемонстрировала феноменальные результаты в математических тестах (40% точности на AIME против 9% у GPT-4o) [5:57]. Секрет успеха DeepSeek, по мнению Уэса Рота, кроется в использовании модели R1 (аналог o1) для дистилляции цепочек рассуждений в более стандартные языковые модели [6:50].

## 🔄 Рекурсивное самосовершенствование: путь к сингулярности
[[JUMP:8:37]]

Если одна версия ИИ способна создать улучшенную вторую версию, а та — еще более совершенную третью, процесс уходит в бесконечность [8:51]. Этот феномен был описан в работе Стэнфорда и Google 2022 года под названием «STaR: Self-Taught Reasoner» [4:51]. Исследователи доказали, что ИИ может «вытаскивать себя за волосы» на более высокие уровни интеллекта, потенциально превосходя человеческий.

Сэм Альтман в своем недавнем заявлении подтвердил, что OpenAI теперь фокусируется именно на суперинтеллекте «в истинном смысле этого слова» [13:25]. Уэс Рот интерпретирует это так: если ИИ сможет автоматизировать хотя бы одну область — исследования в области самого ИИ — то падет «первое домино», которое приведет к автоматизации всего остального [12:59].

Важные аспекты этого процесса:

1.  **Приватность разработок:** Лаборатории могут перестать публиковать промежуточные «умные» модели, используя их исключительно внутри корпораций для ускорения R&D [16:29].
2.  **Экономика суперинтеллекта:** Как только ИИ-исследователь сможет «оплачивать сам себя» через повышение эффективности технологий, ограничения в финансировании исчезнут [13:39].
3.  **Безопасный суперинтеллект (SSI):** Новая компания Ильи Суцкевера (Safe Superintelligence Inc.) открыто заявляет, что их единственный продукт — это суперинтеллект, а бизнес-модель защищена от краткосрочного коммерческого давления, что позволяет им не отвлекаться на промежуточные продукты для рынка [17:36].

## 🌍 Сравнение с AlphaGo и «идеальная игра» в реальности
[[JUMP:20:05]]

Уэс Рот сравнивает текущий прогресс в рассуждениях с тем, как AlphaZero достигла совершенства в шахматах и го. В этих играх существует понятие «идеальной игры» [20:55]. Модели обучались через миллионы партий против самих себя (self-play), начиная с полного хаоса и за один день становясь сильнее любого чемпиона мира [25:55].

Долгое время этот рецепт не работал для общих задач (текст, логика), потому что не было четкой «метрики выигрыша». Однако теперь, по мнению автора, лаборатории нашли способ внедрить общее рассуждение в этот алгоритм оптимизации [30:37].

Возможные сферы применения «идеальной игры» ИИ вне шахмат:

*   Управление гигантскими корпорациями с максимальной прибылью.
*   Научные открытия (разработка новых материалов, лекарств) [22:11].
*   Управление государственными системами, больницами и трафиком [22:11].

В заключение Уэс Рот отмечает, что хотя многие воспринимали разговоры о самообучении ИИ как конспирологию еще год назад, сегодня это становится объективной реальностью [34:46]. По его мнению, человечество находится в самом захватывающем периоде истории, и главный совет автора зрителям звучит лаконично: «Просто постарайтесь не умереть сейчас — это было бы очень несвоевременно» [38:27].