Уэс Рот: «OpenAI совершили прорыв в рекурсивном самообучении ИИ»

Wes Roth 178 тыс. 38 мин 4 мин 18.01.2025
Главное

В мире искусственного интеллекта наметился тектонический сдвиг: ведущие лаборатории, включая OpenAI и Anthropic, перешли от простого масштабирования вычислительных мощностей к созданию систем, способных к глубокому рассуждению и самообучению. Использование методов обучения с подкреплением и синтетических данных позволяет моделям «вырываться» за пределы человеческих способностей, фактически запуская процесс рекурсивного самосовершенствования, который может привести к появлению суперинтеллекта гораздо быстрее, чем предполагалось ранее.

📈 Вертикальный взлет: переход от GPT-4 к «рассуждающим» моделям 0:00

Автор канала Уэс Рот (Wes Roth) обращает внимание на графики прогресса ИИ, которые в последнее время стали практически вертикальными . Этот скачок связан с переходом от моделей класса GPT-4 к так называемым «рассуждающим» моделям (Reasoners), таким как OpenAI o1. В отличие от предшественников, которые выдают ответ мгновенно, эти системы способны «думать» за кулисами, выстраивая цепочки мыслей (Chain of Thought) перед тем, как озвучить результат .

Исследователь OpenAI Джейсон Вей (Jason Wei) недавно охарактеризовал текущий момент как «магию», возникающую при встрече неостановимого алгоритма оптимизации обучения с подкреплением (RL), достаточных вычислительных мощностей и «невзламываемой» среды обучения . Сэм Альтман, глава OpenAI, также пересматривает прогнозы в сторону сокращения сроков: по его мнению, AGI (общий искусственный интеллект) и суперинтеллект (ASI) ближе, чем казалось, и их возможности будут значительно превосходить первоначальные ожидания .

🧠 Технология «Королевы улья»: самообучение через дистилляцию знаний 2:11

Одной из самых обсуждаемых тем в сообществе стала концепция, изложенная аналитиком под псевдонимом Gwern. Он утверждает, что основной смысл моделей вроде o1 заключается не в их публикации для пользователей, а в генерации тренировочных данных для следующего поколения систем .

Уэс Рот предлагает аналогию с «Королевой улья»:

Ярким примером этой стратегии стала китайская модель DeepSeek V3. Она продемонстрировала феноменальные результаты в математических тестах (40% точности на AIME против 9% у GPT-4o) . Секрет успеха DeepSeek, по мнению Уэса Рота, кроется в использовании модели R1 (аналог o1) для дистилляции цепочек рассуждений в более стандартные языковые модели .

🔄 Рекурсивное самосовершенствование: путь к сингулярности 8:37

Если одна версия ИИ способна создать улучшенную вторую версию, а та — еще более совершенную третью, процесс уходит в бесконечность . Этот феномен был описан в работе Стэнфорда и Google 2022 года под названием «STaR: Self-Taught Reasoner» . Исследователи доказали, что ИИ может «вытаскивать себя за волосы» на более высокие уровни интеллекта, потенциально превосходя человеческий.

Сэм Альтман в своем недавнем заявлении подтвердил, что OpenAI теперь фокусируется именно на суперинтеллекте «в истинном смысле этого слова» . Уэс Рот интерпретирует это так: если ИИ сможет автоматизировать хотя бы одну область — исследования в области самого ИИ — то падет «первое домино», которое приведет к автоматизации всего остального .

Важные аспекты этого процесса:

  1. Приватность разработок: Лаборатории могут перестать публиковать промежуточные «умные» модели, используя их исключительно внутри корпораций для ускорения R&D .
  2. Экономика суперинтеллекта: Как только ИИ-исследователь сможет «оплачивать сам себя» через повышение эффективности технологий, ограничения в финансировании исчезнут .
  3. Безопасный суперинтеллект (SSI): Новая компания Ильи Суцкевера (Safe Superintelligence Inc.) открыто заявляет, что их единственный продукт — это суперинтеллект, а бизнес-модель защищена от краткосрочного коммерческого давления, что позволяет им не отвлекаться на промежуточные продукты для рынка .

🌍 Сравнение с AlphaGo и «идеальная игра» в реальности 20:05

Уэс Рот сравнивает текущий прогресс в рассуждениях с тем, как AlphaZero достигла совершенства в шахматах и го. В этих играх существует понятие «идеальной игры» . Модели обучались через миллионы партий против самих себя (self-play), начиная с полного хаоса и за один день становясь сильнее любого чемпиона мира .

Долгое время этот рецепт не работал для общих задач (текст, логика), потому что не было четкой «метрики выигрыша». Однако теперь, по мнению автора, лаборатории нашли способ внедрить общее рассуждение в этот алгоритм оптимизации .

Возможные сферы применения «идеальной игры» ИИ вне шахмат:

В заключение Уэс Рот отмечает, что хотя многие воспринимали разговоры о самообучении ИИ как конспирологию еще год назад, сегодня это становится объективной реальностью . По его мнению, человечество находится в самом захватывающем периоде истории, и главный совет автора зрителям звучит лаконично: «Просто постарайтесь не умереть сейчас — это было бы очень несвоевременно» .

💬 Цитаты

«Магия — это то, что происходит, когда неостановимый алгоритм оптимизации обучения с подкреплением... встречается с невзламываемой средой.»

Уэс Рот (цитируя Джейсона Вея) 00:42

«Мы здесь ради славного будущего с суперинтеллектом. С ним мы сможем сделать всё, что угодно.»

Уэс Рот (цитируя Сэма Альтмана) 13:39

«Просто не умирайте прямо сейчас. Это было бы очень плохое время для смерти.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
AGI
Искусственный общий интеллект, способный выполнить любую интеллектуальную задачу на уровне человека.
Knowledge Distillation
Метод переноса знаний из большой и сложной модели-учителя в более компактную и эффективную модель-ученика.
Chain of Thought
Техника, при которой модель разбивает сложную задачу на последовательные логические шаги перед выдачей ответа.
Self-play
Процесс обучения, при котором алгоритм совершенствуется, играя или соревнуясь с собственными копиями.
📊 Цифры
🗓 Хронология
  1. Май 2022 Публикация статьи о методе STaR (Self-Taught Reasoner) от Google и Стэнфорда.
  2. Ноябрь 2023 Уэс Рот впервые предсказывает на канале объединение LLM и методов AlphaGo.
  3. Январь 2025 Сэм Альтман заявляет о фокусе на суперинтеллект как главной цели OpenAI.
⚖️ Другая сторона
Искусственный интеллект OpenAI DeepSeek Sam Altman Superintelligence AGI