Илья Суцкевер: «Мы возвращаемся из эпохи масштабирования в эпоху исследований»

Илья Суцкевер, сооснователь и бывший главный научный сотрудник OpenAI, а ныне руководитель компании Safe Superintelligence (SSI), в беседе с ведущим Дуаркешем Пателем размышляет о будущем ИИ. В центре дискуссии — переход индустрии от эпохи простого масштабирования к эпохе глубоких исследований, а также концепция безопасного сверхразума, способного к непрерывному обучению.

🧠 Проблема «зазубривания» и плохая обобщающая способность моделей 0:00

Илья Суцкевер отмечает странный парадокс современных моделей: они показывают невероятные результаты на стандартных тестах (evals), но их реальный экономический эффект пока ограничен . По его мнению, это может быть связано с тем, что исследователи невольно «подстраивают» обучение с подкреплением (RL) под конкретные задачи тестов, что ведет к потере гибкости .

Суцкевер приводит аналогию с двумя студентами-программистами:

Первый студент тратит 10 000 часов на зазубривание всех возможных задач по спортивному программированию. Он идеален в узкой нише, но беспомощен за её пределами .
Второй студент тратит всего 100 часов на практику, но обладает «фактором X» — глубоким пониманием принципов, что позволяет ему лучше адаптироваться к реальной работе .

По мнению гостя, современные модели напоминают первого студента: они перегружены данными, но их способность к «здравому смыслу» и обобщению (generalization) остается слабой по сравнению с человеческой .

🎭 Эмоции как биологическая функция ценности 9:39

В ходе обсуждения природы человеческого интеллекта Суцкевер упоминает клинические случаи людей с повреждениями эмоциональных центров мозга. Такие пациенты сохраняют логику и дар речи, но становятся крайне неэффективными в жизни, тратя часы на выбор цвета носков .

Основные тезисы Ильи об эмоциях:

Эмоции — это «функция ценности» (value function). В машинном обучении это механизм, который позволяет агенту оценивать промежуточные шаги, не дожидаясь финального результата .
Ускорение обучения. Если при игре в шахматы вы теряете фигуру, эмоция (или функция ценности) сразу дает сигнал «плохо», не дожидаясь мата в конце партии .
Биологический приоритет. Эволюция вшила в нас базовые эмоции (страх, голод, социальное одобрение), которые служат надежными ориентирами для принятия решений, хотя в современном мире изобилия они могут давать сбои (например, чувство голода) .

🚀 Возврат к «эпохе исследований» 18:49

Суцкевер утверждает, что период с 2020 по 2025 год был «эпохой масштабирования», когда успех зависел от количества данных и вычислительных мощностей . Однако сейчас индустрия сталкивается с дефицитом качественных данных и огромной стоимостью инфраструктуры.

Идеи снова в дефиците. Суцкевер иронично цитирует мысль из Twitter: «Если идеи дешевы, почему их ни у кого нет?» .
Scale vs Research. Масштабирование — это рецепт с низким риском, который любят корпорации. Исследования — это поиск новых парадигм, таких как более эффективные функции ценности или способы обучения на малом количестве данных .
Ресурсы SSI. Суцкевер подчеркивает, что хотя его новая компания SSI привлекла $3 млрд (что меньше бюджетов гигантов), этих средств более чем достаточно для фундаментальных исследований, так как им не нужно тратиться на поддержку огромных продуктов и продажи .

🎯 Стратегия Safe Superintelligence (SSI): Прямой путь к сверхразуму 35:45

Дуаркеш Патель обсуждает с гостем стратегию «straight-shotting» — разработки сверхразума без промежуточных коммерческих релизов.

Риски «крысиных бегов». Участие в рыночной гонке заставляет компании идти на компромиссы. Изоляция в лаборатории позволяет сосредоточиться на безопасности и качестве .
Чему учиться у людей. Суцкевер считает, что главной целью является создание модели, которая, подобно человеку, обладает непрерывным обучением (continual learning) . Вместо того чтобы знать всё («AGI в коробке»), такая система должна уметь быстро освоить любую профессию — врача, программиста или юриста — уже после начала работы .

🛡️ Безопасность и выравнивание (Alignment) 1:00:03

Илья прогнозирует, что как только ИИ начнет «ощущаться» по-настоящему мощным, компании станут гораздо более параноидальными в вопросах безопасности .

Ключевые предложения по выравниванию:

Забота о живых существах. Суцкевер полагает, что обучение ИИ «сочувствию ко всему живому» (sentient life) может быть более надежной метрикой, чем просто «человеческие ценности», так как сам ИИ со временем может стать чувствующим существом .
Нейролинк как долгосрочное решение. Илья признает, что в далеком будущем лучшим способом сохранить контроль будет слияние человека и ИИ через высокоскоростной интерфейс мозг-компьютер (Neuralink++), чтобы человек понимал ИИ «изнутри» и оставался участником процесса .
Групповое сотрудничество. Суцкевер предсказал (и это начало сбываться), что конкуренты (OpenAI, Anthropic) будут вынуждены сотрудничать в области протоколов безопасности под давлением правительств .

🧪 Что такое «исследовательский вкус»? 1:32:42

В конце беседы Суцкевер пытается сформулировать, как он выбирает успешные направления (AlexNet, Transformer, GPT), что называют его уникальным «исследовательским вкусом».

Эстетика и простота. Илья ищет идеи, которые обладают внутренней красотой и элегантностью .
Вдохновение биологией. Вера в то, что «что-то фундаментальное в мозге должно работать в коде». Если нейроны в мозге работают локально и их много, значит, искусственные нейроны тоже должны масштабироваться .
Топ-даун убежденность. Вера в правильность идеи позволяет продолжать исследования даже тогда, когда первые эксперименты проваливаются из-за скрытых багов. «Нужно знать, что это должно работать», — заключает он .