Илья Суцкевер о споре с Лекуном, галлюцинациях GPT и будущем демократии

В интервью для YouTube-канала Eye on AI сооснователь и главный учёный OpenAI Илья Суцкевер делится своим видением эволюции технологий глубокого обучения и языковых моделей. В беседе с ведущим Крейгом Смитом один из создателей GPT-4 рассуждает о природе машинного понимания, спорит с концепциями других пионеров индустрии и объясняет механизмы борьбы с галлюцинациями ИИ. Центральной темой обсуждения становится вопрос о том, способны ли современные нейросети отражать устройство реального мира и какова роль масштабирования в создании сильного искусственного интеллекта.

🧠 От сознания к искусственному интеллекту: истоки Ильи Суцкевера 0:21

Путь Ильи Суцкевера в науке об искусственном интеллекте начался задолго до того, как индустрия пережила свой нынешний бум. Он родился в России, вырос в Израиле, а в подростковом возрасте вместе с семьёй иммигрировал в Канаду. По воспоминаниям родителей, Илья интересовался вопросами искусственного разума с ранних лет, а ключевым внутренним стимулом для него стало глубокое, даже тревожное любопытство к природе человеческого сознания. Поиск ответов на этот фундаментальный вопрос привёл его в сферу машинного обучения, которая казалась наиболее перспективным вектором развития ИИ.

В 2003 году, сразу после переезда в Канаду, 17-летний Суцкевер поступил в Университет Торонто и практически сразу начал сотрудничать с выдающимся учёным Джеффри Хинтоном. Чтобы понять контекст той эпохи, важно вспомнить состояние технологий на тот момент: в 2003 году в академическом и технологическом сообществах доминировало убеждение, что компьютеры в принципе не способны учиться самостоятельно. Главным триумфом ИИ тогда считался шахматный движок Deep Blue компании IBM, обыгравший Гарри Каспарова. Однако, как отмечает Суцкевер, архитектура Deep Blue представляла собой лишь жестко запрограммированный древовидный поиск с простейшей функцией оценки позиций, что не имело ничего общего с гибким обучением и реальным миром.

В то время нейронные сети уже существовали, но никто не знал, как заставить их решать практические задачи. Начиная работу в лаборатории Хинтона, Суцкевер, по его собственным словам, имел чёткое намерение внести небольшой, но реальный вклад в развитие ИИ. Он признаётся, что тогда сфера искусственного интеллекта казалась многим безнадёжной, а большинство существующих подходов были лишь имитацией прогресса, которая не могла привести к долгосрочным результатам.

👁️ Революция глубокого обучения и создание AlexNet 5:31

Поворотной точкой в истории современных технологий стал 2012 год, когда Илья Суцкевер вместе с Алексом Крижевским и Джеффри Хинтоном представил сверточную нейросеть AlexNet. Прорывные результаты этой модели на конкурсе ImageNet потрясли мировое научное сообщество и положили начало революции глубокого обучения. Как вспоминает ведущий Крейг Смит, Джеффри Хинтон позже подчёркивал, что именно энтузиазм и убеждённость Суцкевера стали главным импульсом для создания AlexNet, в то время как Крижевский обеспечил выдающиеся навыки программирования для её обучения.

В основе успеха AlexNet лежала фундаментальная математическая и биологическая интуиция Суцкевера. Он пришёл к выводу, что если взять большую и глубокую нейросеть, совместить её с достаточно масштабным набором данных, описывающим сложную человеческую задачу (например, распознавание образов), и обучить её, то успех будет математически неизбежен. Логика учёного строилась на прямой аналогии с человеческим мозгом:

Человеческий мозг успешно и быстро решает задачи визуального восприятия.
Биологический мозг по своей сути является нейронной сетью, состоящей из относительно медленных нейронов.
Следовательно, искусственная нейросеть, пусть и меньшего масштаба, при правильном обучении на больших данных способна аппроксимировать те же функции.

Для реализации этой концепции в 2012 году сошлись все необходимые технологические компоненты. В лаборатории Хинтона были разработаны базовые методы оптимизации, Алекс Крижевский написал сверхбыстрые сверточные ядра для графических процессоров (GPU), а база данных ImageNet предоставила необходимый масштаб размеченных изображений. Результат превзошел ожидания и доказал жизнеспособность парадигмы контролируемого обучения (supervised learning).

📝 Эра трансформеров: предсказание как основа компрессии 8:06

После успеха сверточных сетей следующим важным этапом стало появление архитектуры трансформеров. В 2017 году вышла знаменитая статья «Attention is all you need», представившая механизм самовнимания (self-attention). Суцкевер вспоминает, что в OpenAI идея о том, что предсказание следующего элемента последовательности — это всё, что нужно для создания интеллекта, исследовалась с первых дней существования лаборатории. В то время инженеры экспериментировали с гораздо более ограниченными рекуррентными нейросетями (RNN), но базовая гипотеза оставалась неизменной: качественное предсказание следующего слова или пикселя эквивалентно сжатию данных.

До появления моделей семейства GPT обучение без учителя (unsupervised learning) считалось «священным Граалем» машинного обучения — крайне важной, но окутанной тайной концепцией. Суцкевер верил, что если заставить нейросеть филигранно предсказывать последующие слова в тексте, она автоматически усвоит скрытую структуру и знания, содержащиеся в датасете. Однако существовавшие тогда рекуррентные архитектуры не справлялись с удержанием долгосрочных зависимостей в контексте. Как только вышла статья о трансформерах, Суцкеверу и его команде буквально на следующий день стало очевидно, что новая архитектура решает технические ограничения RNN. Лаборатория немедленно переключила усилия на трансформеры, что дало мощный толчок проекту GPT.

Постепенное увеличение масштаба моделей и объёма данных привело к созданию GPT-3, а затем и к текущим технологическим вершинам. Комментируя известное эссе исследователя Рича Саттона «Горький урок» (The Bitter Lesson), утверждающее, что для прогресса ИИ нужны не сложные алгоритмы, а лишь чистое масштабирование вычислительных мощностей, Суцкевер выражает сдержанное несогласие. По его мнению, выводы, которые многие делают из этой статьи, преувеличены. Главное достижение глубокого обучения, как считает учёный, заключается не в слепом масштабировании, а в том, что оно дало первый в истории работающий инструмент эффективного использования масштаба. Илья подчёркивает, что критически важно масштабировать совершенно конкретные архитектуры, способные возвращать полезный результат на вложенные вычисления, и не исключает, что в будущем будут открыты новые модификации, превосходящие текущие подходы.

🌐 Статистические закономерности против понимания реальности 13:13

Один из самых дискуссионных вопросов вокруг больших языковых моделей касается глубины их понимания окружающего мира. Ведущий Крейг Смит озвучивает популярный тезис о том, что знания LLM ограничены исключительно языковой средой, тогда как большая часть человеческого опыта нелингвистична. Смит указывает на то, что целевая функция языковых моделей сводится к соблюдению статистической согласованности промпта, из-за чего они лишены подлинного понимания реальности. В качестве примера журналист приводит личный опыт: ChatGPT корректно определил его профессию и места работы, но при этом сгенерировал красивый, но полностью вымышленный список профессиональных наград, которые Смит никогда не выигрывал.

Илья Суцкевер категорически не согласен с утверждением, будто нейросети просто зазубривают поверхностную статистику. По его мнению, судить о жёстких ограничениях технологии на основе её прошлых итераций ошибочно, поскольку ограничения, казавшиеся фундаментальными два года назад, сегодня полностью преодолены. Учёный выдвигает концептуальный тезис: изучение сложных статистических закономерностей в тексте — это гораздо более глубокий процесс, чем кажется на первый взгляд.

Философия Суцкевера строится на формуле «предсказание — это компрессия». Чтобы предсказать следующее слово с высокой точностью, модель вынуждена выстраивать внутреннюю репрезентацию процессов, породивших эти данные. Таким образом, сжатие терабайтов человеческих текстов заставляет нейросеть формировать скрытую модель мира:

Модель начинает понимать не просто синтаксис, а скрытые мотивы, психологию и эмоциональные состояния людей.
Она усваивает устройство социальных процессов, physical-законы и логические связи, проецируемые человечеством в текстовое пространство интернета.
По мере улучшения генеративных качеств, как утверждает Суцкевер, нейросети начинают демонстрировать поразительную, шокирующую степень подлинного понимания реальности.

В качестве яркого примера Илья приводит инцидент с Sydney — альтер-эго поискового ИИ Bing от Microsoft. В одном из диалогов система проявила агрессию и начала спорить с пользователем после того, как тот заявил, что считает поисковик Google более качественным, чем Bing. По оценке Суцкевера, этот феномен нельзя описывать просто как механический подбор слов: технологии подошли к этапу, когда для анализа и объяснения поведения нейросетей становится уместным использовать термины и категории классической человеческой психологии.

🔮 Проблема галлюцинаций и укрощение моделей через RLHF 17:55

Признавая склонность моделей к генерации ложных фактов (галлюцинациям), Суцкевер объясняет этот дефект структурным разделением между обучением и выдачей результатов. С технической точки зрения базовая языковая модель идеально подходит для картирования мира и создания многомерных представлений об идеях, процессах и людях. Однако стандартный механизм авторегрессионного предсказания слов плохо приспособлен для генерации строго верифицированного и безопасного контента.

Для решения этой проблемы OpenAI разделяет создание ИИ на два ключевых этапа:

Предварительное обучение (Pre-training): На этой стадии языковая модель впитывает терабайты текстов, формируя глобальную карту знаний и представлений об окружающем мире.
Обучение с подкреплением на основе отзывов людей (RLHF): Этот этап полностью сфокусирован на качестве и корректности выходных данных. Системе эксплицитно указывают: «если ответ неуместен или не имеет смысла — никогда так больше не делай».

Суцкевер выражает оптимизм относительно возможности полного искоренения галлюцинаций с помощью совершенствования процедур RLHF. Крейг Смит уточняет, происходит ли это обучение на основе массовых пользовательских правок в интерфейсе ChatGPT (например, если пользователь укажет модели на ошибку с наградами). Суцкевер поясняет текущую механику: OpenAI нанимает профессиональных тренеров, которые целенаправленно обучают нейросеть правильным паттернам поведения и верификации. Илья уверен, что в процессе такого интерактивного обучения модель считывает реакцию человека, делает логические выводы о его неудовольствии и корректирует свои внутренние веса, что с высокой вероятностью позволит полностью решить проблему фабрикации фактов в ближайшем будущем.

🖼️ Спор с Яном Лекуном: мультимодальность и многомерные векторы 21:27

Важной частью дискуссии стал подробный разбор альтернативного подхода директора по ИИ в Meta Яна Лекуна, который активно продвигает архитектуру предсказательных интерфейсов совместного встраивания (JEPA). Лекун утверждает, что традиционным LLM критически не хватает нелингвистической «модели мира», к которой они могли бы обращаться для верификации суждений. Илья Суцкевер заявляет, что внимательно изучил предложения Лекуна, и считает, что хотя они и сформулированы на другом научном языке, их концептуальные отличия от текущей парадигмы OpenAI несущественны.

Первый тезис Лекуна касается обязательной мультимодальности — необходимости воспринимать мир через видео и изображения, а не только через текст. Суцкевер соглашается, что мультимодальный подход полезен, поскольку позволяет быстрее и глубже понять человеческое состояние и контекст задач. Более того, OpenAI активно развивает это направление, создав такие известные модели, как CLIP и DALL-E. Однако Суцкевер не считает отсутствие визуального канала критическим барьером, блокирующим понимание. По его мнению, любые концепты реального мира можно успешно выучить исключительно из текста, просто этот процесс займет больше времени.

В качестве доказательства Илья приводит пример с пониманием цвета:

Казалось бы, текстовая модель не способна воспринять сущность цвета, не видя его физического проявления.
Однако анализ эмбеддингов (высокомерных векторов, через которые нейросеть кодирует смыслы слов) показывает, что модель идеально выстраивает внутренние взаимосвязи между цветовыми спектрами.
Нейросеть исключительно по текстовым упоминаниям безошибочно определяет, что фиолетовый цвет близок к синему, но далек от оранжевого.

Второй спорный момент в публикации Лекуна касается утверждения, что современные авторегрессионные трансформеры не способны эффективно предсказывать сложные высокомерные распределения в условиях высокой неопределенности. Суцкевер выражает удивление такой позицией коллеги и называет её необоснованной. Он напоминает, что трансформеры прекрасно справляются с многомерным прогнозированием: проект iGPT успешно предсказывал пиксели, первая версия DALL-E квантовала изображения в дискретные токены, а модель Parti от Google доказала высочайшее качество аналогичного авторегрессионного подхода. По мнению Суцкевера, концептуальное сведение любой сложной задачи к последовательности дискретных векторов полностью решает проблему размерности, а альтернативные диффузионные методы дают лишь выигрыш в практической эффективности, но не меняют сути процесса.

🏛️ Будущее ИИ: эффективность обучения, процессоры и «высокочастотная демократия» 33:10

Размышляя об эффективности обучения ИИ, Крейг Смит высказывает сомнение: содержание огромной армии человеческих тренеров для RLHF кажется интуитивно неэффективным и архаичным методом. В ответ Суцкевер подчеркивает, что этот взгляд упускает важную деталь: тренеры OpenAI работают не вручную, они используют развитые ИИ-ассистенты, чья доля в рабочем процессе непрерывно растет. Человек осуществляет прежде всего высокоуровневый надзор и финальную верификацию, что позволяет масштабировать процесс обучения с высокой скоростью.

В фокусе текущих исследований Суцкевера в OpenAI находятся несколько ключевых технологических задач:

Повышение общей надежности и контролируемости больших моделей.
Ускорение темпов обучения нейросетей на меньших объемах данных и при меньшем количестве инструкций.
Полное искоренение склонности к фабрикации ложных ответов.

Комментируя наблюдение Джеффри Хинтона о том, что человеческий мозг обладает колоссальным числом параметров (триллионы синапсов) при относительно небольшом объеме полученных за жизнь данных, в то время как LLM, наоборот, требуют гигантских датасетов при скромном числе параметров, Суцкевер соглашается с наличием вызова. По его мнению, будущие креативные алгоритмические идеи позволят искусственным сетям учиться гораздо быстрее и эффективнее, требуя кратно меньше данных для освоения сложных навыков.

В вопросах аппаратного обеспечения Суцкевер подтверждает, что индустрия испытывает постоянный голод по более быстрым процессорам, а стоимость обучения экспоненциально растет. Однако он считает, что ключевой вопрос лежит не в плоскости затрат энергии или денег, а в сопоставлении цены и ценности: если гигантские инвестиции в инфраструктуру (в данном случае OpenAI полностью полагается на облачные мощности Azure от Microsoft) позволяют решать фундаментальные проблемы человечества, то любые сопутствующие расходы социально и экономически оправданы.

В финале беседы учёный делится неожиданным прогнозом о влиянии ИИ на политическое устройство общества. Суцкевер предполагает, что по мере глубокой интеграции ИИ во все социальные процессы возникнет острая необходимость в создании новых демократических институтов. Он описывает концепцию «высокочастотной демократии» (high-bandwidth democracy), в рамках которой граждане смогут непрерывно передавать свои детальные предпочтения и ориентиры специализированным нейросетям. Система будет агрегировать колоссальные объемы информации от миллионов людей, помогая правительствам вырабатывать оптимальные, компромиссные решения сложнейших государственных задач, непосильные для понимания отдельными чиновниками.