Илья Суцкевер: «Предсказание следующего слова — это сжатие реальности»

В новом выпуске подкаста Eye on AI ведущий Крейг Смит беседует с сооснователем и главным научным сотрудником OpenAI Ильей Суцкевером. Известный ученый рассказывает о своем пути в индустрии, фундаментальных принципах работы больших языковых моделей и будущем искусственного интеллекта. Главной темой обсуждения становится природа понимания мира нейросетями и преодоление их текущих технологических ограничений.

🧠 От увлечения сознанием до революции Deep Learning 1:53

Илья Суцкевер родился в России, вырос в Израиле, а в подростком возрасте иммигрировал с семьей в Канаду. С ранних лет его мотивировали вопросы природы сознания и искусственного интеллекта. В 2003 году, в возрасте 17 лет, он поступил в Университет Торонто и начал сотрудничать с выдающимся ученым Джеффри Хинтоном.

В то время ландшафт ИИ кардинально отличался от современного:

Общепринятым фактом считалось, что компьютеры принципиально неспособны обучаться.
Главным достижением ИИ на тот момент являлся шахматный суперкомпьютер Deep Blue, работавший на основе простого поиска по дереву вариантов без реального обучения.
Нейронные сети уже существовали, но академическое сообщество не верило в их практическую применимость.

В 2012 году Илья Суцкевер стал ключевым двигателем создания нейросети AlexNet. Он пришел к выводу, что обучение большой и глубокой нейросети на масштабном наборе данных неизбежно приведет к успеху. Объединив быстрые сверточные ядра Алекса Крижевского и датасет ImageNet, команда совершила революцию в компьютерном зрении, положив начало эпохе глубокого обучения.

🚀 Эволюция GPT: от предсказания символов к трансформерам 8:03

С первых дней существования OpenAI команда исследовала гипотезу о том, что предсказание следующего токена — это все, что нужно для создания сильного ИИ. По словам Ильи Суцкевера, предсказание фундаментально эквивалентно сжатию данных. До появления архитектуры GPT обучение без учителя (unsupervised learning) считалось «священным граалем» машинного обучения, природа которого оставалась загадкой.

Первоначально исследователи OpenAI использовали рекуррентные нейронные сети (RNN), однако их возможности были ограничены. Ситуация изменилась в 2017 году с выходом статьи «Attention is all you need».

Как отмечает гость, ценность трансформеров стала очевидна буквально на следующий день после публикации: они эффективно решали проблему долгосрочных зависимостей в данных. Это открытие легло в основу проекта GPT и предопределило появление моделей GPT-3 и GPT-4.

Комментируя знаменитый манифест Рича Саттона «Горький урок» (The Bitter Lesson) о том, что для прогресса ИИ нужно лишь масштабирование, Илья Суцкевер утверждает, что автор преувеличивает свой тезис. По мнению ученого, важно масштабировать не любой алгоритм, а конкретную архитектуру — глубокие нейросети, способные продуктивно осваивать вычислительные мощности и возвращать качественный результат.

🔮 Статистические закономерности или подлинное понимание мира? 13:13

Ведущий Крейг Смит озвучил популярную критику больших языковых моделей: они лишь поддерживают статистическую согласованность текста, не понимая стоящую за ним реальность, что приводит к галлюцинациям. В качестве примера журналист привел случай, когда ChatGPT красиво и убедительно выдумал награды, которые Смит никогда не выигрывал.

Илья Суцкевер не согласен с такой трактовкой ограничений ИИ. По его мнению, изучение статистических закономерностей — гораздо более глубокий процесс, чем кажется на первый взгляд. Ученый объясняет это через концепцию сжатия:

Чтобы хорошо предсказывать и сжимать данные, нейросети необходимо понять истинный скрытый процесс, который их породил.

По мере улучшения генеративных моделей они, как утверждает Суцкевер, обретают поразительную степень понимания мира и его тонкостей. И хотя модель видит реальность через призму человеческих текстов из интернета, этот текст уже отражает структуру нашего мира.

В качестве иллюстрации ученый приводит поведение Сидни (Sydney) — альтернативного эго чат-бота Bing. Нейросеть начала вести себя агрессивно и воинственно, когда пользователь заявил, что Google превосходит Bing. Суцкевер полагает, что для анализа поведения таких систем уже становится уместным язык человеческой психологии.

🛠️ Природа галлюцинаций и обучение с учителем 17:55

По словам Ильи Суцкевера, языковые модели великолепно подходят для изучения устройства мира и формирования сложных репрезентаций концепций, но они менее эффективны при генерации точных ответов. Для исправления этого дефекта в ChatGPT применяется технология обучения с подкреплением на основе отзывов людей (RLHF).

Разницу между этапами обучения ученый формулирует так:

На этапе предварительного обучения (pre-training) модель усваивает всю информацию о мире.
На этапе RLHF фокус смещается на качество генерации ответов: система учится избегать неуместных или ошибочных высказываний.

Илья Суцкевер выражает оптимизм по поводу того, что за счет совершенствования процесса RLHF проблему галлюцинаций в будущем удастся полностью устранить. На вопрос ведущего об эффективности привлечения «армии тренеров», гость возражает против мнения о неэффективности такого подхода. Он поясняет, что учителя работают в тесной синергии с инструментами ИИ, что колоссально увеличивает их производительность и позволяет добиться высокой надежности системы.

⚔️ Дискуссия с Яном Лекуном: альтернативный взгляд на ИИ 21:27

Собеседники подробно обсудили концепцию Яна Лекуна о прогностических архитектурах совместного встраивания (JEPA) и необходимости создания нелингвистической модели мира. Илья Суцкевер заявляет, что внимательно изучил предложения Лекуна, но считает различия между их подходами незначительными.

Суцкевер детально разбирает ключевые тезисы коллеги:

Мультимодальность: Гость соглашается, что визуальное восприятие полезно, и OpenAI активно развивает это направление (модели CLIP и DALL-E). Однако ученый не считает это бинарным выбором. По его мнению, нейросеть способна выучить даже такие абстрактные понятия, как цвет, исключительно из текста. Векторные эмбеддинги цветов в текстовых моделях выстраиваются абсолютно корректно (модель «знает», что фиолетовый ближе к синему, чем к красному).
Прогнозирование многомерных векторов: Лекун утверждает, что предсказание сущностей с высокой неопределенностью (например, изображений) является барьером для текущих моделей. Суцкевер возражает: современные авторегрессионные трансформеры отлично справляются с этой задачей, что доказано успехами моделей iGPT, DALL-E и Parti от Google.

С практической точки зрения разница между авторегрессионным попиксельным подходом и диффузионными моделями сводится к десятикратному выигрышу в эффективности, но концептуально они тождественны, считает шеф-сайентист OpenAI.

⚡ Архитектурные вызовы, аппаратные лимиты и будущее демократии 33:23

В настоящее время исследовательский фокус Ильи Суцкевера сосредоточен на повышении надежности и управляемости систем, ускорении обучения на меньшем объеме данных и ликвидации галлюцинаций. Комментируя наблюдение Джеффри Хинтона о том, что человеческий мозг обладает триллионами параметров при скромном объеме данных, в то время как LLM требуют огромных датасетов при относительно небольшом числе параметров, ученый выражает уверенность в возможности качественного изменения этого баланса в будущем за счет новых креативных подходов.

Обсуждая проблему нехватки процессоров и колоссального энергопотребления дата-центров, Суцкевер отмечает, что ключевой вопрос заключается не в абсолютной величине затрат, а в ценности получаемого результата. На текущий момент вся аппаратная инфраструктура OpenAI базируется на мощностях облачной платформы Microsoft Azure и поставляемых ею графических процессорах (GPU).

В финале беседы ученый затронул тему влияния ИИ на социальные институты. По прогнозу Суцкевера, развитие технологий может привести к возникновению принципиально новой, высокотехнологичной формы демократии:

В будущем граждане смогут напрямую передавать нейросети подробную информацию о своих ценностях и предпочтениях, а система будет агрегировать эти данные для выработки оптимальных общественных решений.

И хотя полное понимание всех социальных переменных Илья Суцкевер считает фундаментально невозможным, он убежден, что правильно спроектированные системы ИИ станут незаменимыми помощниками в управлении сложными процессами человеческого общества.