Дискуссия Гэри Маркуса и Майкла Вулдриджа о принципах работы LLM

В эпоху стремительного развития технологий большие языковые модели начинают восприниматься широкой публикой как полноценный искусственный интеллект, обладающий глубоким пониманием мира. Однако ведущие специалисты ИИ-индустрии призывают разделять внешнюю лингвистическую убедительность алгоритмов и их реальную способность к осмыслению контекста. В рамках дискуссии на YouTube-канале Machine Learning Street Talk когнитивный ученый Гэри Маркус и исследователь ИИ Майкл Вулдридж подробно разобрали, почему современные нейросети остаются лишь инструментами продвинутого статистического подражания и с какими фундаментальными архитектурными ограничениями сталкиваются разработчики.

🌐 Иллюзия понимания и хаос в интернете 0:00

В начале дискуссии ведущий подкаста обратил внимание на растущий тренд в социальных сетях, где пользователи делятся сомнительными инструкциями по упрощению работы с помощью ИИ. В качестве примера он привел видеоролик популярной блогерши, которая утверждала, что ChatGPT может мгновенно анализировать часовые видео на YouTube по одной лишь ссылке и названию роликов.

По словам ведущего, подобные примеры наглядно иллюстрируют хаос и массовое непонимание базовых принципов работы больших языковых моделей (LLM). Полноценного доступа к интернету у модели в данном режиме нет, из-за чего нейросеть фактически занимается «диким угадыванием» содержания на основе текста самой ссылки, напоминая ярмарочного экстрасенса. Гэри Маркус согласился с этой оценкой, отметив, что регулярно критикует эту волну дезинформации, поскольку пользователи массово перестают критически мыслить при взаимодействии с ИИ-моделями.

В ходе беседы участники затронули тему гипотетического появления сверхинтеллекта. По мнению ведущего, будущий ИИ превзойдет лучшие человеческие умы не в 5 или 10 тысяч, а в миллионы раз. Однако Гэри Маркус выразил скепсис по поводу скорого достижения таких показателей, выделив проблему надежности ИИ в качестве главного препятствия. По мнению Маркуса, необходимость постоянно перепроверять результаты работы нейросетей накладывает жесткие ограничения на реальную экономическую ценность подобных систем. Маркус также подчеркнул, что разговоры о некоем «эмерджентном» (внезапно возникающем) интеллекте внутри LLM во многом носят мистический характер, так как на сегодняшний день ни один разработчик в мире не понимает, как извлечь из extensional-пространства (пространства связей между предложениями) подлинные концептуальные представления.

⏳ От узких алгоритмов до Galactica: Исторический контекст 4:09

Майкл Вулдридж напомнил, что человечество пытается построить искусственный интеллект уже около 75 лет, однако большая часть подходов долгое время не приносила практических плодов. Сегодня общество пользуется ИИ-системами вроде GPS-навигации или поисковика Google Search как обыденностью. Вулдридж считает, что такие технологии эффективны, но они узкоспециализированы и не выглядят «сексуально» в глазах широкой аудитории. Долгое время развитие шло по пути создания точечных решений — от шахматных компьютеров до алгоритма AlphaFold, предсказывающего свертывание белков.

Ситуация изменилась с появлением архитектуры Generalized Pre-trained Transformers (GPT), разработанной несколько лет назад. Появление модели GPT-3 вызвало огромный резонанс в медиа. Например, британская газета The Guardian опубликовала колонку, якобы полностью написанную этой нейросетью, хотя, по словам Вулдриджа, за кадром осталась серьезная правка текста редактором-человеком.

Важной вехой в истории публичных релизов ИИ Майкл Вулдридж считает осень 2022 года:

В ноябре компания Meta выпустила модель Galactica, ориентированную на научные тексты, которая генерировала убедительные, но ложные утверждения.
Модель продержалась на рынке всего три дня и была удалена после жесткой критики со стороны академического сообщества. По воспоминаниям Вулдриджа, Galactica могла по запросу пользователя сгенерировать псевдонаучный текст о пользе поедания битого стекла, детально обосновывая это содержанием фосфора.
Спустя пару недель после закрытия Galactica компания OpenAI представила ChatGPT. Модель имела схожую архитектуру, но отличалась наличием жестких фильтров безопасности (guardrails) для блокировки токсичного контента и была открыта для всего мира, что привело к самому быстрому росту аудитории в истории потребительских продуктов.

🧠 Почему ИИ не копирует человеческий мозг 7:54

На вопрос ведущего о том, почему ученые до сих пор детально не скопировали механизмы работы человеческого мозга, Гэри Маркус ответил, что полное дублирование биологического органа может быть нецелесообразным. Когнитивный ученый напомнил, что человеческий разум эволюционно несовершенен: он обладает ненадежной памятью (люди забывают, где припарковали машину, или могут забыть раскрыть парашют во время прыжка). В своей книге «Kluge» Маркус подробно описал эти ограничения человеческого разума. Еще одним фундаментальным недостатком человека ученый назвал предвзятость подтверждения (confirmation bias), из-за которой люди в политике замечают только те данные, которые подкрепляют их теории, что ведет к жесткой поляризации общества.

Кроме того, по мнению Маркуса, изучение мозга ограничено технологически и этически. До недавнего времени разрешение медицинского оборудования было настолько низким, что один пиксель на снимках активности соответствовал 70 тысячам нейронов. В своей статье для журнала New Yorker Маркус сравнил это с попыткой понять тонкости политической жизни страны, глядя в окно иллюминатора летящего самолета. Современные инструменты позволяют изучать отдельные нейроны, но для этого требуется хирургическое вскрытие черепа, что негуманно проводить на здоровых людях ради лингвистических экспериментов.

Главным преимуществом человеческого интеллекта Маркус назвал его гибкость (flexibility) — способность ориентироваться в абсолютно новых ситуациях и выстраивать логические рассуждения. Современный же ИИ, по его словам, базируется исключительно на распознавании паттернов, из-за чего машины могут превосходить человека в узких глубоких задачах (например, в шахматах), но полностью лишены человеческой широты мышления.

🧮 Феномен игры Го и ортогональность интеллекта 10:39

В качестве примера ограниченности чистого распознавания паттернов ведущий подкаста упомянул, что профессиональные игроки в Го снова начали побеждать сильнейшие ИИ-алгоритмы. Это стало возможным благодаря обнаружению «состязательных атак» (adversarial attacks), обнажающих проблему «швейцарского сыра» в глубоком обучении. Когда алгоритм попадает в незащищенную структурную лакуну, его логика разрушается, что эквивалентно галлюцинациям. Ведущий отметил ортогональность между интеллектом и пониманием: человечество понимает Го на абстрактном уровне гораздо глубже, чем AlphaGo, хотя алгоритм за счет оптимизации играет эффективнее. Это позволяет говорить о двумерной системе координат ИИ, разделяющей процессы «знания» и «мышления».

Майкл Вулдридж объяснил, почему древняя игра Го исторически оказалась сложной для человека:

Размер доски и вектор состояний (state vector) в Го огромны и находятся на пределе ментальных возможностей человека.
Людям трудно выстраивать цепочки явных логических рассуждений во время партии, из-за чего гроссмейстеры часто пишут полумистические эссе о своем интуитивном восприятии игры.

Программы вроде AlphaGo, по утверждению Вулдриджа, представляют собой не отображение текстовых строк, а математическую проекцию позиций на доске на конкретные ходы. Система жестко оптимизирована для выбора действия с наивысшей вероятностью победы на основе колоссального массива тренировочных данных. Тот факт, что состязательные атаки легко находят лазейки вокруг выученной стратегии (policy), Вулдриджа не удивляет. По его словам, современные большие языковые модели выполняют аналогичную механическую работу, используя невообразимые вычислительные мощности — например, около $10^{23}$ операций с плавающей запятой (FLOPS) для обучения GPT-3. Вопрос о том, способна ли данная оптимизация привести к зарождению подлинного смысла, Вулдридж считает открытым.

📝 Мимикрия против ментальных моделей 14:05

Отвечая на вопрос ведущего о том, в какой момент качественное подражание (mimicry) ИИ на Downstream-задачах становится эквивалентом понимания (со ссылкой на работу Мелани Митчелл о режимах понимания), Гэри Маркус высказал позицию когнитивного психолога. Он напомнил, что суть когнитивной революции заключалась в необходимости изучать внутренние ментальные состояния системы, а не только ее внешнее поведение.

Маркус утверждает, что архитектура LLM принципиально отличается от человеческого мышления:

Нейросети лишь предсказывают вероятные последовательности слов, не обращаясь к стабильным ментальным моделям мира, которые можно было бы тестировать, оценивать и обновлять.
Даже гипотетическая модель GPT-10, если она сохранит текущую архитектуру, не будет иметь ментальных состояний, несмотря на возможное снижение количества ошибок.

В качестве доказательства Маркус привел недавние тесты из Twitter, где пользователи просили GPT выполнить простые задачи — например, назвать третий символ в третьем слове конкретного предложения. Модели демонстрируют нестабильные результаты, поскольку у них отсутствует универсальное абстрактное представление понятия «третий». По словам ученого, ИИ сталкивается с непреодолимой проблемой сдвига распределения данных (distribution shift).

🔬 Интенсиональное против экстенсионального: Научный разбор 16:17

Для объяснения природы ошибок ИИ Гэри Маркус прибегает к философским концепциям интенсионала и экстенсионала. Интенсиональное знание (понимание сути правила, например, математического определения нечетного числа) коренным образом отличается от экстенсионального (простого перечисления списка нечетных чисел в мире). Системы ИИ ориентируются на экстенсиональное пространство, из-за чего они успешны в рамках знакомой обучающей выборки, но совершают нелепые ошибки, как только данные слегка меняются.

Маркус выделил научную работу исследователей Язаман Разеги (Yasaman Razeghi) и Самира Сингха (Samir Singh), в которой изучалась открытая модель GPT-J. Наличие исходного обучающего датасета позволило авторам сопоставить результаты тестов с обучением модели. Исследование доказало, что ИИ не обладает концептуальным пониманием математического умножения как общей функции. Успех нейросети напрямую зависел от того, как часто конкретные числовые примеры встречались в ее обучении. Маркус подчеркнул, что проведение аналогичного строгого анализа для коммерческой модели GPT-4 невозможно, поскольку OpenAI полностью скрывает данные о ее обучении от научного сообщества.

Примером уязвимости перед анекдотичными данными (anecdotal data) послужил случай, когда исследователь Элиезер Юдковский заявил в Twitter, будто GPT-4 способна самостоятельно изобретать язык сжатия данных. Майкл Вулдридж проверил этот тезис, попросив модель сжать статью BBC News. На выходе получилась хаотичная смесь эмодзи и кодовых слов, а при попытке декомпрессии модель исказила факты: фраза о том, что «58-летний Питер Мюриэл допрашивается в полиции», превратилась в утверждение, что «было арестовано 58 человек». По мнению Маркуса, это доказывает отсутствие глубокого понимания контекста, а эксперты вроде Юдковского просто поддаются первому впечатлению.

🛠️ Полезный инструмент без модели реального мира 17:59

Ведущий подкаста возразил критикам, отметив, что оценка изолированных языковых моделей может быть устаревшей концепцией («соломенным чучелом»). Благодаря технологиям контекстного обучения (in-context learning) и генерации с дополнением (RAG) в связке с человеком ИИ демонстрирует поразительную эффективность. В качестве личного примера ведущий рассказал, как с помощью GPT-4 за несколько шагов написал сложный Python-скрипт: нейросеть разбила трехчасовой аудиофайл подкаста на 15-минутные блоки, транскрибировала их через модель Whisper, сформировала оглавление, автоматически скорректировала временные индексы файлов и сгенерировала финальный индекс для видеоредактора. Без ИИ ведущий даже не взялся бы за автоматизацию столь комплексной задачи.

Майкл Вулдридж согласился, что подобные системы крайне полезны в роли ассистентов, однако подчеркнул, что люди слишком легко проецируют на них разум. Он привел кулинарную аналогию:

Если попросить GPT-4 написать рецепт омлета, она выдаст отличный текст и правдоподобно опишет его текстуру, поскольку проанализировала тысячи подобных описаний в сети.
Но понимает ли модель, что такое омлет? По мнению Вулдриджа, нет. Человеческое понимание этого слова заземлено (grounded) в реальном физическом и эмоциональном опыте: вкусе омлета на завтрак, воспоминаниях о парижском ресторане 1997 года или регулярных неудачах с подгоревшей едой на собственной кухне. Текстовые данные не способны заменить этот эмпирический базис.

Гэри Маркус добавил, что даже продвинутые математические ИИ-системы, такие как Minerva, успешно справляются с двухзначным умножением, но пасуют перед четырехзначным, что доказывает отсутствие абстрактной логики. Маркус вспомнил свой эксперимент 25-летней давности (из статьи 1998 года) со структурой «A rose is a rose, a dax is a [blank]». Любой человек интуитивно подставит слово «dax», понимая универсальное правило тождества. Однако современная GPT-4 провалила этот тест, выдав ошибку о невозможности рассуждать о вымышленных словах.

По мнению Маркуса, настоящим прорывом в индустрии станет создание принципиально иной архитектуры, способной на основе языкового описания строить точную и проверяемую модель физического мира. Такую систему можно будет допрашивать через API, получая четкие ответы на абстрактные вопросы об объектах в пространстве (например, понимает ли ИИ, на чем держится штатив или где в комнате расположены стулья). Только тогда можно будет говорить о подлинном понимании.