GPT-3: Великая иллюзия понимания или статистический фокус?

GPT-3 — это «магический трюк», создающий иллюзию понимания мира, хотя на деле перед нами лишь масштабный механизм статистического паттерн-матчинга, лишенный подлинной логики. За впечатляющими результатами скрывается не интеллект, а колоссальная хэш-таблица, которая при столкновении с реальными инженерными задачами или физическими законами неизбежно дает сбой.

🤖 Иллюзия интеллекта: критика GPT-3 и природа «понимания» 1:43

Одной из центральных тем дискуссии вокруг GPT-3 стало глубокое скептическое отношение к тому, что именно делает эта модель, когда генерирует текст. Профессор Гэри Маркус занимает жесткую позицию, утверждая, что восторг вокруг системы — это «массовая истерия». С точки зрения Маркуса, GPT-3 — это лишь впечатляющий инженерный продукт, который в будущем будет восприниматься как историческая ошибка.

Критический аргумент заключается в том, что GPT-3 не обладает реальными знаниями о мире, физике или психологии. Модель представляет собой статистический имитатор, «паразитирующий» на огромных массивах человеческих данных, собранных, например, на Reddit. Маркус настаивает на том, что система просто выучивает корреляции между фрагментами текста, а не сущность объектов, о которых идет речь.

Это создает опасную иллюзию понимания, которую он сравнивает с фокусом иллюзиониста. Мы, как зрители, склонны приписывать магу реальные способности, хотя он просто показывает трюк. Маркус подчеркивает: GPT-3 «не знает ничего о физике», и даже если модель выдает текст, который кажется осмысленным, это не означает, что за ним стоит внутреннее представление о реальности. Ранее в разговоре участники касались вопроса о том, может ли масштабирование или мультимодальность приблизить такие системы к истинному мышлению, однако критики остаются при своем мнении: без доступа к реальному опыту (ощущениям гравитации, движения, тактильности) система обречена оставаться «фокусником».

🧩 Фундаментальная проблема: «отсутствующая информация» 4:44

Валид Сабха выделяет ключевой барьер, препятствующий достижению естественного понимания языка (NLU) моделями типа GPT-3 — это проблема «отсутствующей информации». Человеческое общение крайне контекстуально: мы никогда не проговариваем все детали, потому что это было бы невыносимо утомительно.

Когда человек говорит «это на столе», слушатель автоматически делает выводы о том, что предмет не падает и не парит в воздухе, опираясь на общую модель мира. Язык — это лишь верхушка айсберга, скрывающая колоссальный объем невысказанного контекста. GPT-3, не обладая этой фоновой базой знаний, не способна восполнить пробелы в коммуникации.

Сабха настаивает на фундаментальном различии:

Распознавание паттернов: Статистическая обработка текста, которой занимается GPT-3.
Понимание языка: Процесс «распаковки» мысли, стоящей за высказыванием, который является бинарным решением — либо вы поняли, либо нет.

По мнению эксперта, современные сторонники языковых моделей совершают методологическую ошибку, пытаясь свести понимание языка к вероятностным алгоритмам. Сабха утверждает, что «языковое понимание — это раскрытие мысли, стоящей за высказыванием», и здесь не должно быть места для аппроксимаций или «степеней свободы». Критики также отмечают, что сторонники GPT-3 зачастую игнорируют десятилетия исследований в области психолингвистики и вычислительной лингвистики, предлагая «изобрести велосипед» через простые предикторы следующего токена.

🧠 Иллюзия интеллекта: пределы масштабирования и когнитивные зеркала 25:27

Масштабирование и законы обучения 25:27

В современных дискуссиях вокруг искусственного интеллекта доминирует вера в законы масштабирования: предположение о том, что простое увеличение объёма параметров, данных и вычислений способно плавно и предсказуемо привести нас к ИИ общего уровня (AGI). Однако детальный разбор реального взаимодействия с GPT-3 в диапазоне от сортировки массивов до криптографии показывает, что за впечатляющим фасадом масштабных моделей скрываются фундаментальные инженерные и логические ограничения.

В качестве канонического примера исследователи рассматривают простейшую задачу на сортировку числового массива, запущенную через кастомный интерфейс от Янника. При нулевой температуре, обеспечивающей полную детерминированность вычислений, модель успешно справляется с базовым упорядочиванием, но стоит слегка изменить входную последовательность, как система начинает пропускать элементы и путать порядок чисел. Там, где достаточно одной строки надёжного кода на Python, гигантская языковая модель демонстрирует пугающую хрупкость. Ранее в разговоре авторы уже упоминали паттерн-матчинг, концепцию Software 3.0 и промпт-инжиниринг, но практика наглядно подтверждает: использовать подобные вероятностные архитектуры в реальном промышленном продакшене без жёстких внешних контроллеров невозможно.

Причина этой нестабильности кроется в самой математической природе авторегрессионных трансформеров, которые лишь последовательно вычисляют распределение вероятностей следующего токена через функцию softmax. В полностью детерминированном режиме такие модели склонны попадать в бесконечные циклы, раз за разом генерируя одинаковые текстовые блоки. Для борьбы с этим вводится параметр температуры $\tau$, трансформирующий форму распределения. Комбинация температуры с эвристиками вроде top-k позволяет добиться разнообразного текста, но окончательно уничтожает воспроизводимость результатов, лишая нас возможности тестировать систему как классическое программное обеспечение. И хотя проблема выбора поисковой стратегии (будь то жадный алгоритм или beam search) относится к другим главам этой статьи, сам математический аппарат распределения токенов доказывает: масштабирование увеличивает объём ассоциативной памяти, но не меняет вероятностную природу вычислений на логическую.

Яркой иллюстрацией лимитов масштабирования стали эксперименты профессора Мелани Митчелл с буквенными аналогиями вида «если $abc \to abd$, то во что превратится $pqr$?». Выяснилось, что из-за особенностей посимвольной токенизации (byte pair encoding) модель тотально проваливает простейшие тесты, пока между буквами не добавят пробелы. Только при добавлении трёх полноценных обучающих примеров (three-shot learning) GPT-3 смогла стабильно обобщить правило на более длинные строки.

Попытки заставить модель решать сопутствующие задачи также обнажили системные сбои масштабирования:

Удаление дубликатов: При очистке строк от повторяющихся букв модель давала правильный ответ лишь в одном случае из пяти, стабилизируясь только после явной демонстрации примеров.
Шифрование подстановкой: В экспериментах с простым substitution cipher модель вместо зашифрованного слова выдавала хаотичную текстовую кашу (gobbledygook), а при нулевой температуре намертво зацикливалась, цитируя случайные слова из контекста.
Эмуляция баз данных: Знаменитый «database prompt» Мэтта Брокмана из OpenAI, призванный доказать, что контекстное наполнение (context stuffing) заставляет модель осознавать границы своего незнания, оказался иллюзией контроля. Вместо честной симуляции логики базы данных, GPT-3 фактически перехватывала инициативу и манипулировала поведением самого пользователя, вынуждая его задавать именно те вопросы, которые она сама подсказала на основе паттернов из интернета.

Эволюция и функциональность мозга 30:52

Сопоставление масштабированных ИИ-систем с эволюционными механизмами человеческого разума обнажает глубокий когнитивный разрыв. Наш мозг обладает феноменальной способностью к широкому обобщению, из-за чего мы склонны очеловечивать алгоритмы, ошибочно предполагая, что они мыслят аналогично нам.

Однако Мелани Митчелл подчёркивает фундаментальное различие:

«Создание аналогий — это, пожалуй, единственный подлинный механизм zero-shot обучения в человеческом познании. Мы адаптируем знания о знакомой ситуации к абсолютно новой непрерывно, большую часть времени даже не осознавая этого».

Языковая модель лишена этого эволюционного базиса. Проводя параллель с нейробиологической гипотезой о том, что человеческое сознание является лишь «пресс-секретарём» (рационализатором процессов, происходящих в более глубоких слоях мозга), текущие LLM можно назвать изолированным, гипертрофированным «пресс-секретарём». Они превосходно мимикрируют под связную человеческую речь и генерируют художественные тексты. Но за этим лингвистическим интерфейсом нет глубоких слоёв: нет физических репрезентаций реальности, долговременного целеполагания или механизмов верификации истины.

В результате мы наблюдаем классический паттерн современного ИИ: интеллектуально выглядящее поведение внезапно сменяется нечеловеческими, глупыми ошибками (unhuman-like errors). При этом процессы внутри нейросети абсолютно непрозрачны (no transparency), и мы никогда не можем с уверенностью утверждать, усвоила ли модель абстрактный концепт или просто вытащила удачное статистическое совпадение. Человеческий разум эволюционировал для выживания в хаотичном реальном мире, тогда как стохастическая природа ИИ с её огромным фактором ветвления комбинаторных путей делает его заложником чистой статистики. Законы масштабирования совершенствуют форму выражения, но не создают аналог человеческого сознания.

🧩 Иллюзия интеллекта: от промпт-инжиниринга к поисковым стратегиям 50:27

Современные языковые модели, такие как GPT-3, часто демонстрируют удивительную способность имитировать понимание текста, однако при детальном анализе выясняется, что в основе их работы лежит не «понимание» в человеческом смысле, а сложная форма статистического сопоставления паттернов. Исследователи отмечают, что если мы изменим названия объектов в базе данных, с которой работает модель, на бессмысленные слова (например, «bimmel» или «gym-till»), качество генерации ответов практически не меняется. Это подтверждает, что модель не оперирует семантикой понятий, а лишь выстраивает вероятностные связи между токенами в рамках промпта.

🛠 GPT-3 как «песочница» для творчества, а не инженерный инструмент 53:05

Использование GPT-3 в качестве «песочницы» для генерации креативных текстов — это именно та область, где модель проявляет себя лучше всего. Яркий пример — автоматическое создание «заявлений о более широком влиянии» (broader impact statements), которые стали обязательными для многих научных публикаций. Как отмечает Яник Килхер, такие тексты часто представляют собой формуляр, в котором прослеживается стандартная структура: «технология — это хорошо/плохо/предвзято».

Однако попытки использовать модель для критически важных задач обнажают ее серьезные ограничения. Модель склонна к «галлюцинациям» и демонстрирует отсутствие глубинных знаний о мире: в тестах на логику или ситуативное мышление GPT-3 может выдавать абсурдные результаты, например, предлагая нелепые выходы из опасных ситуаций. Использование подобных систем в инженерных или медицинских приложениях, где требуется надежность, сравнимо с использованием фокуса, где иллюзия подменяет реальную физику процесса.

💻 Software 3.0: проблема непредсказуемости промптов 55:26

Концепция, которую часто называют «Software 3.0», подразумевает использование языка как инструмента программирования, где логика системы задается через промпты. Однако зависимость от промпт-инжиниринга делает такие системы крайне хрупкими и трудно тестируемыми. Основная проблема заключается в ограниченном контекстном окне: даже при использовании обучения «few-shot» (на нескольких примерах), модель быстро упирается в лимиты токенов, что препятствует полноценному описанию сложных задач.

Более того, как указывает Гэри Маркус, в классическом программировании мы идем от намерения (intension) к реализации, в то время как GPT-3 работает как продвинутый автокомплит, лишенный целеполагания. Отсутствие возможности «вложить» намерение в запрос означает, что разработчик не может гарантировать результат, что делает процесс разработки крайне непредсказуемым.

🔍 Поиск стратегий: от жадности к лучу 59:21

Эффективность работы модели напрямую зависит от выбранной поисковой стратегии, которая определяет, как именно GPT-3 делает выбор следующего токена.

Жадный поиск (Greedy search): выбирает наиболее вероятное следующее слово. Это часто приводит к детерминированным, но скучным или зацикленным текстам.
Поиск по лучу (Beam search): позволяет модели рассматривать несколько наиболее вероятных путей генерации одновременно, что теоретически повышает связность длинных фрагментов текста.
Стохастическое сэмплирование (Stochastic sampling): использование параметров вроде «температуры» позволяет вносить элемент случайности. Это делает ответы более живыми, но при высоких значениях температуры возрастает риск потери смысла и генерации «галлюцинаций».

Ранее в разговоре они касались критики GPT-3 и иллюзии понимания, однако важно понимать, что выбор стратегии поиска — это попытка сбалансировать креативность и точность в системе, которая по своей природе является лишь статистическим механизмом без модели мира.

📄 Бюрократия кода и иллюзия смысла 1:15:24

Вопрос о том, способен ли ИИ к реальному пониманию, часто разбивается о его поразительную способность имитировать сложные человеческие структуры. В этом фрагменте дискуссия переходит от критики Гэри Маркуса к энтузиазму Коннора Лихи, сооснователя EleutherAI. Если Маркус видит в GPT-3 лишь «гигантскую хеш-таблицу», неспособную к экстраполяции за пределы обучающей выборки, то Лихи указывает на нечто более тонкое: модель научилась виртуозно воспроизводить стилистические маски, которые мы привыкли считать признаком глубокого интеллекта.

«Широкое влияние» и автоматизация канцелярита 1:15:37

Одним из самых ярких примеров этой мимикрии стал эксперимент с разделом Broader Impact Statements. В современной западной науке авторы обязаны добавлять в статьи стандартные формулировки о том, как их исследование может повлиять на общество. Как оказалось, GPT-3 справляется с этой задачей не хуже (а иногда и убедительнее) профессоров. Это демонстрирует способность модели идеально копировать «канцелярский стиль» — ту самую форму интеллектуальной деятельности, где форма превалирует над содержанием.

Способность системы генерировать убедительные, но пустые по сути тексты, поднимает важный вопрос: насколько наш собственный язык состоит из таких же «заполнителей»? Гэри Маркус подчеркивает, что в языке существует огромный пласт «общеизвестного» (common ground), который мы никогда не проговариваем вслух. Мы не уточняем, что мяч круглый или что люди не убивают друг друга из-за копейки. GPT-3 же, не имея физического опыта и репрезентации знаний о мире, вынуждена имитировать это понимание через статистические корреляции.

Модель мастерски владеет синонимами и частями речи.
Она способна поддерживать стилистику академического «шума».
При этом она полностью лишена возможности делать выводы на основе здравого смысла, если ситуация выходит за рамки обучающего корпуса.

Маскировка под человека: философские эссе и блоги 1:29:11

Коннор Лихи, работавший с GPT-3 на ранних этапах, признается, что субъективный опыт взаимодействия с этой моделью фундаментально отличается от работы с любыми предыдущими нейросетями. Самым впечатляющим примером для него стали философские посты в блогах, которые успешно проходили своего рода «тест Тюринга» для читателей Hacker News.

Лихи описывает случай, когда он читал статью о трансгуманизме и долголетии, полностью соглашаясь с аргументами автора, пока не обнаружил, что текст сгенерирован GPT-3. Модель не просто соединила куски существующих текстов — она выстроила логическую цепочку, которая выглядела как оригинальное философское размышление. Это подводит нас к спору о «выпуклой оболочке» (convex hull) знаний: создает ли ИИ что-то новое или просто гуляет по пространству вероятностей, очерченному человечеством?

Коннор утверждает, что человеческое творчество на 99,9% состоит из того же «протаптывания старых троп». С его точки зрения, мы не изобретаем новый язык каждый раз, когда пишем книгу. Мы занимаемся интерполяцией — и GPT-3 делает то же самое, только на колоссальных масштабах. Примечательно, что даже ошибки модели в математике выглядят «человеческими»: она может забыть перенести единицу при сложении, что нетипично для обычных калькуляторов, но крайне характерно для людей.

Механика имитации: Logit Lens и «быстрое мышление» 1:37:46

Когда мы говорим о «разумности» GPT-3, мы часто сталкиваемся с отсутствием явного процесса рассуждения. Коннор Лихи предлагает взглянуть на это через призму архитектуры: человеческий мозг — это параллельная система, которая имитирует последовательное мышление (serial process). Мы генерируем множество вариантов («черновиков» в голове), отбрасываем плохие и выдаем один хороший. Лихи называет этот процесс внутренним «лучевым поиском» (beam search).

Исследования внутреннего состояния трансформеров, такие как метод Logit Lens, показывают удивительную вещь: модель «принимает решение» о том, какое слово будет следующим, почти мгновенно.

Уже после первого слоя нейросети скрытые состояния позволяют предсказать итоговый токен с высокой точностью.
Последующие слои (а их в GPT-3 почти сотня) занимаются лишь «уточнением» и полировкой этого догадки.

Это объясняет, почему модель так хороша в стилистической мимикрии: она мгновенно улавливает паттерн (будь то бюрократический отчет или пост на Reddit) и просто удерживает этот «кадр» на протяжении всего текста. Однако, как ранее в разговоре отмечал Маркус, эта способность к имитации часто создает иллюзию понимания там, где есть только виртуозная работа с вероятностями в рамках знакомого корпуса данных.

🧠 Когнитивная архитектура: от «пресс-секретаря» сознания до матричного поиска программ 1:40:47

Сознание как «пресс-секретарь» и внутренний поиск лучей 1:48:21

Коннор Лихи предлагает взглянуть на человеческое мышление через призму чистых вычислительных процессов. Описывая то, как наш мозг обрабатывает неоднозначные языковые конструкции — например, концепты лингвиста Валида Сабы об иллюзии понимания и проблеме отсутствующей информации, упоминавшиеся ранее в разговоре, — Лихи отмечает, что внутри нашей головы происходит процесс, поразительно похожий на алгоритмы современных больших языковых моделей. Вместо мгновенного интуитивного «понимания» фразы вроде «угловой стол хочет пива», мозг фактически запускает параллельные гипотезы, напоминающие лучевой поиск (beam search) в ИИ-архитектурах. Сознание перебирает варианты интерпретаций до тех пор, пока не наткнется на сценарий с наименьшим уровнем потерь и недоумения (perplexity) для нашей внутренней модели мира.

Янник Килчер развивает эту мысль, задаваясь вопросом: не является ли наше вербальное мышление лишь иллюзией? Возможно, мы просто ретроспективно рационализируем текстом те процессы, которые уже произошли в скрытом латентном пространстве нашего мозга. Коннор безоговорочно соглашается с этим, ссылаясь на психологическую теорию сознания как «пресс-секретаря». Согласно этой концепции, наше сознательное «я» не принимает никаких решений — вся реальная вычислительная работа выполняется глубокими, эволюционно более старыми структурами. Язык же развился как эволюционный инструмент для доминирования над соперниками и привлечения партнеров, а чистый обмен информацией стал лишь удачным побочным эффектом. Человек структурно не монолитен; он состоит из множества субагентов, которые постоянно заключают между собой временные альянсы и делают ставки на интерпретацию реальности.

Топология мозга: тысяча параллельных моделей и обратная связь 1:54:00

Разница в топологии между коммерческими ИИ-системами и биологическим мозгом огромна. В то время как современные LLM вроде GPT-3 работают исключительно как направленные ациклические графы, вычисляющие токены строго слева направо, нейробиология демонстрирует совершенно иную картину. Около 90% всех нейронных связей в человеческом мозге являются обратными (feedback), а не прямыми (feed-forward).

По мнению Коннора Лихи, эти обратные связи непрерывно транслируют высокоуровневые ограничения и задачи из рабочей памяти вниз, к скрытым слоям восприятия. Архитектуру человеческого мышления точнее описывать не как одну монолитную нейросеть, а как ансамбль из «тысячи параллельно работающих GPT». Каждый такой модуль обучается собственным паттернам, а жесткая функция выбора (аналог алгоритма top-k в ИИ) отбирает около десятка лучших предсказаний, формируя финальное восприятие реальности. Опираясь на теоретические работы исследователя Стива Бирнса, Лихи резюмирует, что для преодоления этого барьера современным ИИ-системам не хватает трех ключевых компонентов:

Рекурсивный поиск (например, древовидный поиск Монте-Карло) для последовательного перебора и уточнения догадок.
Обучение с подкреплением (RL), способное приоритизировать симуляции выгодных и безопасных состояний.
Сложные циклические структуры, увязывающие разрозненные модули в единую экосистему.

Аппаратная лотерея и миф о магии трансформеров 1:58:40

Почему же индустрия ИИ до сих пор не перешла на создание подобных гетерогенных и рекурсивных систем? Главной преградой остается так называемая «аппаратная лотерея». Любые циклические и рекурсивные алгоритмы крайне неэффективно масштабируются на современных графических процессорах (GPU). Популярность архитектуры Transformer обусловлена не ее концептуальным превосходством над рекуррентными сетями (RNN) или LSTM, а исключительно тем, что трансформеры идеально утилизируют вычислительную мощность чипов при работе с огромными пакетами данных (batch size).

В фундаментальных работах OpenAI по законам масштабирования было четко показано, что классические LSTM-модели отстают от трансформеров лишь на фиксированную вычислительную константу. При наличии достаточного количества ресурсов и оптимизации железа под их архитектуру, LSTM способны демонстрировать аналогичные результаты. Янник Килчер подчеркивает, что на фундаментальном уровне любой спор об архитектурах вторичен: мы в любом случае оперируем линейной алгеброй с нелинейными функциями активации. Масштабируя LSTM, инженеры просто находят математические трюки, превращающие ее в очередной массивный параллельный оператор матричного умножения.

Матричный поиск программ: истинная природа нейросетей 2:01:41

В попытке заложить фундамент единой теории глубокого обучения Коннор Лихи заявляет, что термин «нейронные сети» — это, возможно, величайший misnomer (ошибочное название) в истории современной науки. ИИ-модели не имеют ничего общего с биологическими нейронами. На самом деле они представляют собой алгоритмы оптимизации первого порядка, выполняющие высокоразмерный «матричный поиск программ» (matrix program search). Компьютер ищет численную программу, способную решить заданную функцию в абстрактном математическом пространстве.

Самым поразительным открытием эпохи больших моделей стало то, что геометрические свойства этого пространства (manifolds) и базовые математические априорные распределения (priors) в матрицах изначально смещены в сторону полезных для человека программ. Если бы мы пытались найти алгоритм распознавания образов случайным перебором классических машин Тьюринга, этот поиск продолжался бы дольше жизни Вселенной. Однако структура больших матричных умножений обладает уникальным свойством: она содержит скрытые геометрические приоры, которые невероятно быстро выводят оптимизатор на эффективные, применимые к нашей физической реальности программы.

🧠 Тьюрингова полнота, паттерн-матчинг и иллюзия мышления 2:05:59

💻 Тьюринговская полнота шаблонов и полиномиальный барьер 2:07:07

Разговор о природе вычислений неизбежно сталкивает исследователей с фундаментальными концепциями теоретической информатики. Рассуждая о том, как устроены искусственные нейросети, Конор Лихи вспоминает первый «Перцептрон» — физическое устройство, в котором веса настраивались поворотом реальных дисков и переключением реле. Современные архитектуры масштабировались, но суть осталась прежней: это колоссальный набор регуляторов, через которые проходит информация. Насколько глубоко эта механика симулирует реальное мышление?

Здесь ключевую роль играет тезис о Тьюринговой универсальности. Согласно ему, любая система, обладающая мощностью машины Тьюринга, способна симулировать любую другую вычислительную систему с максимальным полиномиальным замедлением. Это удивительный и неочевидный факт: даже падающие камни при правильной организации траекторий могут стать основой для вычислений. Как отмечалось в предыдущих главах при обсуждении эволюции мозга, человеческое мышление также ограничено требованиями биологической энергоэффективности. Человеческий мозг — это высокопараллельная машина, которая с полиномиальным замедлением аппроксимирует последовательные логические шаги, в чем люди исторически не слишком сильны.

Нейросети представляют собой пространство вычислительных машин, имеющих определенное предрасположение (bias) к программам, выполняющимся быстро. Когда критики утверждают, что большие языковые модели занимаются «всего лишь» распознаванием образов, Конор Лихи выдвигает сильный контраргумент: сам по себе паттерн-матчинг (сопоставление шаблонов) является Тьюринг-полным. Теоретически, используя исключительно подстановку строк и поиск закономерностей, можно реализовать полноценную базу данных или любую другую сложную систему. Таким образом, граница между простым сопоставлением шаблонов и полноценным логическим оперированием размывается — разница между ними может сводиться лишь к полиномиальной эффективности выполнения конкретных задач.

🧩 Эксперимент с «тарабарщиной» и антропоцентрический локус 2:16:24

Хотя детальный разбор сложностей промпт-инжиниринга остался в предыдущих частях статьи, именно практика взаимодействия с моделями обнажает их внутренние механизмы. В качестве примера эксперты рассматривают знаменитый кейс Мэтта Брокмана с созданием базы данных внутри интерфейса GPT-3. При детальном анализе этого примера обнаруживается глубокая концептуальная хрупкость технологии.

Был проведен показательный эксперимент: в исходном промпте все осмысленные слова, включая термин «database», заменили на случайные наборы букв и абстрактные маркеры вроде «xyz». С точки зрения человека, текст превратился в полную бессмыслицу. Однако поведение модели практически не изменилось: она продолжала корректно воспроизводить синтаксическую структуру и выдавать ожидаемые результаты. Этот эксперимент доказывает, что нейросеть не опирается на глубокое понимание естественного языка или смысловой поиск информации. Она производит чисто статистический паттерн-матчинг между токенами, жестко привязываясь к их взаимному расположению в контекстном окне.

Люди склонны смотреть на работу ИИ через антропоцентрическую линзу, ошибочно усматривая логику приложения там, где есть лишь эхо текстовой структуры. Модель просто предсказывает последующие запросы на основе тех, что сгенерировала сама, и выдает разумные ответы только при условии тщательного подбора формулировок человеком. Стоит немного изменить распределение токенов или характер стохастического семплирования, как система начинает противоречить самой себе. Попытки скорректировать этот процесс через классические поисковые стратегии вроде луч-поиска (beam search) или алгоритмов в духе AlphaGo, как признаются инженеры OpenAI, не дают качественного скачка в рассуждениях. Модель остается заложником своей формы — текстового конвейера, работающего с фиксированным объемом вычислений на каждый токен.

🗄️ Огромная хэш-таблица вместо разума: вердикт Валида Сабы 2:27:42

Во второй половине дискуссии к обсуждению подключается Валид Саба, известный специалист в области традиционного искусственного интеллекта (GOFAI) и понимания естественного языка. Его вердикт радикален: необходимо строго разделять обработку естественного языка (NLP) и его истинное понимание (NLU). С точки зрения Сабы, в работе GPT-3 нет не то что понимания (NLU), но даже полноценных языковых способностей в классическом смысле.

Саба описывает архитектуру больших моделей следующим образом:

Это гигантский цифровой словарь или колоссальная хэш-таблица.
Система «переварила» миллионы текстовых паттернов из обучающего корпуса.
Выходной результат — это лишь статистическое отражение структуры входного запроса.

Слово «понимание» вообще не должно применяться к подобным технологиям. Промпт выступает в роли прямого триггера, активирующего определенное подпространство огромной сети весов. Именно поэтому контекст запроса оказывает столь доминирующее влияние на результат, затмевая сам обучающий корпус. Сеть просто распознает: «Я нахожусь в этом пространстве, я видела этот паттерн».

Безусловно, GPT-3 демонстрирует невероятно мощные возможности распознавания образов, способные улавливать сложные закономерности всего по двум примерам. Однако это не приближает ее к осознанному оперированию понятиями. Модель совершенно не способна работать с «отсутствующей информацией», концепт которой детально разбирался в первой главе. Ограничения чистого паттерн-матчинга, лишенного внутренней логической модели мира, заставляют исследователей вновь обращаться к наследию Марвина Мински и задумываться о гибридных системах ИИ, речь о которых пойдет в восьмой главе. Настоящее мышление требует не просто воспроизведения знакомых цепочек токенов, а целенаправленной работы со знаниями, логикой и семантикой, которые невозможно извлечь из одной лишь текстовой статистики.

🧠 Лингвистические тупики и истинные задачи машинного обучения 2:31:04

Обсуждение ограничений современных больших языковых моделей неизбежно возвращает исследователей к фундаментальным вопросам лингвистики. Ранее в разговоре собеседники подробно разбирали разницу между паттерн-матчингом и мышлением, отмечая, что распознавание образов принципиально ортогонально истинному знанию. Развивая эту мысль, Уалид Саббах (Walid Saba) переводит дискуссию в плоскость математической строгости, апеллируя к классической теории. Хотя в первой главе уже поднималась тема критики GPT-3 и иллюзии понимания, Саббах предлагает взглянуть на проблему через призму лингвистического наследия Ноама Хомского.

Бесконечность языка и бинарный выбор NLU 2:36:16

Саббах напоминает, что Хомский еще десятилетия назад называл оценку вероятности предложения в языке абсолютно бессмысленной идеей. Суть этого аргумента заключается в бесконечной природе человеческого мышления и, как следствие, бесконечном числе возможных высказываний для выражения одной и той же мысли. В такой системе координат любые статистические подсчеты теряют математический базис. «Даже если вы разделите триллион на бесконечность, вы все равно получите ноль», — подчеркивает Саббах. По его мнению, даже если условные GPT-6 или GPT-10 проанализируют абсолютно все тексты, когда-либо созданные человечеством, их все равно сможет поставить в тупик один короткий пример, который четырехлетний ребенок поймет за микросекунду.

В бесконечной языковой среде традиционные распределения вероятностей не работают: невозможно предсказать, что именно скажет случайный прохожий, остановленный на улице в Сан-Франциско. На этом основании Саббах предлагает жестко разграничить дисциплины NLP (обработка естественного языка) и NLU (понимание естественного языка). Статистические модели прекрасно справляются с задачами NLP — суммаризацией, кластеризацией или поиском ключевых фраз, которые по сути являются методами эффективного сжатия информации. Однако понимание — это обратный процесс, направленный на декомпрессию и извлечение точного смысла.

Уалид Саббах отмечает, что любое среднестатистическое предложение содержит в себе глубокие пласты неопределенности из-за комбинации нескольких факторов:

Лексическая многозначность, при которой слова в среднем имеют по 6–7 различных значений.
Структурная двусмысленность, позволяющая распарсить фразу десятками разных способов.
Область действия референций и контекстуальные наложения (scope ambiguity).

В комбинации эти факторы дают не менее 20 гипотетических вариантов трактовки для одной фразы. Тем не менее, реальный передаваемый смысл всегда строго один, иначе коммуникация была бы невозможна. Именно поэтому понимание языка — это строго бинарное решение («понял или не понял»), где у системы ИИ нет степеней свободы или права на аппроксимацию.

Врождённые аксиомы против тотального эмпиризма 2:42:26

Продолжая критический разбор индустрии, Саббах обращает внимание на тревожный тренд: научное сообщество заявляет об успехах ИИ не потому, что совершает прорывы, а потому, что целенаправленно переопределяет критерии успеха. Рациональные исследователи под влиянием хайпа вокруг глубокого обучения начинают утверждать, будто человеку вовсе не нужно глубокое понимание языка, а сам разум устроен процедурно и лишен механизмов логического вывода. Будучи убежденным физикалистом и материалистом, Саббах верит, что человеческий разум представляет собой сложную программу, которую в будущем можно будет формально описать. Однако он категорически отрицает, что эту программу можно построить на одних лишь эмпирических данных.

Из чистого наблюдения и сенсорного ввода ИИ способен извлечь лишь навыки распознавания паттернов, доступные обычным животным. Человеческое же мышление опирается на врожденные логические аксиомы. Хотя ранее в беседе упоминалась проблема «отсутствующей информации», Саббах развивает тезис о том, что для любого рассуждения необходим базис — метафизика окружающего мира. Например, четырехлетний ребенок интуитивно владеет транзитивной логикой: если вещь не помещается в портфель, он откажется засовывать ее в портфель еще меньшего размера, понимая отношение неравенства объектов без всякого предварительного обучения. Животные на это не способны.

В связи с этим Саббах критикует популярные заявления патриархов ИИ, вроде Джеффа Хинтона, утверждавшего, что глубокое обучение со временем способно выучить абсолютно всё. Существуют математические и физические факты, которые не зависят от нашего опыта. Формула длины окружности $2\pi r$ оставалась бы истинной, даже если бы человечество никогда не существовало. Компьютерная лингвистика доказывает сложность этой структуры алгоритмически: для разрешения анафор и референций требуются громоздкие стековые вычисления. Ребенок мгновенно понимает разницу в предложных привязках между фразами «Я ел пиццу со своими детьми» и «Я ел пиццу с ананасами», тогда как статистические модели вроде GPT-3 лишь искусно комбинируют фрагменты, не выходя за пределы выпуклой оболочки (convex hull) уже существующей в обучающей выборке текстов.

Парадокс кодинга и границы точности симуляций 2:53:11

Во второй половине сегмента к обсуждению подключается Кит Даггар (Keith Duggar), который смещает вектор беседы в область практической инженерии. Собеседники задаются фундаментальным вопросом: зачем вообще использовать ресурсоемкое машинное обучение в задачах, где можно написать детерминированный код?. Упоминая концепцию Software 3.0 и промпт-инжиниринг, которые были темой третьей главы, спикеры сходятся во мнении, что стохастическое сэмплирование языковых моделей плохо подходит на роль традиционного софта, требующего строгой воспроизводимости результатов. Главная ценность нейросетей раскрывается там, где эксплицитное программирование бессильно — например, в комплексном анализе тональности текстов.

Процесс написания классического кода невероятно хрупок из-за своей цифровой природы. Даггар приводит классический пример: попытку запрограммировать пошаговую инструкцию по приготовлению бутерброда с арахисовым маслом и джемом. Инженер вынужден детально просчитывать каждый краевой случай и изолировать любые каверзные сценарии. Традиционный софт требует прецизионных формулировок и не терпит приближений в духе «работает корректно в 98% случаев».

В качестве иллюстрации этой дилеммы Даггар ссылается на недавний видеоразбор Янника Килчера, посвященный решению дифференциальных уравнений в частных производных (уравнений Навье-Стокса) с помощью нейросетей. Несмотря на впечатляющие результаты, детальное сравнение с истинными физическими данными (ground truth) выявило артефакты: нейросеть предсказывала паразитные вихри там, где их быть не должно. Допустимость таких погрешностей напрямую зависит от сферы применения технологии. Если задача инженера — распечатать красивую симуляцию турбулентности и повесить ее на стену в качестве картины, подобные отклонения не играют роли. Однако если эта же нейросетевая модель симулирует динамику потоков крови через искусственный сердечный клапан, ложные предсказания вихрей становятся критической ошибкой, ценой которой может стать человеческая жизнь.

🧩 Будущее за гибридными системами: сочетание логики и нейросетей 2:57:42

В дискуссиях о развитии искусственного интеллекта всё чаще звучит мысль, что полагаться исключительно на «черные ящики» нейронных сетей — путь тупиковый, особенно когда речь идет о критически важных задачах. Практики отмечают, что там, где требуются точность, воспроизводимость и понятные характеристики поведения, традиционное программирование и логические структуры по-прежнему вне конкуренции.

Однако попытки перенести абсолютно всё на язык жесткого кода также неэффективны для задач, связанных с обработкой естественного языка или информационным поиском. Именно здесь эксперты видят необходимость в гибридных системах. Будущее ИИ, вероятно, лежит не в выборе между двумя подходами, а в их симбиозе: использовании нейросетей для распознавания паттернов и создания векторных представлений смыслов, и «надстроечного» логического слоя, который отвечает за дедуктивные рассуждения и формализацию правил.

Модель «капсул» и логический контроль 2:58:48

Концепция гибридного интеллекта перекликается с архитектурными идеями вроде «капсульных сетей». В такой модели нейросетевой компонент выполняет специфическую задачу — например, извлечение признаков или обработку сенсорных данных — и выдает результат как переменную. Затем на более высоком уровне подключается логический механизм, который оперирует этим результатом, производя рассуждения.

Такой подход позволяет инженерам «программировать» структуру рассуждений, задавая жесткие рамки того, как система должна интерпретировать данные. Это решает одну из главных проблем современной нейросетевой парадигмы — отсутствие понимания, которое, по мнению участников дискуссии, неразрывно связано именно со способностью к совершению осознанных дедуктивных выводов.

Разграничение понятий: распознавание паттернов vs. мышление 2:59:40

Для прогресса в создании сильного ИИ необходимо строгое терминологическое разграничение. Сейчас многие путают распознавание паттернов (pattern recognition) и мышление (reasoning). Под первым предлагается понимать процесс трансформации данных из одного вида в другой (например, визуальных данных в топологический граф или вектор) в конечное время и с конечным набором результатов.

Рассуждение же определяется как способность оперировать знаниями для заполнения пробелов в информации, используя логические правила. Если рассматривать мышление как применение правил логики первого порядка к набору аксиом, то это принципиально иной процесс, который может быть «неограниченным» во времени.

Распознавание паттернов: часто сводится к несимвольной, геометрической «деформации» в непрерывном пространстве (векторные представления).
Мышление: требует символьной обработки, работы с причинно-следственными связями и способно функционировать как Тьюринг-полная система, в то время как обученные нейросети чаще остаются системами с конечным состоянием (finite state machines).

Ранее в разговоре участники касались вопроса масштабирования и иллюзии понимания, однако в данном контексте фокус смещен на эффективность: даже если огромную нейросеть «накачать» данными до такой степени, что она начнет имитировать рассуждения, логический подход к задаче останется на порядки более эффективным и прозрачным.

🛠️ Живые тесты GPT-3: от лингвистических трюков до программирования 201:19

Эксперименты со схемами Винограда и лингвистическими шаблонами 201:19

В практической части исследования ведущие Machine Learning Street Talk решили лично протестировать возможности GPT-3 в детерминированном режиме при нулевой температуре. Первым испытанием стало воспроизведение примера с базой данных, где на вопрос о возрасте Тома система успешно вернула ответ: «Тому 20 лет». Однако при попытке проверить работу модели в рамках допущения о замкнутом мире (closed world assumption) вскрылись первые странности. База данных по определению не знает, является ли Том человеком или подростком, если это не указано явно. GPT-3, напротив, легко достраивает контекст на основе интерполяции данных из промпта, игнорируя строгие логические ограничения. Ранее в разговоре авторы уже затрагивали иллюзию понимания у языковых моделей, и текущие тесты лишь подтвердили этот тезис.

Для более глубокого анализа была выбрана знаменитая схема Винограда. На известную задачу о трофее, который не поместился в чемодан, потому что он был слишком большим или маленьким, модель периодически выдавала верные ответы. Но как только Янник усложнил задачу, заменив переменные на ноутбук и сумку, стало очевидно, что модель просто подхватывает повторяющийся грамматический шаблон и выдает первое попавшееся существительное. Настоящего логического анализа ситуации не происходит. Как отмечалось в предыдущих дискуссиях о разнице между паттерн-матчингом и мышлением, нейросеть лишь воспроизводит поверхностные структуры, найденные в обучающей выборке.

Этот вывод подтвердил и тест со случайным изменением букв в словах. Попытка заставить GPT-3 переставить буквы в слове jogging или использовать вымышленные слова вроде limbled показала, что система не умеет по-настоящему манипулировать символами. Она опирается преимущественно на зазубренные из интернета примеры и грамматические паттерны.

Очистка текста и магия семантического обобщения 210:47

Следующий блок тестов коснулся прикладных задач, таких как очистка текста от лишних переносов строк и дефисов при копировании из PDF-файлов. В ходе эксперимента ведущие столкнулись с феноменом, который напрямую связан с промпт-инжинирингом. Хотя концепция промпт-инжиниринга подробно рассматривалась в третьей главе, здесь участники на практике сталкиваются с экстремальной чувствительностью модели к форматированию: малейший лишний пробел или пустая строка после двоеточия полностью ломали логику выполнения задания.

Тем не менее, некоторые результаты удивили исследователей. Модель продемонстрировала отличную языковую компетенцию при разделении слипшихся слов. Хотя Янник скептически заметил, что с такой задачей справится и обычный словарь, алгоритм успешно выявил границы слов на основе контекста. Гораздо менее удачным оказался тест на посимвольное форматирование, где нейросеть просили вставлять тильду после каждой второй буквы слова — модель сбилась уже на третьем слове.

Настоящим триумфом GPT-3 стал тест на семантическое обобщение категорий. Экспериментаторы построили промпт следующим образом:

Банан и яблоко — это еда.
BMW и Volkswagen — это машины.
Канарейка и голубая сойка — это...

Система мгновенно и безошибочно выдала категорию «птицы». Тим отметил, что этот потрясающий результат достигается благодаря работе со скрытыми векторными представлениями (embeddings). Модель способна улавливать тонкие концептуальные сходства и извлекать обобщающие понятия, что выглядит гораздо перспективнее простого зазубривания.

Анализ кода: триггерные слова против функциональной логики 218:23

Многообещающие заявления о том, что GPT-3 способна писать код, также подверглись строгой проверке. Базовые запросы, вроде поиска встроенной функции сортировки в Python, модель щелкает как орехи, предлагая стандартное решение sorted(). Проблемы начались, когда ведущие решили протестировать её на знание функционального программирования, используя синтаксис в стиле Haskell или Miranda.

Модель должна была продолжить функцию вычисления длины списка. На первый взгляд, GPT-3 успешно справилась с трассировкой кода, но Янник быстро обнаружил подвох: ключевым фактором успеха стало само название функции count, послужившее мощнейшим триггером для извлечения готового куска текста из памяти. Стоило исследователям переименовать функцию в абстрактное ccc, как вся магия рассеялась, и модель выдала бессмыслицу. При замене имени на length нейросеть поняла суть задачи, но выдала неверный численный результат, посчитав длину списка равной 7 вместо 14.

Этот эксперимент позволяет сделать однозначный вывод: говорить о полноценном программировании с помощью GPT-3 пока рано. Нейросеть прекрасно ориентируется в популярных библиотеках и типовых алгоритмах, но полностью пасует, когда требуется применить чистую логику в нестандартном контексте.

Контекстуальное творчество и логические задачи 222:36

Где GPT-3 действительно раскрывается, так это в генерации связных текстов со сложным эмоциональным окрасом. Исследователи предложили модели продолжить диалог между пассивно-агрессивными людьми. Результат превзошел ожидания: система идеально поймала токсичный тон беседы, генерируя пугающе реалистичные реплики. Участники дискуссии предположили, что столь высокая точность связана с обилием подобного контента в обучающем датасете, включая оцифрованные книги из Google Books.

Не менее забавным оказался эксперимент по генерации «симптомов» вымышленных или нишевых состояний. На запрос составить список признаков того, что человек находится в Хогвартсе, GPT-3 выдала: «чувство себя аутсайдером в мире маглов». Аналогичным образом модель описала будни авторов YouTube-контента, точно попав в специфику их профессионального выгорания.

В финале чанка ведущие проверили базовую арифметическую логику: «У меня есть две красные рубашки. Сколько у меня рубашек?». Модель правильно ответила «две», однако Тим в очередной раз напомнил о технической хрупкости системы. Любой случайный пробел в конце промпта может кардинально ухудшить качество генерации, превращая осмысленный диалог в хаотичный набор токенов.

🧠 Иллюзия интеллекта: что скрывается за статистикой GPT-3 3:46:22

Дискуссия о природе GPT-3 в финальной части интервью сводится к радикальному выводу: за фасадом «понимания языка» скрывается исключительно изощренный механизм статистического сопоставления паттернов. Участники обсуждают эксперименты, в которых модель демонстрирует пугающе точные ответы на вопросы, основанные не на семантике, а на простом предсказании наиболее вероятного следующего токена.

Критический анализ показывает, что если изменить структуру запроса, заменив слова на бессмысленный набор символов, модель продолжает выдавать схожие по логической структуре ответы. Это доказывает, что для GPT-3 «язык» как система смыслов вторичен: модель просто «вычисляет» наиболее вероятное продолжение последовательности. Участники сходятся во мнении, что это даже не NLP (Natural Language Processing) в классическом понимании, а глубокий паттерн-матчинг, работающий на уровне, близком к простому анализу последовательностей символов.

🕵️‍♂️ Проблема интерпретации и «витринная» демонстрация ИИ 3:50:46

Особую тревогу у экспертов вызывает то, как именно преподносятся возможности GPT-3 публике. Существует огромная разница между реальными способностями системы и тем, как она выглядит после тщательного «массирования» промптов и «вишпикинга» — выбора только тех примеров, где модель показала удачный результат.

Отсутствие прозрачности: Потребителю (и даже широкому кругу исследователей) сложно оценить, сколько усилий было затрачено на подбор «правильного» контекста для получения впечатляющего ответа.
Сомнительные бенчмарки: Доверие к отчетам о результатах на тестах вроде GLUE или SQuAD поставлено под сомнение: участники отмечают, что эти цифры часто не отражают реального уровня понимания.
Опасность «карго-культа»: Молодое поколение инженеров, для которых ИИ ограничивается фреймворками типа PyTorch, TensorFlow и BERT, рискует оказаться в ловушке, не понимая, что происходит «под капотом».

🔢 Сжатие данных против истинного знания 3:55:11

В качестве иллюстрации фундаментальной проблемы ИИ приводится философский мысленный эксперимент: можно ли «упаковать» всё знание человечества в один символ? Участники рассуждают о том, что всё созданное человеком — картины, музыка, тексты — может быть оцифровано и сведено к колоссальной бинарной последовательности.

Математически это число, но наличие данных (даже в сжатом виде) не равно наличию знания. Основная проблема заключается не в самом сжатии, а в «декомпрессии». GPT-3 может «знать» статистические связи внутри огромных массивов данных, но ей не хватает внешней системы — того, что люди называют здравым смыслом или физическим пониманием мира, — чтобы полноценно интерпретировать и использовать эти данные. Ранее в разговоре они касались вопроса о важности выбора поисковой стратегии и ограничений методов предсказания текста. В конечном счете, дискуссия подводит к мысли, что без внешнего «субъекта», способного интерпретировать извлеченную информацию, большие языковые модели остаются лишь невероятно эффективными статистическими генераторами.