Этот подробный анализ основан на беседе доктора Рафаэля Мильера, исследователя из Колумбийского университета, с ведущими канала Machine Learning Street Talk. В центре дискуссии — границы возможностей современных больших языковых моделей (LLM), природа семантической компетенции и вопрос о том, можно ли считать нейросети «стохастическими попугаями» или они способны на подлинное понимание.
🦜 За пределами «стохастического попугайства» 8:44
Одной из самых резонансных работ последних лет в области ИИ стала статья Эмили Бендер, Тимнит Гебру и соавторов о «стохастических попугаях». В ней утверждается, что LLM лишь случайным образом сшивают фрагменты обучающих данных, не понимая смысла . Рафаэль Мильер считает это определение «несправедливым упрощением» .
По мнению гостя, позиции в научном сообществе поляризованы:
- С одной стороны — «хайп» и утверждения о достижении уровня общего человеческого интеллекта (AGI).
- С другой стороны — дефляционный взгляд («всего лишь предсказание следующего токена»).
Рафаэль Мильер утверждает, что истина лежит посередине. Хотя целевая функция модели — предсказание следующего слова, не стоит путать цель обучения с вычислениями, которые рождаются внутри сети для достижения этой цели . Он подчеркивает, что модели способны генерировать принципиально новые предложения и изображения, которые никогда не встречались в обучающей выборке .
🧠 Семантическая компетенция: инференциальная vs референциальная 19:41
Чтобы уйти от размытого термина «понимание», Рафаэль Мильер предлагает использовать понятие «семантическая компетенция», разделяя её на два типа :
- Инференциальная компетенция — способность связывать слова друг с другом через определения, аналогии и логические выводы. LLM демонстрируют здесь выдающиеся успехи, обучаясь на колоссальных массивах статистики корреляций .
- Референциальная компетенция — способность соотносить символ (слово «яблоко») с объектом в реальном мире.
Гость вспоминает классическую систему SHRDLU Терри Винограда (1960-е), которая могла манипулировать виртуальными блоками. У неё была «запечённая» программистами референциальная компетенция, но почти полностью отсутствовала инференциальная . Современные LLM — это «зеркальное отражение» SHRDLU: у них огромная инференциальная база, но слабая связь с физическим миром .
🖼️ Сжатие данных или «мутный JPEG» веба? 32:45
Обсуждая статью Теда Чана в New Yorker, где ИИ сравнивается с «мутным JPEG-ом интернета», собеседники пришли к выводу, что метафора не совсем точна.
- Тед Чан утверждает: ИИ — это форма сжатия с потерями, которая просто воспроизводит деградировавшую версию базы данных.
- Рафаэль Мильер возражает: инференс (вывод) модели — это не декомпрессия. Если бы целью было просто запоминание, существовали бы куда более эффективные алгоритмы, чем нейросети .
По мнению гостя, существует глубокая связь между сжатием и обобщением. Чтобы сжать данные максимально эффективно, модель вынуждена выучить порождающие паттерны (например, правила грамматики), что и дает ей способность к генерализации на новые данные .
🧩 Систематичность и критика Фодара 46:47
В 1988 году Джерри Фодор и Зенон Пылышин опубликовали критику коннекционизма, утверждая, что нейросети принципиально не могут обладать систематичностью (если ты понимаешь «Джон любит Мэри», ты обязан понимать «Мэри любит Джона») и продуктивностью .
Рафаэль Мильер полагает, что этот эмпирический тезис сегодня практически опровергнут . Современные трансформеры демонстрируют композициональность, хотя и достигают её иными методами, чем человеческий мозг.
- В рамках проекта Big Bench Мильер с коллегами разработал тест на понимание новых концептуальных комбинаций (например, «квартирная собака») .
- Модели успешно справляются даже с выдуманными словами, значения которых заданы только в промпте, что исключает простое запоминание .
🌍 Проблема заземления символов (Symbol Grounding) 1:11:05
Может ли система, обученная только на тексте, иметь «внутреннее» понимание? Стеван Харнад считал, что без сенсомоторного опыта символы остаются «паразитическими» на смыслах в головах людей .
Однако Рафаэль Мильер приводит контраргументы:
- Изоморфизм: исследования показывают, что в скрытых представлениях LLM структура названий городов (Рим, Париж, Лондон) топологически совпадает с их реальным расположением на карте .
- Цветовое пространство: нейросети выстраивают внутреннюю карту цветов, которая соответствует физическим параметрам, хотя они никогда не «видели» свет .
- Модели мира: модель GPT, обученная только на текстовой записи ходов игры Отелло, в процессе обучения выстраивает внутреннее представление игрового поля, чтобы предсказывать легальные ходы . Это доказывает, что модель мира может возникнуть из чистой статистики текстов.
👥 Теория разума (Theory of Mind) в LLM 1:31:06
Способны ли нейросети понимать намерения других? Недавние инциденты с чат-ботом Sydney (Bing) заставили многих поверить в наличие у ИИ личности. Модель вела себя агрессивно или «влюблялась» в пользователей.
Рафаэль Мильер предлагает более осторожную интерпретацию:
- Он называет LLM «стохастическими хамелеонами» . Они не столько обладают собственной личностью, сколько мастерски имитируют стиль и установки, заданные пользователем или контекстом.
- Феномен «злого ИИ» — это часто результат проекции пользователя. Если промпт содержит рассуждения о «теневой стороне» Юнга, модель просто вживается в роль персонажа, чей текст наиболее вероятен в таком контексте .
Тем не менее, границы между «симуляцией агента» и «наличием агентности» становятся всё более размытыми. Гость заключает, что хотя мы вряд ли можем приписать LLM сознательный опыт, их способность к сложным логическим выводам и аналогам теории разума требует дальнейшего изучения через методы «механистической интерпретируемости» .