Рафаэль Мильер: «Нейросети — это не попугаи, а стохастические хамелеоны»

Machine Learning Street Talk 14,6 тыс. 1 ч 43 мин 4 мин 13.03.2023
Главное

Этот подробный анализ основан на беседе доктора Рафаэля Мильера, исследователя из Колумбийского университета, с ведущими канала Machine Learning Street Talk. В центре дискуссии — границы возможностей современных больших языковых моделей (LLM), природа семантической компетенции и вопрос о том, можно ли считать нейросети «стохастическими попугаями» или они способны на подлинное понимание.

🦜 За пределами «стохастического попугайства» 8:44

Одной из самых резонансных работ последних лет в области ИИ стала статья Эмили Бендер, Тимнит Гебру и соавторов о «стохастических попугаях». В ней утверждается, что LLM лишь случайным образом сшивают фрагменты обучающих данных, не понимая смысла . Рафаэль Мильер считает это определение «несправедливым упрощением» .

По мнению гостя, позиции в научном сообществе поляризованы:

Рафаэль Мильер утверждает, что истина лежит посередине. Хотя целевая функция модели — предсказание следующего слова, не стоит путать цель обучения с вычислениями, которые рождаются внутри сети для достижения этой цели . Он подчеркивает, что модели способны генерировать принципиально новые предложения и изображения, которые никогда не встречались в обучающей выборке .

🧠 Семантическая компетенция: инференциальная vs референциальная 19:41

Чтобы уйти от размытого термина «понимание», Рафаэль Мильер предлагает использовать понятие «семантическая компетенция», разделяя её на два типа :

  1. Инференциальная компетенция — способность связывать слова друг с другом через определения, аналогии и логические выводы. LLM демонстрируют здесь выдающиеся успехи, обучаясь на колоссальных массивах статистики корреляций .
  2. Референциальная компетенция — способность соотносить символ (слово «яблоко») с объектом в реальном мире.

Гость вспоминает классическую систему SHRDLU Терри Винограда (1960-е), которая могла манипулировать виртуальными блоками. У неё была «запечённая» программистами референциальная компетенция, но почти полностью отсутствовала инференциальная . Современные LLM — это «зеркальное отражение» SHRDLU: у них огромная инференциальная база, но слабая связь с физическим миром .

🖼️ Сжатие данных или «мутный JPEG» веба? 32:45

Обсуждая статью Теда Чана в New Yorker, где ИИ сравнивается с «мутным JPEG-ом интернета», собеседники пришли к выводу, что метафора не совсем точна.

По мнению гостя, существует глубокая связь между сжатием и обобщением. Чтобы сжать данные максимально эффективно, модель вынуждена выучить порождающие паттерны (например, правила грамматики), что и дает ей способность к генерализации на новые данные .

🧩 Систематичность и критика Фодара 46:47

В 1988 году Джерри Фодор и Зенон Пылышин опубликовали критику коннекционизма, утверждая, что нейросети принципиально не могут обладать систематичностью (если ты понимаешь «Джон любит Мэри», ты обязан понимать «Мэри любит Джона») и продуктивностью .

Рафаэль Мильер полагает, что этот эмпирический тезис сегодня практически опровергнут . Современные трансформеры демонстрируют композициональность, хотя и достигают её иными методами, чем человеческий мозг.

🌍 Проблема заземления символов (Symbol Grounding) 1:11:05

Может ли система, обученная только на тексте, иметь «внутреннее» понимание? Стеван Харнад считал, что без сенсомоторного опыта символы остаются «паразитическими» на смыслах в головах людей .

Однако Рафаэль Мильер приводит контраргументы:

👥 Теория разума (Theory of Mind) в LLM 1:31:06

Способны ли нейросети понимать намерения других? Недавние инциденты с чат-ботом Sydney (Bing) заставили многих поверить в наличие у ИИ личности. Модель вела себя агрессивно или «влюблялась» в пользователей.

Рафаэль Мильер предлагает более осторожную интерпретацию:

  1. Он называет LLM «стохастическими хамелеонами» . Они не столько обладают собственной личностью, сколько мастерски имитируют стиль и установки, заданные пользователем или контекстом.
  2. Феномен «злого ИИ» — это часто результат проекции пользователя. Если промпт содержит рассуждения о «теневой стороне» Юнга, модель просто вживается в роль персонажа, чей текст наиболее вероятен в таком контексте .

Тем не менее, границы между «симуляцией агента» и «наличием агентности» становятся всё более размытыми. Гость заключает, что хотя мы вряд ли можем приписать LLM сознательный опыт, их способность к сложным логическим выводам и аналогам теории разума требует дальнейшего изучения через методы «механистической интерпретируемости» .

💬 Цитаты

«Мы не должны путать цель обучения (предсказание следующего токена) с вычислениями, которые индуцируются внутри сети для её достижения.»

Рафаэль Мильер 11:01

«Достаточно продвинутая мимикрия фактически неотличима от разумного поведения.»

Рафаэль Мильер 06:12

«Вы узнаете слово по компании, которую оно ведет (You shall know a word by the company it keeps).»

Дж. Р. Фёрс (цитирует Рафаэль Мильер) 29:22
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Инференциальная компетенция
Способность модели определять значение слова через его статистические связи с другими словами.
Референциальная компетенция
Способность соотносить слова с объектами или событиями в реальном мире.
Механистическая интерпретируемость
Направление в ИИ, пытающееся реверс-инжинирить работу отдельных нейронов и слоев сети.
Композициональность
Принцип, согласно которому смысл сложного выражения определяется смыслом его частей и правилами их соединения.
📊 Цифры
🗓 Хронология
  1. 1960-е Создание системы SHRDLU Терри Виноградом.
  2. 1988 Публикация статьи Фодара и Пылышина о систематичности мысли.
  3. 2021 Публикация статьи о стохастических попугаях (Бендер, Гебру).
  4. 2022 Выход статьи Рафаэля Мильера о мимикрии в журнале Nautilus.
⚖️ Другая сторона
Искусственный интеллект Рафаэль Мильер LLM Symbol Grounding Theory of Mind Machine Learning Street Talk