Суббарао Камбхампати: «LLM не мыслят, они лишь имитируют стиль»

Мифы о «мышлении» нейросетей: почему LLM — это лишь виртуозные имитаторы 0:00

Большие языковые модели (LLM), такие как ChatGPT, сегодня воспринимаются многими как мыслящие агенты, способные к логике и планированию. Однако, по мнению профессора компьютерных наук Суббарао Камбхампати, этот взгляд ошибочен: модели представляют собой высокоэффективные системы аппроксимации и поиска, работающие как «n-граммные модели на стероидах». В беседе с экспертом разбираемся, где проходит граница между реальным интеллектом и мастерской имитацией, и почему современная наука об ИИ рискует превратиться в «зоологию» случайных наблюдений.

🧠 Анатомия «разума»: почему LLM не рассуждают 3:06

Фундаментальная проблема при оценке способностей LLM заключается в том, что по внешним ответам невозможно определить, использует ли модель логику или просто извлекает запомненную информацию.

Распределительное обучение: LLM обучаются авторегрессионным способом — предсказывать следующее слово на основе огромного контекста (в случае с GPT-3.5 это последовательность из 3000 слов). Это делает их экспертами в статистическом распределении данных, позволяя безупречно воспроизводить грамматику и стиль.
Иллюзия контента: Люди склонны приписывать моделям глубокое понимание сути только потому, что те хорошо владеют стилем речи. Однако, как отмечает Камбхампати, владение языком и владение содержанием — это разные вещи.
Диагонализация как маркер: Чтобы доказать отсутствие мышления, исследовательская группа Камбхампати использует аргументы диагонализации. Например, в задачах планирования (вроде классической «задачи о блоках») LLM справляются неплохо, пока названия действий стандартны. Но стоит заменить «stack» на «feast», а «unstack» на «slap» — и точность модели падает до нуля. Это доказывает, что модель полагается на паттерны в обучающих данных, а не на понимание динамики системы.

🛠 Креативность против верификации 33:03

Суббарао Камбхампати предлагает не требовать от LLM того, к чему они не приспособлены, а использовать их как инструмент для «неограниченной генерации идей».

Разделение труда: В человеческой деятельности (математике, инженерии, архитектуре) существует четкий водораздел между творческим генерированием гипотез и их трудоемкой проверкой (верификацией).
Сильные стороны LLM: Модели великолепны в комбинаторной креативности, делая индуктивные скачки там, где человеку может не хватить широты знаний.
Слабые стороны: Верификация требует строгой логической проверки (дедуктивного замыкания), с чем LLM справляются плохо. Когда модель просят критиковать собственные решения, она часто делает их хуже, галлюцинируя ошибки или пропуская реальные дефекты.

🏛 Архитектура LM-Modulo: синтез экспертов 1:19:33

Вместо попыток сделать LLM «универсальным солдатом», профессор предлагает архитектуру LM-Modulo. Это фреймворк типа «генерация — проверка», где LLM выполняет роль генератора гипотез, а внешний верификатор (будь то интерпретатор кода, формальный решатель или человек) дает строгую оценку.

Композиционность: Верификаторы можно комбинировать, создавая систему, где каждый эксперт проверяет свой аспект (например, корректность плана или соблюдение правил).
Стиль против содержания: Модели могут критиковать стиль (так как это дистрибутивное свойство языка), в то время как формальные системы гарантируют правильность содержания.

⚠️ Проблема «научной зоологии» 1:36:45

Камбхампати крайне критичен к современной социологии исследований ИИ. Ученые часто публикуют статьи об «эмерджентных способностях», останавливаясь на первом же успешном результате, вместо того чтобы проверить, где система ломается.

Скептицизм: В науке важно не просто показать, что система «может», а определить границы её применимости.
Эрзац-наука: Сегодня ИИ стал «эрзац-естественной наукой», где мы строим артефакты и «тыкаем их палкой», наблюдая за поведением, вместо создания систем по спецификации.

По мнению профессора, LLM останутся с нами надолго как полезные инструменты, если мы перестанем мифологизировать их способности и начнем использовать их в составе надежных, верифицируемых систем.