Лингвист Гай Эмерсон о том, как обучить ИИ истине, а не просто статистике

В новом выпуске подкаста Machine Learning Street Talk вычислительный лингвист Гай Эмерсон и эксперт по ИИ Валид Саба обсуждают фундаментальные проблемы семантики и того, как машины учатся понимать смысл. Дискуссия сосредоточена на поиске баланса между статистическим распределительным подходом и строгими лингвистическими структурами, необходимыми для истинного понимания человеческого языка.

🧮 Семантика: от векторов к истинности 1:00

Большинство современных моделей машинного обучения представляют значение слова как точку в многомерном векторном пространстве. Однако Гай Эмерсон в своей докторской диссертации в Кембридже утверждает, что векторные модели не способны адекватно передать такие аспекты, как полисемия (многозначность слов, например, слово get может означать «понять», «достать» или «стать»).

Основные тезисы Гая Эмерсона относительно семантики:

Дистрибутивная гипотеза: Идея о том, что значение слова можно узнать по «компании, которую оно водит», уходит корнями в британскую лексикологию и американский структурализм.
Теория истинности (Truth-conditional semantics): Эмерсон предлагает подход, основанный на условиях истинности. Вместо того чтобы просто учить векторы, модель должна определять, при каких условиях предложение является истинным и к каким объектам оно относится.
Разделение слов и объектов: В отличие от LLM, где всё представлено в виде слов, Эмерсон настаивает на разграничении между словами и объектами, которые они описывают.

Валид Саба дополняет, что главная проблема векторов — ограниченность операций над ними. По его мнению, с векторами можно вычислить только сходство, тогда как язык требует сложных композиционных операций, таких как отрицание или конъюнкция.

🌍 Проблема заземления и абстрактные концепты 12:36

Процесс связи лингвистических значений с реальным миром называется заземлением (grounding). Человек учит слово «мяч», видя перед собой физический объект и получая сенсорные данные.

В ходе дискуссии участники выделили следующие сложности этого процесса:

Частичное заземление: Кит Даггар задается вопросом, почему всё в языке должно быть заземлено физически. По его мнению, допустимо, если 90% понятий связаны с физическим миром, а 10% остаются чисто лингвистическими конструкциями.
Абстракции: Как заземлить такие понятия, как «дружба» или «лидерство»? Гай Эмерсон полагает, что для этого необходима «теория разума» (theory of mind) и понимание намерений, стоящих за взаимодействием людей.
Метафорическое картирование: Валид Саба отмечает, что многие абстрактные пространства в языке строятся как метафоры от физических понятий, что может быть ключом к их возникновению в процессе эволюции.

🧬 Врожденное против приобретенного: «Бедность стимула» 21:48

Один из центральных споров в лингвистике — аргумент Ноама Хомского о «бедности стимула» (poverty of the stimulus). Он гласит, что ребенок не получает достаточно данных извне, чтобы выучить все сложности языка, а значит, часть языковых структур является врожденной.

Позиции участников по этому вопросу:

Гай Эмерсон считает это эмпирическим вопросом. Он утверждает, что эксперименты с моделями, обученными на «человеческом» объеме данных (10–100 млн токенов), показывают: многие синтаксические эффекты можно выучить без врожденных механизмов.
Валид Саба настаивает, что определенные логические отношения (например, транзитивность отношения «содержаться в») не могут быть выучены просто из корпуса текстов.
Кит Даггар предполагает, что то, что кажется врожденным, было «выучено» в процессе эволюции вида и закодировано в ДНК.

🎨 Универсальные ограничения: Порядок прилагательных 31:33

Интересным примером «врожденных» или эволюционных структур является порядок прилагательных. Мы говорим «прекрасная красная машина» (beautiful red car), но фраза «красная прекрасная машина» звучит неестественно. Это явление универсально для разных культур и языков.

Возможные объяснения этого феномена, предложенные в беседе:

Коммуникативная эффективность: Порядок может быть обучен необходимостью быстрее передавать важную информацию или облегчать понимание для слушателя.
Устойчивость к шуму: Гай Эмерсон упоминает исследования, согласно которым структура языка оптимизирована так, чтобы сообщение оставалось понятным даже при наличии помех (robustness to noise).
Типовая иерархия: По предположению Валида Сабы, существует внутренняя онтологическая структура, где физические свойства всегда доминируют над абстрактными при описании объекта.

📏 Неопределенность и «проклятие размерности» 41:46

Неопределенность (vagueness) в лингвистике — это отсутствие четких границ у слов (например, где проходит грань между красным и оранжевым цветом).

Гай Эмерсон связывает это с высокой размерностью реального мира:

В многомерном пространстве практически невозможно собрать достаточно данных, чтобы провести идеально точную границу концепта.
Даже простое понятие «высокий» (tall) не является одномерным. Чтобы понять высоту здания или человека, нужно учитывать контекст, позу и другие параметры.
Байесовский подход к неопределенности предполагает, что слушатель делает вероятностный вывод о значении слова, исходя из своих знаний о мире и распределения вероятностей для конкретного порога (например, что считать «высоким» в Голландии против Норвегии).

🏗️ Грамматическая инженерия: HPSG 1:10:50

Гай Эмерсон является сторонником использования HPSG (Head-driven Phrase Structure Grammar) — объектно-ориентированного подхода к грамматике, который гораздо мощнее обычных контекстно-свободных грамматик (CFG).

Особенности HPSG:

Богатые структуры данных: Каждый узел в дереве разбора — это не просто категория (существительное/глагол), а сложный объект с набором признаков и значений.
Обработка «длинного хвоста»: Грамматики вроде English Resource Grammar способны обрабатывать редкие конструкции, такие как «It is incumbent upon you to speak plainly». В этом предложении требуются специфические связи между формальным подлежащим it, предлогом upon и инфинитивом.
Тьюринг-полнота: Формализм HPSG теоретически позволяет вычислить любой алгоритмически разрешимый язык.

Эмерсон считает перспективным направлением не ручное написание правил, а индукцию (автоматический вывод) таких грамматик из данных, сочетая строгость структуры с гибкостью машинного обучения.

⚠️ Этика и прозрачность ИИ 1:22:31

В завершение беседы участники затронули тему бурного роста популярности «экспертов по ИИ» в соцсетях. Гай Эмерсон выразил обеспокоенность тем, что многие пользователи библиотек вроде Hugging Face не понимают методологических ограничений своих моделей.

«Предвзятость (bias) — это в первую очередь социальная проблема, и только во вторую — техническая», — цитирует Гай Эмерсон Кейт Кроуфорд.

Кит Даггар и Гай Эмерсон сошлись во мнении, что инженерам необходимо быть скромнее и признавать, что понимание влияния алгоритмов на общество требует привлечения специалистов извне — юристов, социологов и профессиональных аудиторов.