# Законы лингвистики: Как мозг минимизирует длину зависимостей в речи

Источник: https://www.youtube.com/watch?v=F3Jd9GI6XqE
Канал: Lex Fridman
Опубликовано: 17.04.2024

---

## 🧩 Лингвистический конструктор: Язык как инженерная задача

Эдвард (Тед) Гибсон, профессор когнитивных наук в MIT, пришел в лингвистику не через филологию, а через математику и компьютерные науки. Для него человеческий язык — это не просто средство самовыражения, а сложнейший инженерный пазл, оптимизированная система передачи данных, которую можно и нужно изучать количественными методами.

В отличие от классической лингвистики, Гибсон опирается на экспериментальную психологию и данные МРТ-сканирования. Его подход фундаментально отличается от теории Ноама Хомского: если Хомский ищет «врожденную грамматику» в абстрактных философских категориях, то Гибсон видит в языке инструмент, эволюционировавший под влиянием ограничений человеческой памяти и законов передачи информации.

### 🧬 Структура дерева: Как слова цепляются друг за друга

Фундаментальная основа теории Гибсона — **зависимостная грамматика (dependency grammar)**. Согласно этой концепции, любое предложение в любом языке мира можно представить в виде математического дерева:

*   **Корень дерева:** Обычно это глагол, обозначающий событие (например, «вошли»).
*   **Ветви и листья:** Существительные и другие части речи, которые зависят от корня или друг от друга («собаки» зависят от «вошли», «две» зависят от «собаки»).
*   **Универсальность:** Все лингвисты сходятся на том, что предложения имеют структуру дерева, хотя спорят о деталях его строения.

## 📏 Закон минимальной дистанции: Почему мы говорим именно так

Главное открытие лаборатории Гибсона заключается в том, что человеческие языки стремятся к **минимизации длины зависимостей**.

### 🧠 Когнитивная цена длинных связей
Связь между двумя словами (например, подлежащим и сказуемым) имеет «конитивную цену». Чем больше слов разделяют связанные по смыслу элементы, тем труднее человеческому мозгу удерживать их в оперативной памяти в процессе производства или восприятия речи.

1.  **Простой пример:** В предложении «Собака залаяла» дистанция минимальна. 
2.  **Сложный пример:** «Собака, которую вчера привезли из приюта и долго кормили, залаяла». Здесь мозг должен «держать в уме» собаку, пока обрабатывает всю вставную конструкцию, прежде чем соединить её с действием «залаяла».

### 🌍 Гармония мировых языков
Гибсон объясняет структуру 95% мировых языков именно этим стремлением к краткости зависимостей:
*   **SVO-языки (Subject-Verb-Object), как английский или русский:** Здесь глагол стоит в середине, и предлоги ставятся *перед* существительными («говорить о книге»). Это сокращает путь от глагола к дополнению.
*   **SOV-языки (Subject-Object-Verb), как японский или хинди:** Здесь глагол стоит в конце, а вместо предлогов используются *послелоги* («книга о»). Это также минимизирует дистанцию зависимости в рамках данной структуры.

Анализ более 1000 языков показал, что системы, которые называют «гармоничными», — это те, где порядок слов естественным образом минимизирует нагрузку на память.

## ⚖️ Легалис: Язык как «Магическое заклинание»

Существует одно странное исключение из закона минимальной дистанции — это юридический язык (**Legalese**).

Исследования Гибсона и его коллеги Эрика Мартинеса показали, что юридические документы (контракты, законы) обладают аномально высокой плотностью **центрального вложения (center-embedding)**. Это когда внутрь предложения вставляются определения, разрывающие связь между подлежащим и сказуемым.

### 📝 Эксперимент с юристами
Гибсон протестировал 100 профессиональных юристов и обычных людей. Результаты оказались поразительными:
*   Юристы понимают «легалис» лучше простых людей, но всё равно значительно медленнее, чем обычный текст.
*   Даже профессионалы предпочитают тексты без центральных вложений.
*   Юридический язык перегружен не только сложными терминами, но и пассивным залогом, который, впрочем, не так сильно влияет на понимание, как разрывы зависимостей.

### 🪄 Гипотеза магического заклинания
Почему же юристы продолжают так писать? Гибсон предполагает, что это своего рода **перформанс**. Сложная, трудночитаемая структура служит сигналом: «это важный, официальный текст». Это работает как магическое заклинание — его форма важнее содержания, она создает ореол авторитета и исключительности.

## 🤖 LLMs против человека: Форма без смысла?

Эдвард Гибсон утверждает, что современные большие языковые модели (LLM) — это лучшие на текущий момент теории *формы* языка, но не его *смысла*.

### 🚫 Разделение языка и мышления
Данные фМРТ-сканирования лаборатории Эвелин Федоренко (коллеги и супруги Гибсона) показывают, что в мозге есть специализированная «языковая сеть». Она активируется при обработке структуры предложений, но **абсолютно не участвует** в решении логических задач, математических вычислениях или написании программного кода.

*   Человек с тяжелой афазией (полной потерей языка) может продолжать играть в шахматы и решать математические задачи.
*   Язык — это лишь интерфейс (система связи) для передачи мыслей, а не само мышление.

### 🤡 Ошибка Монти Холла
LLM виртуозно владеют формой, но легко проваливают тесты на понимание сути. Если изменить условия классической задачи Монти Холла (например, прямо сказать модели, что приз за первой дверью), модель всё равно предложит сменить выбор, потому что она «натренирована» на статистическую форму стандартного решения задачи, а не на понимание конкретной физической реальности.

Интересно, что LLM повторяют человеческие ошибки в обработке сложных вложенных структур — они так же плохо достраивают предложения с тройным вложением, как и люди.

## 🏹 Племя Пираха: Мир без цифр и цветов

Работа Гибсона с изолированными амазонскими племенами **Пираха** и **Чимане** ставит под сомнение идею о том, что определенные понятия (например, числа) являются врожденными.

1.  **Отсутствие счета:** В языке Пираха нет слов даже для числа «один». У них есть только квантификаторы: «мало», «несколько» и «много».
2.  **Контекстуальность:** Эксперименты показали, что слово, которое раньше принимали за «один», на самом деле означает «маленькую кучку». Если показывать предметы по убывающей (с 10 до 1), Пираха назовут «маленькой кучкой» даже число 4.
3.  **Гипотеза фермерства:** Гибсон полагает, что числа изобретаются культурой только тогда, когда в них возникает экономическая необходимость (например, при переходе к скотоводству или торговле, когда нужно считать коз).

Аналогичная ситуация с цветами. В индустриальном обществе мы различаем тысячи оттенков, потому что окружающие нас предметы (одежда, машины) окрашены произвольно. В джунглях цвет объекта чаще всего жестко связан с его природой (зеленый лист, желтый фрукт), поэтому потребность в отдельных названиях цветов минимальна.

## 🐳 Будущее лингвистики: Межвидовое общение

Гибсон скептически относится к утверждениям Хомского о том, что человеческий язык уникален благодаря своей рекурсивной структуре. По его мнению, мы просто ещё не научились «вскрывать» коды других видов.

*   **Киты и вороны:** Современные алгоритмы машинного обучения могут найти общие паттерны в коммуникации китов и людей.
*   **Интеллектуальное смирение:** Если мы не понимаем структуру сигналов других животных, это проблема нашего восприятия, а не доказательство их отсутствия. 

Подход Теда Гибсона призывает смотреть на язык не как на священный дар, а как на технологию, которую человечество постоянно дорабатывает, чтобы эффективнее передавать идеи через зашумленный канал реальности.