# Кристофер Мэннинг: «Язык — это технология, позволившая людям захватить планету»

Источник: https://www.youtube.com/watch?v=DzpHeXVSC5I
Канал: Stanford Online
Опубликовано: 04.03.2025

---

Это обзорная статья по материалам первой лекции обновленного курса Стэндфордского университета **CS224N: NLP with Deep Learning** (весна 2024 года). Профессор Кристофер Мэннинг, один из ведущих мировых экспертов в области компьютерной лингвистики, объясняет, почему язык стал главным фактором доминирования человечества и как современные нейросети учатся понимать смысл слов через математические векторы.

## 🎓 Введение в курс: от основ до эпохи LLM
[[JUMP:00:05]]

Курс CS224N в 2024 году проходит на фоне беспрецедентного ажиотажа вокруг ИИ. Профессор Кристофер Мэннинг отмечает, что количество студентов остается огромным, что во многом объясняется «эффектом ChatGPT» [00:17]. Программа курса выстроена по принципу «от простого к сложному»: обучение начинается с фундаментальных понятий, таких как векторные представления слов, и постепенно переходит к современным архитектурам:

*   **Фундамент:** Word Vectors, полносвязные и рекуррентные нейросети, механизмы внимания (attention).
*   **Современность:** Архитектура Transformer, энкодер-декодерные модели и большие языковые модели (LLM).
*   **Практика:** Пре-тренинг и пост-тренинг моделей, их интерпретируемость и создание автономных агентов [05:12].

Обучение включает четыре задания и финальный проект. Кристофер Мэннинг подчеркивает, что университет — это не «кодинг-буткемп», поэтому студентам предстоит не только писать код на PyTorch, но и глубоко разбираться в математике нейронных сетей [09:03]. Профессор предостерег студентов от использования ChatGPT для решения домашних заданий, указав, что ИИ можно использовать как помощника в написании кода (coding assistance), но не как замену глубокому пониманию предмета [08:22].

## 🌍 Язык как технология доминирования человека
[[JUMP:11:25]]

Кристофер Мэннинг предлагает взглянуть на язык не просто как на средство общения, а как на ключевое эволюционное преимущество. С биологической точки зрения люди мало отличаются от шимпанзе или бонобо — наши ближайшие родственники также умеют пользоваться инструментами и планировать действия, а в кратковременной памяти даже превосходят нас [12:33].

Однако именно язык стал «огромным дифференциатором». По мнению профессора, он обеспечил «человеческое превосходство» (human ascendancy) по двум причинам:

1.  **Коммуникация и координация:** Позволила людям объединяться против более сильных и быстрых хищников [13:11].
2.  **Высшее когнитивное мышление:** Мэннинг утверждает, что сложные мысли и планы (например, размышления о чувствах других людей или долгосрочное планирование) строятся на языковом «каркасе» [14:04].

Особую роль сыграла письменность, возникшая всего около 5000 лет назад. Она позволила передавать знания не только в пространстве, но и во времени, что, по словам профессора, обеспечило невероятно быстрый переход от технологий бронзового века к мобильным телефонам [15:28].

## 🧠 От словарей к векторным пространствам
[[JUMP:28:20]]

Традиционно в лингвистике смысл слова определялся через **денотационную семантику** — сопоставление символа (знака) и идеи или объекта в реальном мире [29:01]. В компьютерных науках ранние попытки работы со смыслами сводились к созданию баз данных вроде WordNet. Однако Кристофер Мэннинг указывает на их ключевые недостатки:

*   **Отсутствие нюансов:** WordNet может назвать слова «хороший» (good) и «опытный» (proficient) синонимами, но в контексте фразы «хороший выстрел» замена на «опытный выстрел» звучит странно [30:52].
*   **Неполнота:** Словари не успевают за сленгом и изменениями языка.
*   **Проблема «One-hot vectors»:** Если представлять каждое слово как вектор с одной единицей и тысячами нулей, математически «отель» и «мотель» будут максимально далеки друг от друга (их скалярное произведение равно нулю), хотя по смыслу они близки [33:16].

В качестве альтернативы современный NLP использует **дистрибутивную семантику**. Её суть выражена в знаменитой цитате Джона Руперта Фёрса: «Вы узнаете слово по компании, которую оно держит» [35:05]. Вместо того чтобы пытаться описать «сущность» слова, мы анализируем контекст — слова, которые стоят рядом.

## 🚀 Алгоритм Word2Vec: революция простоты
[[JUMP:47:17]]

Главная техническая тема лекции — алгоритм **Word2Vec**, представленный Томасом Миколовым в 2013 году. Это элегантный способ превратить слова в плотные векторы (embeddings) фиксированной размерности (обычно от 100 до 1000) [44:25].

Суть алгоритма:

1.  Берется огромный корпус текстов (corpora).
2.  Для каждого слова в тексте (центральное слово) рассматривается окно соседних слов (контекст) [49:30].
3.  Алгоритм подбирает такие векторные представления для слов, чтобы максимизировать вероятность того, что контекстные слова действительно окажутся рядом с центральным [50:50].

Векторы в Word2Vec обладают удивительными свойствами: в многомерном пространстве похожие слова (страны с другими странами, глаголы с глаголами) магическим образом группируются вместе [39:52]. Даже если слово имеет несколько смыслов (например, «bank» как финансовый институт и «bank» как берег реки), вектор слова станет своего рода «средним арифметическим» этих смыслов, сохраняя близость к обоим контекстам [46:38].

## 📉 Математика под капотом: Softmax и градиентный спуск
[[JUMP:56:52]]

Для вычисления вероятностей Word2Vec использует **скалярное произведение** векторов. Чем ближе векторы друг к другу в пространстве, тем больше их скалярное произведение и, соответственно, тем выше вероятность их совместного появления [57:07].

Чтобы превратить эти абстрактные числа в реальные вероятности от 0 до 1, используется функция **Softmax** [59:10]:

*   Она экспоненцирует значения (делая их положительными).
*   Нормирует их (делит на сумму всех экспонент в словаре), чтобы сумма всех вероятностей равнялась единице.

Процесс обучения модели — это «подкручивание» компонентов векторов с помощью исчисления (calculus). Мэннинг подробно разобрал вывод производной для функции потерь (objective function), показав, что алгоритм постоянно сравнивает «наблюдаемое» состояние (реальные пары слов в тексте) с «ожидаемым» (предсказание модели) [1:18:59]. Если разница велика, градиентный спуск корректирует векторы, пока предсказания не совпадут с реальностью. 

В современных моделях количество таких корректируемых параметров может исчисляться миллионами, но, как отмечает профессор, «чудо глубокого обучения заключается в том, что, начав с абсолютно случайных векторов и обычной кучи текста, мы в итоге получаем осмысленную математическую модель языка» [1:04:08].