Кристофер Мэннинг: «Язык — это технология, позволившая людям захватить планету»

Это обзорная статья по материалам первой лекции обновленного курса Стэндфордского университета CS224N: NLP with Deep Learning (весна 2024 года). Профессор Кристофер Мэннинг, один из ведущих мировых экспертов в области компьютерной лингвистики, объясняет, почему язык стал главным фактором доминирования человечества и как современные нейросети учатся понимать смысл слов через математические векторы.

🎓 Введение в курс: от основ до эпохи LLM 0:05

Курс CS224N в 2024 году проходит на фоне беспрецедентного ажиотажа вокруг ИИ. Профессор Кристофер Мэннинг отмечает, что количество студентов остается огромным, что во многом объясняется «эффектом ChatGPT» . Программа курса выстроена по принципу «от простого к сложному»: обучение начинается с фундаментальных понятий, таких как векторные представления слов, и постепенно переходит к современным архитектурам:

Фундамент: Word Vectors, полносвязные и рекуррентные нейросети, механизмы внимания (attention).
Современность: Архитектура Transformer, энкодер-декодерные модели и большие языковые модели (LLM).
Практика: Пре-тренинг и пост-тренинг моделей, их интерпретируемость и создание автономных агентов .

Обучение включает четыре задания и финальный проект. Кристофер Мэннинг подчеркивает, что университет — это не «кодинг-буткемп», поэтому студентам предстоит не только писать код на PyTorch, но и глубоко разбираться в математике нейронных сетей . Профессор предостерег студентов от использования ChatGPT для решения домашних заданий, указав, что ИИ можно использовать как помощника в написании кода (coding assistance), но не как замену глубокому пониманию предмета .

🌍 Язык как технология доминирования человека 11:25

Кристофер Мэннинг предлагает взглянуть на язык не просто как на средство общения, а как на ключевое эволюционное преимущество. С биологической точки зрения люди мало отличаются от шимпанзе или бонобо — наши ближайшие родственники также умеют пользоваться инструментами и планировать действия, а в кратковременной памяти даже превосходят нас .

Однако именно язык стал «огромным дифференциатором». По мнению профессора, он обеспечил «человеческое превосходство» (human ascendancy) по двум причинам:

Коммуникация и координация: Позволила людям объединяться против более сильных и быстрых хищников .
Высшее когнитивное мышление: Мэннинг утверждает, что сложные мысли и планы (например, размышления о чувствах других людей или долгосрочное планирование) строятся на языковом «каркасе» .

Особую роль сыграла письменность, возникшая всего около 5000 лет назад. Она позволила передавать знания не только в пространстве, но и во времени, что, по словам профессора, обеспечило невероятно быстрый переход от технологий бронзового века к мобильным телефонам .

🧠 От словарей к векторным пространствам 28:20

Традиционно в лингвистике смысл слова определялся через денотационную семантику — сопоставление символа (знака) и идеи или объекта в реальном мире . В компьютерных науках ранние попытки работы со смыслами сводились к созданию баз данных вроде WordNet. Однако Кристофер Мэннинг указывает на их ключевые недостатки:

Отсутствие нюансов: WordNet может назвать слова «хороший» (good) и «опытный» (proficient) синонимами, но в контексте фразы «хороший выстрел» замена на «опытный выстрел» звучит странно .
Неполнота: Словари не успевают за сленгом и изменениями языка.
Проблема «One-hot vectors»: Если представлять каждое слово как вектор с одной единицей и тысячами нулей, математически «отель» и «мотель» будут максимально далеки друг от друга (их скалярное произведение равно нулю), хотя по смыслу они близки .

В качестве альтернативы современный NLP использует дистрибутивную семантику. Её суть выражена в знаменитой цитате Джона Руперта Фёрса: «Вы узнаете слово по компании, которую оно держит» . Вместо того чтобы пытаться описать «сущность» слова, мы анализируем контекст — слова, которые стоят рядом.

🚀 Алгоритм Word2Vec: революция простоты 47:17

Главная техническая тема лекции — алгоритм Word2Vec, представленный Томасом Миколовым в 2013 году. Это элегантный способ превратить слова в плотные векторы (embeddings) фиксированной размерности (обычно от 100 до 1000) .

Суть алгоритма:

Берется огромный корпус текстов (corpora).
Для каждого слова в тексте (центральное слово) рассматривается окно соседних слов (контекст) .
Алгоритм подбирает такие векторные представления для слов, чтобы максимизировать вероятность того, что контекстные слова действительно окажутся рядом с центральным .

Векторы в Word2Vec обладают удивительными свойствами: в многомерном пространстве похожие слова (страны с другими странами, глаголы с глаголами) магическим образом группируются вместе . Даже если слово имеет несколько смыслов (например, «bank» как финансовый институт и «bank» как берег реки), вектор слова станет своего рода «средним арифметическим» этих смыслов, сохраняя близость к обоим контекстам .

📉 Математика под капотом: Softmax и градиентный спуск 56:52

Для вычисления вероятностей Word2Vec использует скалярное произведение векторов. Чем ближе векторы друг к другу в пространстве, тем больше их скалярное произведение и, соответственно, тем выше вероятность их совместного появления .

Чтобы превратить эти абстрактные числа в реальные вероятности от 0 до 1, используется функция Softmax :

Она экспоненцирует значения (делая их положительными).
Нормирует их (делит на сумму всех экспонент в словаре), чтобы сумма всех вероятностей равнялась единице.

Процесс обучения модели — это «подкручивание» компонентов векторов с помощью исчисления (calculus). Мэннинг подробно разобрал вывод производной для функции потерь (objective function), показав, что алгоритм постоянно сравнивает «наблюдаемое» состояние (реальные пары слов в тексте) с «ожидаемым» (предсказание модели) . Если разница велика, градиентный спуск корректирует векторы, пока предсказания не совпадут с реальностью.

В современных моделях количество таких корректируемых параметров может исчисляться миллионами, но, как отмечает профессор, «чудо глубокого обучения заключается в том, что, начав с абсолютно случайных векторов и обычной кучи текста, мы в итоге получаем осмысленную математическую модель языка» .