Кристофер Мэннинг: «Язык — это технология, позволившая людям захватить планету»

Stanford Online 183 тыс. 1 ч 20 мин 4 мин 04.03.2025
Главное

Это обзорная статья по материалам первой лекции обновленного курса Стэндфордского университета CS224N: NLP with Deep Learning (весна 2024 года). Профессор Кристофер Мэннинг, один из ведущих мировых экспертов в области компьютерной лингвистики, объясняет, почему язык стал главным фактором доминирования человечества и как современные нейросети учатся понимать смысл слов через математические векторы.

🎓 Введение в курс: от основ до эпохи LLM 0:05

Курс CS224N в 2024 году проходит на фоне беспрецедентного ажиотажа вокруг ИИ. Профессор Кристофер Мэннинг отмечает, что количество студентов остается огромным, что во многом объясняется «эффектом ChatGPT» . Программа курса выстроена по принципу «от простого к сложному»: обучение начинается с фундаментальных понятий, таких как векторные представления слов, и постепенно переходит к современным архитектурам:

Обучение включает четыре задания и финальный проект. Кристофер Мэннинг подчеркивает, что университет — это не «кодинг-буткемп», поэтому студентам предстоит не только писать код на PyTorch, но и глубоко разбираться в математике нейронных сетей . Профессор предостерег студентов от использования ChatGPT для решения домашних заданий, указав, что ИИ можно использовать как помощника в написании кода (coding assistance), но не как замену глубокому пониманию предмета .

🌍 Язык как технология доминирования человека 11:25

Кристофер Мэннинг предлагает взглянуть на язык не просто как на средство общения, а как на ключевое эволюционное преимущество. С биологической точки зрения люди мало отличаются от шимпанзе или бонобо — наши ближайшие родственники также умеют пользоваться инструментами и планировать действия, а в кратковременной памяти даже превосходят нас .

Однако именно язык стал «огромным дифференциатором». По мнению профессора, он обеспечил «человеческое превосходство» (human ascendancy) по двум причинам:

  1. Коммуникация и координация: Позволила людям объединяться против более сильных и быстрых хищников .
  2. Высшее когнитивное мышление: Мэннинг утверждает, что сложные мысли и планы (например, размышления о чувствах других людей или долгосрочное планирование) строятся на языковом «каркасе» .

Особую роль сыграла письменность, возникшая всего около 5000 лет назад. Она позволила передавать знания не только в пространстве, но и во времени, что, по словам профессора, обеспечило невероятно быстрый переход от технологий бронзового века к мобильным телефонам .

🧠 От словарей к векторным пространствам 28:20

Традиционно в лингвистике смысл слова определялся через денотационную семантику — сопоставление символа (знака) и идеи или объекта в реальном мире . В компьютерных науках ранние попытки работы со смыслами сводились к созданию баз данных вроде WordNet. Однако Кристофер Мэннинг указывает на их ключевые недостатки:

В качестве альтернативы современный NLP использует дистрибутивную семантику. Её суть выражена в знаменитой цитате Джона Руперта Фёрса: «Вы узнаете слово по компании, которую оно держит» . Вместо того чтобы пытаться описать «сущность» слова, мы анализируем контекст — слова, которые стоят рядом.

🚀 Алгоритм Word2Vec: революция простоты 47:17

Главная техническая тема лекции — алгоритм Word2Vec, представленный Томасом Миколовым в 2013 году. Это элегантный способ превратить слова в плотные векторы (embeddings) фиксированной размерности (обычно от 100 до 1000) .

Суть алгоритма:

  1. Берется огромный корпус текстов (corpora).
  2. Для каждого слова в тексте (центральное слово) рассматривается окно соседних слов (контекст) .
  3. Алгоритм подбирает такие векторные представления для слов, чтобы максимизировать вероятность того, что контекстные слова действительно окажутся рядом с центральным .

Векторы в Word2Vec обладают удивительными свойствами: в многомерном пространстве похожие слова (страны с другими странами, глаголы с глаголами) магическим образом группируются вместе . Даже если слово имеет несколько смыслов (например, «bank» как финансовый институт и «bank» как берег реки), вектор слова станет своего рода «средним арифметическим» этих смыслов, сохраняя близость к обоим контекстам .

📉 Математика под капотом: Softmax и градиентный спуск 56:52

Для вычисления вероятностей Word2Vec использует скалярное произведение векторов. Чем ближе векторы друг к другу в пространстве, тем больше их скалярное произведение и, соответственно, тем выше вероятность их совместного появления .

Чтобы превратить эти абстрактные числа в реальные вероятности от 0 до 1, используется функция Softmax :

Процесс обучения модели — это «подкручивание» компонентов векторов с помощью исчисления (calculus). Мэннинг подробно разобрал вывод производной для функции потерь (objective function), показав, что алгоритм постоянно сравнивает «наблюдаемое» состояние (реальные пары слов в тексте) с «ожидаемым» (предсказание модели) . Если разница велика, градиентный спуск корректирует векторы, пока предсказания не совпадут с реальностью.

В современных моделях количество таких корректируемых параметров может исчисляться миллионами, но, как отмечает профессор, «чудо глубокого обучения заключается в том, что, начав с абсолютно случайных векторов и обычной кучи текста, мы в итоге получаем осмысленную математическую модель языка» .

💬 Цитаты

«Общее заблуждение состоит в том, что использование языка связано прежде всего со словами и их значением. Это не так. Оно связано прежде всего с людьми и тем, что они имеют в виду.»

Герберт Кларк (цитата в лекции Мэннинга) 17:15

«Вы узнаете слово по компании, которую оно держит.»

Джон Руперт Фёрс (цитата в лекции Мэннинга) 35:05
👥 Спикер
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Embedding (Эмбеддинг)
Представление слова или сущности в виде вектора (набора чисел) в многомерном пространстве.
One-hot vector
Способ представления слова, где только один бит равен 1, а остальные — 0; не отражает сходство между словами.
Softmax
Функция в нейронных сетях, которая превращает произвольный вектор чисел в распределение вероятностей (в сумме дают 1).
Corpora (Корпора)
Множественное число слова 'Корпус' — большие структурированные массивы текстов для анализа и обучения.
📊 Цифры
🗓 Хронология
  1. 1950-е Начало первых серьезных исследований в области компьютерной лингвистики.
  2. 2013 Выход алгоритма Word2Vec от команды Google.
  3. 2014-2016 Прорыв в качестве нейронного машинного перевода и его внедрение в Google Translate.
  4. 2019 Появление GPT-2, продемонстрировавшей способность моделей генерировать связный текст.
  5. 2024 Текущая итерация курса CS224N, ориентированная на большие языковые модели.
⚖️ Другая сторона
Искусственный интеллект Stanford CS224N Christopher Manning Word2Vec Natural Language Processing Large Language Models