Курс CS224N: как связать современные нейросети и философию Витгенштейна

Stanford Online 7,6 тыс. 1 ч 16 мин 12 мин 04.03.2025
Главное

Финальная лекция знаменитого курса Стэнфордского университета CS224N «Обработка естественного языка с глубоким обучением», прочитанная весной 2024 года, вышла за рамки чисто технических аспектов и коснулась фундаментальных вопросов лингвистики и философии. Лектор подвел итоги развития больших языковых моделей, сопоставил нейросетевой подход с классическими символическими системами и подробно разобрал природу языкового значения. Особое внимание в материале уделено анализу реальных экономических эффектов искусственного интеллекта и критике концепции экзистенциального риска в пользу борьбы с насущными угрозами современности.

🎓 Итоги курса CS224N и эволюция архитектур 0:05

Развитие систем обработки естественного языка (NLP) прошло огромный путь, начиная со статистических методов и простых векторных представлений слов. В рамках учебного курса студенты изучили эволюцию от полносвязных сетей прямого распространения к последовательным моделям, таким как рекуррентные нейросети (RNN) и длинная краткосрочная память (LSTM). Настоящим прорывом стало появление архитектуры трансформера (Transformer), которая обеспечила эффективную параллелизацию вычислений. Сегодня высокопроизводительные системы строятся на базе общих фундаментальных моделей, проходящих этапы предварительного обучения (pretraining) на гигантских массивах текстов и последующей тонкой настройки (post-training).

В основе успеха современного нейросетевого NLP лежат два ключевых принципа:

Хотя современные трансформеры демонстрируют стабильное линейное улучшение качества по мере масштабирования данных, вычислительных мощностей и размеров моделей, в этой области остается множество нерешенных фундаментальных проблем.

🧠 Ограничения LLM: запоминание против обобщения 4:30

Существует серьезная проблема, разделяющая способность моделей к реальному обобщению знаний и банальное зазубривание огромных объемов информации. По мнению лектора, во многих аспектах большие языковые модели (LLM) напоминают скорее «говорящую энциклопедию» или гигантское хранилище данных, нежели подлинно разумную систему, способную решать принципиально новые задачи.

Эмпирические данные показывают неожиданный факт: в некоторых сценариях архитектура трансформера справляется с обобщением даже хуже, чем старые модели LSTM. Исследования обучения на данных, генерируемых конечными автоматами, демонстрируют следующие результаты:

В то же время главной чертой человеческого интеллекта лектор считает способность осваивать новые навыки буквально по единичным примерам (single shot learning) после одной демонстрации. Современным нейросетям до этого по-прежнему далеко.

Дополнительные сложности вызывают следующие факторы:

📊 Кризис бенчмарков и специфика прикладных областей 11:51

Прогресс в сфере искусственного интеллекта традиционно измеряется с помощью тестов (бенчмарков), однако сегодня доверие к ним подорвано из-за загрязнения данных (data contamination). По мнению лектора, закрытые коммерческие модели обучаются на таком объеме интернет-страниц, что тестовые вопросы просто попадают в их обучающую выборку, превращая оценку понимания в проверку памяти.

В качестве доказательства приводится анализ независимых экспертов на платформе Codeforces:

Для решения этой проблемы необходимы скрытые тестовые наборы или механизмы динамического тестирования.

Параллельно развиваются прикладные направления NLP, такие как биомедицина и юриспруденция. Лектор поделился опытом работы в исследовательской лаборатории RegLab совместно с Дэном Хо над созданием специализированных юридических моделей. Использование ИИ могло бы открыть доступ к юридической помощи миллионам людей в таких странах, как Индия, где услуги адвокатов слишком дороги. Однако точность систем пока оставляет желать лучшего. Согласно недавнему исследованию RegLab, уровень галлюцинаций (выдуманных фактов в ответах) у юридических NLP-систем составил в среднем один ложный ответ на каждые шесть вопросов.

Кроме того, модели сохраняют глубокую предвзятость (bias) в отношении различных культур, религий и социальных групп, ущемляя интересы недостаточно представленных сообществ.

📝 Поэзия трансформеров и экономическая реальность 16:15

Возможности современных генеративных систем кажутся лектору настоящей магией, логику которой трудно объяснить до конца. В качестве примера он привел утренний эксперимент с моделью GPT-4o, которую попросили написать сонет об архитектуре трансформера так, чтобы каждая строчка начиналась с буквы «T». Нейросеть успешно справилась с задачей, выдержав стихотворный размер (ямбический пентаметр) и классическую схему рифмовки ABAB. Текст стихотворения, наполненный техническими терминами вроде queries, keys, values и matrix math, вызвал смех в аудитории своей абстрактностью, но подтвердил высочайший уровень владения языком.

В контексте практического применения LLM лектор ссылается на авторитетные экономические исследования:

На фоне всеобщего хайпа Кремниевой долины лектор призывает сохранять скептицизм, цитируя статью в Financial Times «Generative AI — Hypely Intelligent». Ожидания инвесторов сильно опережают реальные возможности ИИ. По прогнозам IDC, корпоративные расходы на генеративный ИИ вырастут с $16 млрд до $143 млрд к 2027 году (рост почти в 10 раз). По оценкам McKinsey, технология может принести до $4 трлн прибыли, однако из-за отсутствия прозрачности ценообразования компании пока не могут точно просчитать реальную финансовую выгоду.

📜 Символический подход против кибернетики: исторический спор 25:35

Истоки современного ИИ лежат в противостоянии двух интеллектуальных традиций, зародившихся в 1950–1960-х годах: символического подхода (традиционный AI) и кибернетики (cybernetics). Нынешние нейросети являются прямыми наследниками именно кибернетического направления, а не классического ИИ.

Стэнфордский университет занимает уникальное место в этой истории как дом для программы символических систем (Symbolic Systems Program). Ее сооснователь, философ и логик Джон Барвайз, ушедший из жизни в 2000 году, принципиально отказался называть программу «когнитивной наукой», настаивая на изучении связи между человеческим мышлением, языком, логикой и реальным миром через призму знаков.

История разделения парадигм включает важные вехи:

  1. Создание термина Artificial Intelligence: Джон Маккарти (основатель знаменитой Стэнфордской лаборатории ИИ) придумал это название специально, чтобы откреститься от кибернетического подхода Норберта Винера из MIT. Обладая бэкграундом математика и логика, Маккарти хотел видеть искусственный разум похожим на строгую математическую логику.
  2. Гипотеза физических символических систем: сформулирована пионерами ИИ Алленом Ньюэллом и Гербертом Саймоном из CMU. Они утверждали, что физическая символическая система обладает необходимыми и достаточными средствами для реализации разумных действий. Из этого следовало, что создать сильный ИИ без оперирования явными символами невозможно.
  3. Кибернетическая альтернатива и первый хайп: в рамках кибернетики развивались первые нейросети. Фрэнк Розенблатт создал свой знаменитый перцептрон, который был буквально собран из проводов. В статье New York Times тех лет Военно-морские силы США утверждали, что этот «зародыш электронного компьютера» вскоре сможет ходить, говорить, видеть, писать, воспроизводить себя и осознавать свое существование. На деле же, как отмечает лектор с улыбкой, вся демонстрация заключалась в том, что прибор после 50 попыток научился отличать стрелку влево от стрелки вправо.

По мнению лектора, человеческий язык, безусловно, является символической системой — это очевидно как в письменной речи, так и на уровне фонем в устной. Однако, вопреки мнению Ньюэлла и Саймона, использование символов для коммуникации вовсе не означает, что сам процессор (человеческий мозг или ИИ) обязан быть символическим изнутри. Мозг устроен как нейронная сеть, и именно нейросетевые модели в итоге масштабируются лучше, чем жесткие символические процессоры.

🗣️ Язык как инструмент мышления: от Гумбольдта до Деннета 39:28

Роль языка в эволюции человеческого разума выходит далеко за рамки простой передачи информации. Лектор напоминает о наследии выдающегося немецкого ученого Вильгельма фон Гумбольдта, заложившего основы современной университетской аспирантуры, которую позже скопировали в США. Именно Гумбольдту принадлежит классический тезис о том, что язык осуществляет «бесконечное использование конечных средств» — идея, которую впоследствии развил Ноам Хомский для обоснования структурализма.

Развивая идеи Гумбольдта в контексте современной психологии, лектор сопоставляет их с теорией Даниэля Канемана и Амоса Тверски о двух системах мышления:

Гумбольдт утверждал, что полноценное абстрактное мышление (Система 2) невозможно без расширения возможностей разума через языковые символы. Язык служит ментальным каркасом (scaffolding), поднимающим мышление человека выше уровня шимпанзе.

Эту же концепцию развивал философ Даниэль Деннет, ушедший из жизни весной 2024 года, в своей книге «От бактерий до Баха и обратно». Деннет выделил четыре эволюционных уровня развития интеллекта:

  1. Дарвиновский (Darwinian): жестко запрограммированные организмы, меняющиеся только за счет генетического отбора (бактерии, вирусы).
  2. Скиннеровский (Skinnerian): организмы, меняющие поведение на основе подкрепления (ящерицы, собаки).
  3. Попперовский (Popperian): существа, способные строить внутренние модели среды и планировать действия до их совершения (модель-ориентированное обучение с подкреплением). Такое планирование доступно приматам и некоторым птицам. В качестве шутки лектор отметил, что новокаледонские вороны из Южного полушария демонстрируют поразительное многоступенчатое планирование с использованием палочек для добычи мяса, в то время как вороны Северного полушария, возможно, глупее.
  4. Грегорианский (Gregorian): разум, способный создавать внешние инструменты мышления (математика, демократия). Преисполненным и главным таким инструментом Деннет считал человеческий язык. Единственным биологическим примером грегорианского интеллекта на Земле является человек.

📚 Философия значения: истина против употребления 48:05

В вопросе о том, что составляет семантику языка, в философии и NLP борются две теории значения. Первое направление — теоретико-модельная (денотативная) семантика. В ней значением слова считается его денотат — конкретный объект или множество объектов в реальном мире, которые оно представляет (например, значение слова «компьютер» — это совокупность всех существующих компьютеров). Этот подход доминировал в логике Альфреда Тарского, который считал естественные языки слишком противоречивыми для анализа, и его ученика Ричарда Монтегю, создавшего formal семантику для человеческого языка.

На денотативном подходе строились все классические системы понимания естественного языка с 1960 по 2015 год. Схема работы включала:

Это направление развилось в семантический парсинг (semantic parsing) под руководством Люка Зеттлмайера, Майкла Коллинза и Перси Лянга. Системы работали в узких областях, но были чрезвычайно хрупкими (brittle).

Вторая альтернатива — теория употребления (use theory of meaning), восходящая к лингвисту Дж. Р. Фёрсу («узнай слово по его окружению») и поздним трудам Людвига Витгенштейна («Философские исследования»). Витгенштейн иронизировал над логиками, доказывая, что значение слова — это способ его использования в мире, проводя аналогию между деньгами и коровой, которую на них можно купить, и самим использованием денег в обороте.

Современные исследователи Эмили Бендер и Александр Коллер занимают жесткую позицию, утверждая как аксиому, что дистрибутивные модели не обладают семантикой, поскольку оперируют только формой без денотатов. Однако лектор считает такой взгляд чрезмерно узким. По его мнению, значение — это градиентная сущность, возникающая из связей слова с другими вещами (текстом, изображениями, виртуальным или реальным миром).

В качестве примера лектор приводит индийский музыкальный инструмент шенай (shehnai):

🚨 Будущее ИИ: экзистенциальный страх против реальных угроз 1:03:35

Обсуждая риски развития ИИ, лектор призывает разделять исторические страхи и реальные вызовы. Опасения по поводу массовой безработицы из-за автоматизации стары: лектор демонстрирует заголовки из New York Times 1928 года («Марш машин оставляет руки без дела») и журнала Time 1961 года о вытеснении неквалифицированного труда автоматизацией. Исторически эти страхи не оправдались — автоматизация приводила к трансформации рынка труда и перераспределению богатства, и сегодня большинство людей по-прежнему имеют работу и трудятся по многу часов в неделю.

Гораздо более реальной угрозой лектор считает колоссальную концентрацию капитала и власти в руках 5–10 гигантских технологических корпораций. Это современный аналог железнодорожных монополий начала XX века. Решение этой проблемы лежит не в технической, а в политической плоскости, однако сильного политического лидерства в мире сейчас не наблюдается.

Лектор выражает скептицизм в отношении паники вокруг скорого наступления сингулярности и экзистенциального риска (x-risk) уничтожения человечества «богоподобным» ИИ. Он солидарен с нарастающей критикой этих концепций со стороны ведущих ученых:

Среди реальных, повседневных угроз ИИ, на которые необходимо направить ресурсы, лектор выделяет:

В заключение лектор цитирует пророческие слова астрофизика Карла Сагана из книги 1995 года «Демонический мир: Наука как свеча во тьме». Саган предупреждал о грядущем мире, где колоссальные технологии окажутся в руках немногих, общественные институты потеряют способность задавать вопросы властям, а люди, неспособные отличить то, что приятно, от того, что истинно, незаметно соскользнут обратно в суеверия и тьму. Чтобы не допустить этого сценария, критически важно поддерживать открытое образование и движение за свободное программное обеспечение (open source).

💬 Цитаты

«По мнению лектора, во многих аспектах большие языковые модели (LLM) напоминают скорее «говорящую энциклопедию» или гигантское хранилище данных, нежели подлинно разумную систему, способную решать принципиально новые задачи»

Профессор Стэнфорда 05:17

«Гумбольдт утверждал, что полноценное абстрактное мышление (Система 2) невозможно без расширения возможностей разума через языковые символы»

Профессор Стэнфорда 43:10
👥 Спикер
📚 Упомянутые книги
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Дистрибутивная семантика
Лингвистический подход, утверждающий, что значение слова определяется словами, которые встречаются в его контексте.
Механистическая интерпретируемость
Область исследований ИИ, направленная на обратный инжиниринг и понимание внутренних алгоритмов работы нейросетей.
Контаминация данных
Попадание тестовых заданий из проверочного набора (бенчмарка) в обучающую выборку нейросети.
Семантический парсинг
Процесс перевода предложений на естественном языке в формальные логические выражения или программный код.
📊 Цифры
🗓 Хронология
  1. 1928 Публикация статьи в New York Times о росте безработицы из-за автоматизации производства.
  2. 1961 Выход материала в Time Magazine о вытеснении неквалифицированного труда автоматическими системами.
  3. 1995 Публикация Карлом Саганом пророческой книги «Демонический мир: Наука как свеча во тьме».
  4. 2000 Кончина сооснователя программы символических систем Джона Барвайза.
  5. 2016 Андрей Карпати публикует исследование внутренних нейронов в ячейках сетей LSTM.
  6. 2024 Проведение лекции курса CS224N в Стэнфордском университете и кончина философа Даниэля Деннета.
⚖️ Другая сторона
Искусственный интеллект Stanford CS224N трансформеры дистрибутивная семантика экзистенциальный риск Людвиг Витгенштейн