Курс CS224N: как связать современные нейросети и философию Витгенштейна

Финальная лекция знаменитого курса Стэнфордского университета CS224N «Обработка естественного языка с глубоким обучением», прочитанная весной 2024 года, вышла за рамки чисто технических аспектов и коснулась фундаментальных вопросов лингвистики и философии. Лектор подвел итоги развития больших языковых моделей, сопоставил нейросетевой подход с классическими символическими системами и подробно разобрал природу языкового значения. Особое внимание в материале уделено анализу реальных экономических эффектов искусственного интеллекта и критике концепции экзистенциального риска в пользу борьбы с насущными угрозами современности.

🎓 Итоги курса CS224N и эволюция архитектур 0:05

Развитие систем обработки естественного языка (NLP) прошло огромный путь, начиная со статистических методов и простых векторных представлений слов. В рамках учебного курса студенты изучили эволюцию от полносвязных сетей прямого распространения к последовательным моделям, таким как рекуррентные нейросети (RNN) и длинная краткосрочная память (LSTM). Настоящим прорывом стало появление архитектуры трансформера (Transformer), которая обеспечила эффективную параллелизацию вычислений. Сегодня высокопроизводительные системы строятся на базе общих фундаментальных моделей, проходящих этапы предварительного обучения (pretraining) на гигантских массивах текстов и последующей тонкой настройки (post-training).

В основе успеха современного нейросетевого NLP лежат два ключевых принципа:

Плотные представления (dense representations): скрытые слои нейросетей кодируют глубокие семантические свойства.
Дистрибутивная семантика (distributional semantics): концепция, согласно которой значение слова определяется его контекстом («узнай слово по его окружению»).

Хотя современные трансформеры демонстрируют стабильное линейное улучшение качества по мере масштабирования данных, вычислительных мощностей и размеров моделей, в этой области остается множество нерешенных фундаментальных проблем.

🧠 Ограничения LLM: запоминание против обобщения 4:30

Существует серьезная проблема, разделяющая способность моделей к реальному обобщению знаний и банальное зазубривание огромных объемов информации. По мнению лектора, во многих аспектах большие языковые модели (LLM) напоминают скорее «говорящую энциклопедию» или гигантское хранилище данных, нежели подлинно разумную систему, способную решать принципиально новые задачи.

Эмпирические данные показывают неожиданный факт: в некоторых сценариях архитектура трансформера справляется с обобщением даже хуже, чем старые модели LSTM. Исследования обучения на данных, генерируемых конечными автоматами, демонстрируют следующие результаты:

Модели LSTM при минимальном объеме обучающих примеров практически сразу выходят на предельную точность в 100% (линия 1.0 на графике), успешно улавливая внутренние паттерны благодаря своей архитектуре.
Трансформеры требуют для достижения аналогичных результатов колоссально большего объема данных.

В то же время главной чертой человеческого интеллекта лектор считает способность осваивать новые навыки буквально по единичным примерам (single shot learning) после одной демонстрации. Современным нейросетям до этого по-прежнему далеко.

Дополнительные сложности вызывают следующие факторы:

Проблема «черного ящика»: внутренние процессы вычислений в нейросетях остаются непрозрачными для исследователей. В последнее время активно развивается направление механистической интерпретируемости (mechanistic interpretability). Лектор упоминает классическое исследование Андрея Карпати 2016 года, который обнаружил, что отдельный нейрон в ячейке LSTM фактически измерял длину строки текста и предсказывал ее окончание.
Многоязыковой барьер: успехи моделей в английском языке несопоставимы с другими языками. Модель GPT-4 показала качественный скачок — показатели для греческого, латышского, арабского или турецкого языков в ней оказались выше, чем для английского в GPT-3.5. Однако для языков с меньшим объемом цифровых данных ситуация остается тяжелой. Даже для крупных индийских языков (панджаби, маратхи, телугу), имеющих миллионы носителей, качество работы падает. Для тысяч малых бесписьменных языков, находящихся на грани исчезновения, современные технологии неприменимы из-за дефицита данных.

📊 Кризис бенчмарков и специфика прикладных областей 11:51

Прогресс в сфере искусственного интеллекта традиционно измеряется с помощью тестов (бенчмарков), однако сегодня доверие к ним подорвано из-за загрязнения данных (data contamination). По мнению лектора, закрытые коммерческие модели обучаются на таком объеме интернет-страниц, что тестовые вопросы просто попадают в их обучающую выборку, превращая оценку понимания в проверку памяти.

В качестве доказательства приводится анализ независимых экспертов на платформе Codeforces:

Модель GPT-4 успешно решила 10 из 10 легких задач, созданных до 2021 года.
Та же модель решила 0 из 10 аналогичных задач, опубликованных недавно, что прямо указывает на зазубривание старых тестов.

Для решения этой проблемы необходимы скрытые тестовые наборы или механизмы динамического тестирования.

Параллельно развиваются прикладные направления NLP, такие как биомедицина и юриспруденция. Лектор поделился опытом работы в исследовательской лаборатории RegLab совместно с Дэном Хо над созданием специализированных юридических моделей. Использование ИИ могло бы открыть доступ к юридической помощи миллионам людей в таких странах, как Индия, где услуги адвокатов слишком дороги. Однако точность систем пока оставляет желать лучшего. Согласно недавнему исследованию RegLab, уровень галлюцинаций (выдуманных фактов в ответах) у юридических NLP-систем составил в среднем один ложный ответ на каждые шесть вопросов.

Кроме того, модели сохраняют глубокую предвзятость (bias) в отношении различных культур, религий и социальных групп, ущемляя интересы недостаточно представленных сообществ.

📝 Поэзия трансформеров и экономическая реальность 16:15

Возможности современных генеративных систем кажутся лектору настоящей магией, логику которой трудно объяснить до конца. В качестве примера он привел утренний эксперимент с моделью GPT-4o, которую попросили написать сонет об архитектуре трансформера так, чтобы каждая строчка начиналась с буквы «T». Нейросеть успешно справилась с задачей, выдержав стихотворный размер (ямбический пентаметр) и классическую схему рифмовки ABAB. Текст стихотворения, наполненный техническими терминами вроде queries, keys, values и matrix math, вызвал смех в аудитории своей абстрактностью, но подтвердил высочайший уровень владения языком.

В контексте практического применения LLM лектор ссылается на авторитетные экономические исследования:

Эффективность консультантов: исследование группы авторов во главе с Деллакуа и Итаном Молликом оценивало работу сотрудников Boston Consulting Group (BCG). Консультанты, использовавшие GPT-4, выполнили в среднем на 12% больше задач, делали это на 25% быстрее, а качество их работы эксперты оценили на 40% выше по сравнению с контрольной группой. Использование ИИ сработало как мощный уравнитель: технология сильнее всего помогает слабым специалистам, но практически не дает преимуществ лидерам.
Художественное творчество: в оценке способности GPT-4 писать художественную прозу на уровне авторов журнала New Yorker результаты оказались противоположными. По данным профильного исследования, ИИ пишет качественную прозу в 3–10 раз хуже, чем профессиональные писатели, что оставляет человеку надежду в творческой сфере.

На фоне всеобщего хайпа Кремниевой долины лектор призывает сохранять скептицизм, цитируя статью в Financial Times «Generative AI — Hypely Intelligent». Ожидания инвесторов сильно опережают реальные возможности ИИ. По прогнозам IDC, корпоративные расходы на генеративный ИИ вырастут с $16 млрд до $143 млрд к 2027 году (рост почти в 10 раз). По оценкам McKinsey, технология может принести до $4 трлн прибыли, однако из-за отсутствия прозрачности ценообразования компании пока не могут точно просчитать реальную финансовую выгоду.

📜 Символический подход против кибернетики: исторический спор 25:35

Истоки современного ИИ лежат в противостоянии двух интеллектуальных традиций, зародившихся в 1950–1960-х годах: символического подхода (традиционный AI) и кибернетики (cybernetics). Нынешние нейросети являются прямыми наследниками именно кибернетического направления, а не классического ИИ.

Стэнфордский университет занимает уникальное место в этой истории как дом для программы символических систем (Symbolic Systems Program). Ее сооснователь, философ и логик Джон Барвайз, ушедший из жизни в 2000 году, принципиально отказался называть программу «когнитивной наукой», настаивая на изучении связи между человеческим мышлением, языком, логикой и реальным миром через призму знаков.

История разделения парадигм включает важные вехи:

Создание термина Artificial Intelligence: Джон Маккарти (основатель знаменитой Стэнфордской лаборатории ИИ) придумал это название специально, чтобы откреститься от кибернетического подхода Норберта Винера из MIT. Обладая бэкграундом математика и логика, Маккарти хотел видеть искусственный разум похожим на строгую математическую логику.
Гипотеза физических символических систем: сформулирована пионерами ИИ Алленом Ньюэллом и Гербертом Саймоном из CMU. Они утверждали, что физическая символическая система обладает необходимыми и достаточными средствами для реализации разумных действий. Из этого следовало, что создать сильный ИИ без оперирования явными символами невозможно.
Кибернетическая альтернатива и первый хайп: в рамках кибернетики развивались первые нейросети. Фрэнк Розенблатт создал свой знаменитый перцептрон, который был буквально собран из проводов. В статье New York Times тех лет Военно-морские силы США утверждали, что этот «зародыш электронного компьютера» вскоре сможет ходить, говорить, видеть, писать, воспроизводить себя и осознавать свое существование. На деле же, как отмечает лектор с улыбкой, вся демонстрация заключалась в том, что прибор после 50 попыток научился отличать стрелку влево от стрелки вправо.

По мнению лектора, человеческий язык, безусловно, является символической системой — это очевидно как в письменной речи, так и на уровне фонем в устной. Однако, вопреки мнению Ньюэлла и Саймона, использование символов для коммуникации вовсе не означает, что сам процессор (человеческий мозг или ИИ) обязан быть символическим изнутри. Мозг устроен как нейронная сеть, и именно нейросетевые модели в итоге масштабируются лучше, чем жесткие символические процессоры.

🗣️ Язык как инструмент мышления: от Гумбольдта до Деннета 39:28

Роль языка в эволюции человеческого разума выходит далеко за рамки простой передачи информации. Лектор напоминает о наследии выдающегося немецкого ученого Вильгельма фон Гумбольдта, заложившего основы современной университетской аспирантуры, которую позже скопировали в США. Именно Гумбольдту принадлежит классический тезис о том, что язык осуществляет «бесконечное использование конечных средств» — идея, которую впоследствии развил Ноам Хомский для обоснования структурализма.

Развивая идеи Гумбольдта в контексте современной психологии, лектор сопоставляет их с теорией Даниэля Канемана и Амоса Тверски о двух системах мышления:

Система 1 (subconscious): подсознательная, автоматическая обработка сигналов (зрение, восприятие речи).
Система 2 (conscious): осознанное, аналитическое мышление (решение математических задач).

Гумбольдт утверждал, что полноценное абстрактное мышление (Система 2) невозможно без расширения возможностей разума через языковые символы. Язык служит ментальным каркасом (scaffolding), поднимающим мышление человека выше уровня шимпанзе.

Эту же концепцию развивал философ Даниэль Деннет, ушедший из жизни весной 2024 года, в своей книге «От бактерий до Баха и обратно». Деннет выделил четыре эволюционных уровня развития интеллекта:

Дарвиновский (Darwinian): жестко запрограммированные организмы, меняющиеся только за счет генетического отбора (бактерии, вирусы).
Скиннеровский (Skinnerian): организмы, меняющие поведение на основе подкрепления (ящерицы, собаки).
Попперовский (Popperian): существа, способные строить внутренние модели среды и планировать действия до их совершения (модель-ориентированное обучение с подкреплением). Такое планирование доступно приматам и некоторым птицам. В качестве шутки лектор отметил, что новокаледонские вороны из Южного полушария демонстрируют поразительное многоступенчатое планирование с использованием палочек для добычи мяса, в то время как вороны Северного полушария, возможно, глупее.
Грегорианский (Gregorian): разум, способный создавать внешние инструменты мышления (математика, демократия). Преисполненным и главным таким инструментом Деннет считал человеческий язык. Единственным биологическим примером грегорианского интеллекта на Земле является человек.

📚 Философия значения: истина против употребления 48:05

В вопросе о том, что составляет семантику языка, в философии и NLP борются две теории значения. Первое направление — теоретико-модельная (денотативная) семантика. В ней значением слова считается его денотат — конкретный объект или множество объектов в реальном мире, которые оно представляет (например, значение слова «компьютер» — это совокупность всех существующих компьютеров). Этот подход доминировал в логике Альфреда Тарского, который считал естественные языки слишком противоречивыми для анализа, и его ученика Ричарда Монтегю, создавшего formal семантику для человеческого языка.

На денотативном подходе строились все классические системы понимания естественного языка с 1960 по 2015 год. Схема работы включала:

Синтаксический разбор (парсинг) предложения.
Подокументную сборку значения на основе лексикона и правил композициональности.
Перевод фразы в логическую форму или SQL-запрос к базе данных для получения ответа.

Это направление развилось в семантический парсинг (semantic parsing) под руководством Люка Зеттлмайера, Майкла Коллинза и Перси Лянга. Системы работали в узких областях, но были чрезвычайно хрупкими (brittle).

Вторая альтернатива — теория употребления (use theory of meaning), восходящая к лингвисту Дж. Р. Фёрсу («узнай слово по его окружению») и поздним трудам Людвига Витгенштейна («Философские исследования»). Витгенштейн иронизировал над логиками, доказывая, что значение слова — это способ его использования в мире, проводя аналогию между деньгами и коровой, которую на них можно купить, и самим использованием денег в обороте.

Современные исследователи Эмили Бендер и Александр Коллер занимают жесткую позицию, утверждая как аксиому, что дистрибутивные модели не обладают семантикой, поскольку оперируют только формой без денотатов. Однако лектор считает такой взгляд чрезмерно узким. По его мнению, значение — это градиентная сущность, возникающая из связей слова с другими вещами (текстом, изображениями, виртуальным или реальным миром).

В качестве примера лектор приводит индийский музыкальный инструмент шенай (shehnai):

Вы получаете базовое заземленное значение, если подержите его в руках или увидите фото.
Значение станет богаче, если вы услышите его игру.
Если вам просто скажут, что это «традиционный индийский духовой инструмент, похожий на гобой», вы уже начнете частично понимать его смысл.
Читая пример из литературы («Бикаш Бабу не любил заунывный плач шеная, но был готов исполнить любое традиционное ожидание семьи жениха»), вы узнаете уникальный контекст: звук инструмента ассоциируется с плачем, и его принято использовать на свадьбах. Этого культурного контекста невозможно достичь, просто подержав инструмент в руках.

🚨 Будущее ИИ: экзистенциальный страх против реальных угроз 1:03:35

Обсуждая риски развития ИИ, лектор призывает разделять исторические страхи и реальные вызовы. Опасения по поводу массовой безработицы из-за автоматизации стары: лектор демонстрирует заголовки из New York Times 1928 года («Марш машин оставляет руки без дела») и журнала Time 1961 года о вытеснении неквалифицированного труда автоматизацией. Исторически эти страхи не оправдались — автоматизация приводила к трансформации рынка труда и перераспределению богатства, и сегодня большинство людей по-прежнему имеют работу и трудятся по многу часов в неделю.

Гораздо более реальной угрозой лектор считает колоссальную концентрацию капитала и власти в руках 5–10 гигантских технологических корпораций. Это современный аналог железнодорожных монополий начала XX века. Решение этой проблемы лежит не в технической, а в политической плоскости, однако сильного политического лидерства в мире сейчас не наблюдается.

Лектор выражает скептицизм в отношении паники вокруг скорого наступления сингулярности и экзистенциального риска (x-risk) уничтожения человечества «богоподобным» ИИ. Он солидарен с нарастающей критикой этих концепций со стороны ведущих ученых:

Франсуа Шолле (архитектор Keras) утверждает, что не существует ни одной модели или техники, которая представляла бы угрозу уничтожения человечества, даже с учетом экстраполяции законов масштабирования.
Джоэль Пино (глава Meta AI) называет дискурс об экзистенциальном риске «вздорным» (unhinged), указывая на ловушку утилитарной логики, где ненулевая вероятность бесконечного ущерба парализует любой рациональный диалог.
Тимнит Гебру и другие критики подчеркивают, что раздувание страхов перед восстанием машин сознательно используется крупными компаниями, чтобы отвлечь внимание общества от насущного вреда, регуляторного захвата рынка и эксплуатации.

Среди реальных, повседневных угроз ИИ, на которые необходимо направить ресурсы, лектор выделяет:

Генерацию токсичного контента, дезинформацию и галлюцинации.
Создание персонализированных систем политической пропаганды, способных эффективно манипулировать мнениями людей.
Угрозу масштабного применения высококачественных визуальных фейков (deepfakes) на ближайших политических выборах по всему миру.
Использование машинного обучения правительствами и корпорациями для тотальной слежки и контроля.

В заключение лектор цитирует пророческие слова астрофизика Карла Сагана из книги 1995 года «Демонический мир: Наука как свеча во тьме». Саган предупреждал о грядущем мире, где колоссальные технологии окажутся в руках немногих, общественные институты потеряют способность задавать вопросы властям, а люди, неспособные отличить то, что приятно, от того, что истинно, незаметно соскользнут обратно в суеверия и тьму. Чтобы не допустить этого сценария, критически важно поддерживать открытое образование и движение за свободное программное обеспечение (open source).