Летиция Паркалабеску: «Я не верю в обобщение вне распределения»

Летиция Паркалабеску, исследовательница в области компьютерной лингвистики и создательница популярного YouTube-канала AI Coffee Break, стала гостьей подкаста Machine Learning Street Talk. В ходе оживленной дискуссии участники разобрали затянувшийся спор между сторонниками символического подхода и глубокого обучения, вскрыли неочевидные уязвимости мультимодальных систем и подвергли сомнению способность нейросетей к обобщению данных за пределами обучающей выборки.

💥 Великий спор: упёрлось ли глубокое обучение в стену? 0:00

Дискуссия началась с обсуждения резонансной статьи профессора Гари Маркуса «Глубокое обучение бьется об стену». По мнению ведущих подкаста Machine Learning Street Talk, статья написана чрезвычайно убедительно, хотя утверждение о том, что технология зашла в тупик, кажется им излишне провокационным. В своей работе Маркус приводит примеры очевидных провалов искусственного интеллекта: например, когда модель GPT-3 советовала пользователям совершить самоубийство или утверждала, что Билл Гейтс изобрел COVID-19. Он также ссылается на знаменитую статью Эмили Бендер о «стохастических попугаях», доказывающую, что современные языковые модели лишь повторяют заученное, не понимая сути.

Основная проблема, как считают авторы подкаста, заключается в отсутствии консенсуса вокруг самого определения интеллекта. Доктор Пэй Ван, например, определяет интеллект как способность адаптироваться в условиях нехватки знаний и ресурсов. В свою очередь, создатель библиотеки Keras Франсуа Шолле утверждает, что интеллектуальная система должна генерировать максимально компактные программы навыков, которые затем успешно адаптируются к новым ситуациям.

Гари Маркус настаивает на необходимости внедрения символических операций над переменными, которые лежат в основе всего мирового программного обеспечения. Речь идет о четырех базовых концептах алгебры:

Переменные.
Экземпляры.
Связывание переменных (variable binding).
Операции над переменными.

Именно манипуляции с абстрактными символами, по мнению Маркуса, позволяют выходить за рамки обучающей выборки. В качестве примера символического превосходства приводится игровой челлендж Nethack, где процедурно генерируемые подземелья делают бессмысленным простое заучивание паттернов. В этом испытании победу с разгромным счетом одержал именно символический подход. Глава ИИ в Meta Ян Лекун в дискуссии с Мелани Митчелл также напомнил, что изначально термин «искусственный интеллект» закрепился исключительно за символическими методами, и лишь в 2013 году на волне хайпа медиа начали называть этим именем глубокое обучение.

🎓 Путь Летиции Паркалабеску: от теоретической физики к нейросетям 17:39

Летиция Паркалабеску учится на третьем курсе аспирантуры Гейдельбергского университета на кафедре компьютерной лингвистики. При этом она признается, что у нее нет классического лингвистического образования. Первоначально Летиция изучала физику и параллельно осваивала компьютерные науки, выполнив бакалаврскую и магистерскую диссертации в области машинного обучения.

В своем департаменте Летиция долгое время чувствовала себя аутсайдером из-за отсутствия профильной терминологической подготовки. Однако ее глубокие знания математики и физики оказались незаменимыми для современной компьютерной лингвистики, которая за последние 20–30 лет практически полностью сместилась в сторону сложных нейросетевых архитектур.

В итоге на кафедре сложился продуктивный симбиоз: Летиция объясняет коллегам-лингвистам сложный математический аппарат публикаций, а они помогают ей разобраться в высокоуровневых языковых концепциях. Параллельно с научной деятельностью Летиция развивает свой англоязычный проект AI Coffee Break, где с помощью анимированного персонажа Мисс Кофейное Зернышко объясняет сложные научные статьи.

👁️ Ловушки мультимодальности и иллюзия надежности 34:28

Объединенный анализ различных модальностей часто преподносится как ключ к созданию робастного ИИ. Ведущие упомянули теорию Джеффа Хокинса о сенсомоторных контурах в человеческом мозге. Хокинс утверждает, что разнообразие сигналов (например, зрение в сочетании с осязанием) позволяет нам безошибочно распознавать объекты даже в условиях частичной информации.

Однако Летиция Паркалабеску спешит разрушить этот оптимизм, заявляя, что на практике мультимодальные модели глубокого обучения демонстрируют поразительную хрупкость. В задачах визуального вопросно-ответного аннотирования (VQA) разработчики регулярно сталкиваются со скрытыми смещениями данных (data biases). Если модель спросить: «Сколько собак на картинке?», она с огромной вероятностью ответит «две» просто потому, что в датасете это самый частый ответ на вопрос «сколько». Нейросеть не считает объекты на пиксельном уровне, она просто находит статистические короткие пути через буквенные n-граммы.

Еще более серьезная проблема возникает при интеграции текста и звука (например, для распознавания сарказма). Текстовая модальность жестко ограничена словарем в 30 000–50 000 токенов и высокой предсказуемостью словосочетаний (фраза «he are tired» статистически невозможна). Аудиосигнал, напротив, обладает колоссальной дисперсией: у каждого человека свой голос, тембр и манера выражать эмоции. В результате возникает феномен, который можно назвать «унимодальным коллапсом».

Функция потерь нейросети гораздо легче минимизируется, если модель полностью игнорирует сложную, зашумленную аудиомодальность и опирается только на текст. На бумаге система считается мультимодальной, но по факту она использует лишь один источник данных.

Именно поэтому Летиция скептически относится к заявлениям некоторых исследователей (например, Дейва Бэкона) о немедленном переходе к анализу видео. По ее мнению, академическое сообщество еще очень далеко от полноценного и сбалансированного решения проблем даже со статичными изображениями.

🗣️ Статистический хаос против врожденных правил Хомского 41:35

В лингвистике давно идет борьба между концепцией Ноама Хомского о врожденных биологических структурах языка («языковом модуле» в мозге) и чисто эмпирическим, статистическим подходом. Такие ученые, как Валид Саба, настаивают на бесконечной природе языка и утверждают, что его невозможно выучить исключительно на основе эмпирических данных.

Летиция Паркалабеску категорически не согласна с этой позицией и убеждена, что живой человеческий язык поддается фиксации только через статистические методы. В качестве аргумента она приводит пример своей родины, Румынии, где действует официальная «языковая полиция» в лице Румынской академии. Эта группа ученых раз в несколько лет обновляет словари, правила грамматики и произношения.

Но куда быстрее язык меняется снизу: если в локальном кругу друзей приживается привычка использовать слово «пицца» вместо слова «кофе», для этой группы оно мгновенно становится легитимным элементом коммуникации. Никакие строгие символические правила не успевают за этой динамикой, поэтому языковые модели вроде GPT-3 устаревают на следующий день после окончания обучения, если их непрерывно не дообучать на свежей статистике.

Один из ведущих подкаста выдвинул контраргумент с позиции классической лингвистики: даже если бы язык был статичным и подчинялся простой контекстно-свободной грамматике, его комбинаторное пространство настолько огромно, что для обратного инжиниринга правил чисто статистическим путем потребовался бы нереалистичный объем покрытия данных.

В ответ на это Летиция высказала свое спорное суждение о природе обобщения:

Она абсолютно не верит в способность современных моделей к истинному обобщению вне распределения (out-of-distribution, OOD).
Все успехи нейросетей на «незнакомых» примерах Летиция объясняет чистой случайностью либо тем, что тестируемый паттерн на самом деле уже содержался в гигантском массиве обучающих данных (например, в датасете The Pile).
Люди склонны переоценивать новизну тестов, тогда как для модели они остаются внутрираспределительными.

Ведущий подкаста также скорректировал популярный тезис о «кризисе символизма»: по его мнению, нелепо утверждать, будто в символическом подходе нет прогресса, ведь весь наш мир, математика, научные статьи и софт написаны людьми на языке символов. Настоящая проблема заключается не в самом символизме, а в том, что мы пока не умеем эффективно учить машины оперировать символами абстрактно.

🧠 Истинный интеллект или просто салонный трюк? 52:17

Летиция предлагает отказаться от жестких антропоморфных стандартов при оценке ИИ. Машинное «зрение» — это улавливание фотонов детектором. Зачем заставлять машину мыслить как человек, если она способна одновременно обрабатывать рентгеновское, инфракрасное, микроволновое и радиоизлучение? Ограничивая ИИ человеческими мерками, мы можем лишить его потенциального «сверхчеловеческого» масштаба.

Тем не менее, человеческий мозг остается единственным существующим примером сильного ИИ (AGI). На вопрос ведущих, куда бы Летиция потратила бесконечный бюджет на исследования, она ответила однозначно:

«Я бы вложила все деньги в биологию и нейронауки, чтобы до конца понять механизмы работы нашего собственного мозга. И только потом, имея на руках точную карту, пыталась бы воссоздать это в коде».

Пока этого понимания нет, наука вынуждена использовать грубые абстракции. Летиция провела аналогию с физикой, где любую реальную задачу часто аппроксимируют до модели «сферического коня в вакууме». Для создания прикладных коммерческих продуктов текущей статистики вполне достаточно, но для полноценного AGI необходимо держать открытыми все двери, включая символические подходы.

В завершение темы участники обсудили, не является ли человеческий разум таким же масштабным «салонным трюком» (parlor trick), как и алгоритмы GPT-3. В качестве примера они вспомнили клеточный автомат — игру «Жизнь» Конвея, где из набора простейших правил неожиданно рождается сложнейшее эмерджентное поведение. Возможно, человеческое сознание устроено похожим образом, и именно поэтому ученые раз за разом сдвигают планку определения «настоящего» интеллекта, как только ИИ берет очередной рубеж.

🎬 Борьба с перфекционизмом на YouTube и токсичность комментариев 59:26

Делясь кулуарными деталями создания контента, Летиция призналась, что она неисправимый перфекционист, но ведение канала заставило ее переступить через себя. Ей пришлось принять правило «80% достаточно», так как погоня за идеальными оставшимися 20% качества парализует процесс и ведет к «переобучению контента».

Весь процесс создания роликов на канале AI Coffee Break состоит из четких шагов:

Чтение научной статьи и написание сценария разговорным, живым языком.
Анимация слайдов в обычном PowerPoint с использованием функции «Трансформация» (Morph) для плавных переходов между ключевыми кадрами.
Запись голоса и интеграция персонажа Мисс Кофейное Зернышко на этапе финального монтажа.

Ведущие подкаста согласились, что быстрые итеративные циклы релиза контента намного эффективнее долгих месяцев планирования. Это полностью совпадает с гибкой методологией разработки (Agile) и классическим научным методом: наблюдение, гипотеза, тест, повторение. Как пошутил один из инженеров: «Если бы исследования получались с первого раза, они бы назывались просто поиском, а не пере-поиском (re-search)».

В финале собеседники затронули тему обратной связи в интернете. Ведущий Machine Learning Street Talk поделился, что за всю историю канала ему пришлось заблокировать всего двух пользователей. Он даже зачитал одно из самых агрессивных писем с требованием «заткнуть свой фонтан».

Тем не менее, Летиция подчеркнула, что именно теплое YouTube-сообщество спасло ее от депрессии во время пандемии коронавируса, когда из-за локдаунов все долгожданные научные конференции в Сиэтле и Пунта-Кане перенесли в унылый онлайн-формат. Мотивирующие комментарии под видео стали для нее главным источником позитива в период изоляции.