Марти Хёрст о будущем поиска и ИИ: почему имитация языка не делает машину разумной

Марти Хёрст, профессор Калифорнийского университета в Беркли с тридцатилетним стажем в области обработки естественного языка, в подкасте The TWIML AI Podcast анализирует текущий бум больших языковых моделей (LLM). Она сопоставляет современные прорывы с десятилетиями «медленного продвижения» в поиске и интерфейсах, приходя к выводу, что мы переживаем фундаментальную смену парадигмы в человеко-компьютерном взаимодействии. Главный вопрос дискуссии — являются ли LLM реальным разумом или лишь совершенным инструментом имитации, требующим жесткого контроля со стороны эксперта-человека.

🌊 Смена парадигмы: от поиска документов к генерации ответов 4:45

Марти Хёрст начала свою карьеру в конце 80-х, когда технологии NLP (обработки естественного языка) находились на стадии «медленной и тяжелой работы». В то время попытки заставить машины понимать язык были скорее научным поиском, чем бизнесом. Она вспоминает, как в 90-е годы покупка компанией Oracle стартапа в области NLP преподносилась как революция, что на тот момент выглядело нелепо. Подобный скептицизм Хёрст сохраняла и в отношении IBM Watson: несмотря на успех в викторине Jeopardy, заявления о немедленной трансформации здравоохранения этим инструментом не имели под собой реального технологического пути.

Профессор Хёрст была одним из пионеров в области пользовательских интерфейсов поиска (Search UI). Она внедрила концепцию «фасетного взаимодействия» (faceted interaction), которая сегодня является стандартом для интернет-магазинов и библиотечных каталогов, позволяя пользователям фильтровать и «нарезать» данные по разным параметрам. До этого поиск в библиотеках требовал ввода сложных командных строк, а результаты выдавались просто в хронологическом порядке.

По мнению Хёрст, долгое время целью поиска было нахождение конкретного документа или ресурса. Однако сегодня происходит сдвиг в намерениях пользователей: людям нужен не список ссылок, а прямой ответ на вопрос. Она считает, что это желание существовало всегда, но технологии не позволяли его реализовать.

Пример с Ask Jeeves: Сайт пытался отвечать на вопросы на естественном языке еще на заре интернета, но технология тогда «не работала».
Консервативность Google: Долгое время компания избегала прямых ответов, чтобы не транслировать недостоверную информацию, что Хёрст считает правильным подходом.

🧩 Эволюция интерфейсов: почему «Ask Jeeves» опередил свое время 7:35

Хёрст проводит аналогию между поиском и развитием сенсорных экранов. Люди полюбили тачскрины не потому, что их вкусы изменились, а потому, что технологии наконец смогли поддержать естественные жесты, о которых мечтали десятилетиями. То же самое происходит с ответами на вопросы: LLM стали тем технологическим мостом, который позволил реализовать старую потребность в диалоговом интерфейсе.

Для большинства пользователей возможность общаться с машиной как с человеком — это «морское изменение» (sea change) в технологиях. Хёрст признает, что за 25–30 лет работы в NLP она никогда раньше не называла текущие изменения «трансформационными», но сейчас делает это.

⚡️ Прорыв LLM: прощание с ручным проектированием признаков 9:49

Главное технологическое отличие нынешнего момента, по мнению профессора, заключается в переходе от сложных цепочек специализированных алгоритмов к единой, относительно простой архитектуре. Раньше для каждой задачи NLP — токенизации, выделения сущностей, анализа тональности — требовался отдельный пайплайн, который часто работал нестабильно.

Теперь одна модель выполняет все эти задачи как «побочный эффект» предсказания следующего слова. Хёрст приводит пример с обработкой сравнительных оборотов в текстах. Раньше было крайне сложно написать алгоритм, который понимал бы нюансы сравнения камер в обзорах (например, «у этой модели шире угол, но пиксели менее четкие»). ChatGPT справляется с этим блестяще, хотя он не проектировался специально для анализа потребительских отзывов.

Ведущий Джон отмечает, что LLM фактически «съедают» мир ручного проектирования признаков (feature engineering), заменяя его способностями, которые выглядят как когнитивные.

🖼️ Интерактивные доски ИИ и визуализация данных 12:00

Будущее взаимодействия с ИИ Хёрст видит в концепции «AI whiteboards» (интерактивных ИИ-досок). В рабочей среде люди используют маркерные доски для объяснения сложных идей, сочетая язык и графику. Профессор считает, что мы движемся к мультимодальным моделям, которые смогут выступать полноценными соавторами в мышлении.

Однако Хёрст скептически относится к текущему уровню креативности моделей. Когда она попросила ChatGPT составить план лекции, результат был логичным, но лишенным инноваций и видения будущего.

В контексте визуализации данных Хёрст выделяет несколько ключевых идей:

Разделение модальностей: Визуальные образы объясняют одни вещи, текст — другие. Они не всегда взаимозаменяемы, как книга и фильм.
Проект ScholarPhi: Совместная работа с Эндрю Хедом (Andrew Head) и AI2. Интерфейс позволяет нажать на переменную в сложной математической формуле и мгновенно увидеть её определение, что снимает когнитивную нагрузку с читателя.
Автоматизация визуализации: Хёрст надеется, что новые модели помогут создавать качественные графики по текстовому описанию, избавляя исследователей от необходимости писать сложный код.

🧠 Дискуссия о сознании: тест на антропоморфизм 24:20

Несмотря на впечатляющие возможности моделей, Марти Хёрст категорически не согласна называть их способности «когнитивными». Она предпочитает термин «поведение» или «возможности».

Её основные аргументы:

Проблема масштаба: Человеческий мозг устроен иначе, и в нем происходят процессы, которые не сводятся к простому предсказанию последовательностей.
Эффект антропоморфизма: Люди склонны наделять человеческими чертами любую технологию — даже старые автомобили. Поскольку язык — это сугубо человеческая черта, имитация речи заставляет нас верить в наличие разума у машины.
Скептицизм к «единорогам»: Знаменитый пример из ранних дней GPT-3, где модель написала связную историю о единорогах, не впечатлил Хёрст. Она считает такие примеры «тщательно отобранными» (cherry-picked). По её мнению, генерация сказки — легкая задача, так как её трудно объективно оценить, в отличие от извлечения фактов или суммаризации научных статей.

Профессор признает, что её собственные прогнозы относительно этой технологии были ошибочными — она не ожидала, что простое увеличение параметров и данных приведет к таким результатам. Тем не менее, она упоминает мысленный эксперимент Джона Сёрла «Китайская комната», подчеркивая, что имитация понимания не равна самому пониманию.

🛡️ Будущее исследований: безопасность и человек в центре системы 34:31

В завершение беседы Хёрст подчеркивает важность пересечения ИИ и HCI (человеко-компьютерного взаимодействия). Она обеспокоена тем, что создатели ИИ — часто математики и физики — стремятся «вывести человека из уравнения», чтобы сделать систему чище и проще.

Основные вызовы будущего по версии Хёрст:

Чрезмерное доверие (Over-reliance): Люди начинают слепо полагаться на сгенерированный текст, что опасно в критических сферах, таких как медицина.
Предвзятость и ошибки перевода: Исследования в Беркли показывают, что некорректный машинный перевод в медицинских учреждениях может наносить вред маргинализированным группам населения.
Энергоэффективность: Огромные затраты энергии на обучение моделей — это область, где университетская наука может помочь индустрии найти более экономные решения.

Совет Хёрст будущим исследователям: не гнаться за модой, а искать задачи, где человек и машина дополняют друг друга. Сама она продолжает изучать, как текст на графиках влияет на восприятие информации: недавнее исследование её команды показало, что при прогнозировании результатов выборов люди больше доверяют визуальным данным, чем пояснительному тексту.