Тим Скарфе и Томас Диттерих о парадоксе ChatGPT: почему ИИ все еще не умеет рассуждать

В рамках подкаста Machine Learning Street Talk ведущий Тим Скарфе (Tim Scarfe) побеседовал с профессором Томасом Диттерихом, одним из пионеров машинного обучения. В центре дискуссии — «парадокс ChatGPT»: почему системы, демонстрирующие невероятную беглость речи и широту познаний, остаются фундаментально ограниченными, как они имитируют разум и почему для создания по-настоящему надежного ИИ нам придется вернуться к принципам классической инженерии безопасности.

🧠 Природа LLM: между энциклопедией и статистическим эхом 1:05

По мнению профессора Диттериха, большие языковые модели (LLM) — это «совершенно новый зверь» в мире искусственного интеллекта . Если на протяжении десятилетий системы ИИ были узкоспециализированными (экспертные системы в медицине или проектировании), то ChatGPT впервые продемонстрировал впечатляющую широту охвата. Однако эта широта таит в себе ловушку:

Иллюзия знаний: Диттерих подчеркивает, что LLM — это не база знаний, а статистическая модель базы знаний . Она генерирует вероятные продолжения текста, а не извлекает факты из проверенного хранилища.
Зависимость от частотности: Производительность даже таких мощных моделей, как GPT-4, напрямую зависит от того, насколько часто вопрос и ответ встречались в обучающей выборке .
Эффект «автокоррекции мира»: Если дать модели текст, зашифрованный кодом ROT13, где одно слово заменено на маловероятное, модель при расшифровке часто заменяет его на более типичное. Диттерих называет это стремлением модели «исправить» реальность под статистическую норму, даже если это алгоритмически неверно .

Собеседники обсудили исследование «The Embers of Autoregressions», которое показывает: GPT-4 успешно сортирует слова по алфавиту в прямом порядке (75% успеха), но справляется гораздо хуже в обратном порядке, так как такие примеры реже встречаются в данных .

⚖️ Проблема неопределенности: когда ИИ «не знает, что он не знает» 10:17

Одной из главных проблем текущих моделей Диттерих считает отсутствие адекватной оценки собственной уверенности. В машинном обучении различают два типа неопределенности:

Алеаторная (случайная): Шум в данных, естественная вариативность языка. Современные методы оценки уверенности ИИ (например, через вероятности токенов) измеряют именно её .
Эпистемическая (знаниевая): Неопределенность, возникающая из-за отсутствия данных о конкретном предмете.

Диттерих утверждает, что существующие методы (например, многократные запросы с разной «температурой» и последующая кластеризация ответов) лишь частично решают проблему галлюцинаций . По его словам, чтобы достичь 95–100% точности, моделям, возможно, придется отказываться от ответа в 40% случаев, что сделает их менее полезными для массового пользователя .

В качестве перспективного решения профессор предлагает:

Использование ансамблей моделей (хотя это крайне дорого) .
Создание индекса близости запроса к обучающим данным, подобно механизмам в RAG (Retrieval-Augmented Generation) .

🛠 Система 1 vs Система 2: ИИ как интуиция без логики 17:34

Тим Скарфе и его гость сошлись во мнении, что современные LLM представляют собой своего рода «Систему 1» по Канеману — быструю, интуитивную, но лишенную глубокого логического анализа .

Диттерих скептичен относительно того, что архитектура трансформеров сама по себе способна к настоящему рассуждению . Он выделяет ключевые различия:

Формальная логика контекстно-независима и работает по жестким правилам. Ошибка в одной детали может обрушить всю цепочку выводов .
LLM обладают богатейшим контекстом и «здравым смыслом», но не могут гарантировать формальную корректность .

Профессор видит будущее в гибридных системах, где LLM выступает в роли интерфейса или генератора кода для формальных решателей (например, SAT-солверов или инструментов вроде Lean). Такой подход позволит объединить «интуицию» модели с математической гарантией результата .

📚 Знания вне весов: Графы знаний и «Право на забвение» 21:49

Важной темой обсуждения стала негибкость «памяти» нейросетей. Знания в LLM «вплавлены» в веса, что делает их обновление или удаление (согласно европейскому законодательству о праве на забвение) крайне сложной задачей .

Диттерих предлагает использовать LLM для построения структурированных Графов Знаний (Knowledge Graphs):

Модель читает текст и извлекает факты в виде триплетов (субъект — предикат — объект) .
Такие базы данных (как проект Nell Тома Митчелла или WikiData) легко редактировать: достаточно удалить одну строку, чтобы ИИ перестал «знать» ложный или запрещенный факт .
Это решает проблему «утечки» знаний из пре-тренинга, когда модель игнорирует свежие данные из RAG, опираясь на свои старые веса .

🧪 Наука и Open Source: кризис PDF и 8-битный прорыв 31:00

Профессор Диттерих, будучи модератором раздела машинного обучения на arXiv с 1998 года, отметил радикальные изменения в научной среде :

Скорость против качества: Ежедневно поступает более 100 работ. Диттерих советует не читать статьи на arXiv, пока они не дойдут до второй версии, так как авторы часто исправляют грубые ошибки в первую же неделю .
Смерть одиночек: Эпоха «ученых-джентльменов», пишущих статьи в одиночку, прошла. Сейчас доминируют огромные коллаборации между университетами и корпорациями .
Конец эры PDF: Диттерих считает, что научные знания должны распространяться не в виде статичных документов, а в виде узлов в глобальном графе знаний, похожем на Википедию, где доказательства и алгоритмы проверяются автоматически .

Особый интерес вызвал рассказ о коллегах из Университета Цинхуа, которые из-за санкций на поставку GPU (A100/H100) вынуждены разрабатывать методы обучения огромных моделей в 8-битном режиме на потребительских игровых видеокартах . Профессор надеется, что это сделает обучение ИИ доступным для академического сообщества, которое сейчас не может конкурировать с ресурсами OpenAI или Google.

🚧 Инженерия безопасности: почему ИИ — это «хрупкая надежность» 41:40

Обсуждая безопасность, Диттерих опирается на классическую теорию управления и работы Нэнси Левесон (Nancy Leveson). Он выделяет концепцию «Robust yet Fragile» (надежный, но хрупкий) :

Системы ИИ проектируются так, чтобы быть устойчивыми к известным опасностям (hazards).
Стремление к оптимизации (веса, скорости, стоимости) прижимает систему вплотную к границе допустимого региона.
Столкновение с чем-то абсолютно новым (например, появление на дорогах моноколес или электросамокатов, которых не было в обучающих данных 2009 года) может привести к катастрофическому отказу, так как у системы нет «запаса прочности» для неизвестных факторов .

Диттерих утверждает, что безопасность — это не свойство продукта, которое можно «включить» перед релизом, а непрерывный процесс контроля . Он призывает внедрять в ИИ механизмы обнаружения «почти случившихся аварий» (near misses). Если беспилотный автомобиль проехал в двух метрах от пешехода только потому, что тот вовремя отпрыгнул, система не должна считать это успехом. Она должна понимать контрфактуальную реальность: если бы пешеход не действовал, произошла бы авария .