Как мыслят языковые модели и почему код учит ИИ логике

Как именно мыслят современные языковые модели — воспроизводят ли они подлинные логические рассуждения или просто искусно извлекают куски данных из памяти? В новом выпуске подкаста Machine Learning Street Talk исследователь искусственного интеллекта Лора Руис (Laura Ruis) делится результатами своей знаковой работы, посвященной процедурным знаниям в претрейне, и подробно разбирает природу агентности, структуры мышления и скрытых механизмов ИИ.

🧠 Процедурные знания против простого запоминания 4:06

В сообществе разработчиков и исследователей искусственного интеллекта не утихают споры о реальных возможностях больших языковых моделей (LLM). Некоторые эксперты, такие как Суббарао Камбхампати, называют классические LLM «движками приблизительного поиска» (approximate retrieval engines), а новые архитектуры вроде OpenAI o1 — «движками приблизительного рассуждения». Чтобы внести научную ясность в этот вопрос, Лора Руис совместно с коллегами из Университетского колледжа Лондона (UCL) и компании Cohere провела исследование под названием «Procedural Knowledge in Pre-training Drives Reasoning in Large Language Models».

Главная цель работы заключалась в том, чтобы понять, что именно происходит, когда модель выдает логическую цепочку ответов (zero-shot reasoning traces). Опирается ли ИИ на точные шаги, которые он уже видел в обучающей выборке, или же он выучил некую общую стратегию? В современных реалиях классическое разделение на обучающую (train) и тестовую (test) выборки утеряно, поскольку модели обучаются практически на всем доступном массиве данных интернета.

Для верификации авторы выделили два типа задач:

Фактологические задачи (Fact Retrieval): извлечение атомарных знаний, например, ответы на вопросы «какая гора самая высокая?» или «в каком году открылась библиотека Януса?».
Задачи на рассуждение (Reasoning): многошаговые процессы, такие как двухэтапная арифметика ($7 - 4 \times 8$), вычисление наклона прямой между двумя точками в двумерном пространстве или решение линейных уравнений относительно $X$.

📊 Как работают функции влияния и «диффузное» мышление 5:37

Для анализа вклада обучающих данных исследователи применили методы робастной статистики, а именно функции влияния (influence functions). Этот инструмент позволяет ответить на контрфактический вопрос: как изменилось бы поведение модели и логарифмическое правдоподобие ее ответов, если бы конкретный документ был полностью удален из претрейна? Полноценное переобучение нейросети для каждой точки данных вычислительно невозможно, поэтому функции влияния служат оптимальным математическим приближением.

В ходе экспериментов обнаружилось принципиальное различие в механизмах обработки фактов и логики:

Фокусированное извлечение фактов: влияние обучающих документов на фактологические вопросы оказалось изолированным. Если документ помогал ответить на один конкретный факт, это никак не предсказывало его полезность для другого факта. Извлечение фактов опирается на разрозненные, строго определенные источники.
Диффузное процедурное знание: в задачах на рассуждение (например, при вычислении наклона линии) одни и те же документы оказывали одинаковое влияние на разные пулы вопросов, даже если в них использовались совершенно другие числа.

Именно это свойство авторы назвали процедурными знаниями (procedural knowledge). Модель не просто запоминает конкретные примеры, а синтезирует абстрактное понимание структуры задачи из множества документов, содержащих логические процессы. По мнению Лоры Руис, способность извлекать знания из миллионов разных источников и применять их к единой абстрактной задаче можно по праву назвать формой рассуждения, хотя она и не гарантирует автоматического успеха в других областях, таких как индукция.

💻 Неожиданная роль кода в развитии логики 11:53

Одним из самых интригующих открытий исследования стало аномальное воздействие кода на общие когнитивные способности ИИ. Тексты программ, скачанные со Stack Overflow и репозиториев, оказались единственным типом документов, который системно и мощно влиял — как положительно, так и отрицательно — на абсолютно все виды логических задач.

Лора Руис призналась, что провела много дней, пытаясь найти скрытые паттерны внутри кодовых данных, но природа этого феномена до сих пор остается не до конца ясной. Ведущий предположил, что код является идеальной материализацией человеческих когнических процессов: мы решаем проблему в уме, а затем жестко фиксируем алгоритм в коде.

Это открытие имеет серьезные последствия для индустрии:

Такие компании, как OpenAI и Anthropic, уже давно инициализируют свои текстовые модели на корпусах, предварительно обученных на коде, что подтверждает общую конвенциональную мудрость.
Модель способна обучаться исполнению текстовых математических процедур, просто читая чисто описательный код (например, скрипт на Python для расчета наклона линии).
Для эффективной генерации синтетических данных выгоднее создавать разнообразные описания алгоритмов и процедур, а не только плодить миллиарды примеров их пошагового применения.

Как отмечает гостья, обилие разнообразных реализаций одной и той же логики в коде обеспечивает модели высокую робастность (устойчивость) к формулировкам, в то время как отсутствие факта в претрейне делает задачу его извлечения принципиально невыполнимой.

🧩 Композициональность, Хофштадтер и спор о «языке мыслей» 15:37

Обсуждая абстракцию, собеседники обратились к идеям Дугласа Хофштадтера, автора книги «Поверхности и сущности», который определял абстракцию как «мешок аналогий». Человеческий мозг не оперирует строгими математическими дефинициями; вместо этого активируются миллионы нейронных путей, создавая размытое, контекстное понимание. Лора Руис провела аналогию с Людвигом Витгенштейном, утверждавшим, что значение слова определяется его употреблением в контексте и не имеет четких фиксированных границ.

Это подводит к историческому спору философов и лингвистов. Ричард Монтегю пытался формализовать естественный язык, наложив на него строгую композициональность (когда смысл целого жестко собран из частей). В ответ Джерри Фодор предложил более гибкую концепцию систематичности. Если человеку назвать незнакомое слово flips в контексте «вчера ночью я съел отличные flips», он мгновенно догадается, что это еда или десерт, и сможет использовать слово в других предложениях.

Языковые модели, по мнению Лоры Руис, успешны именно потому, что они не являются чистыми формальными символическими системами, а аппроксимируют эту гибкую человеческую систематичность. Ссылаясь на исследование когнитивного лингвиста Эвелины Федоренко 2020 года, Руис напомнила, что люди с тяжелыми формами афазии (разрушения языковой системы) могут оставаться гроссмейстерами и прекрасно играть в шахматы. Это, на ее взгляд, окончательно опровергает старую теорию Ноама Хомского и Фодора о том, что «язык и есть мышление». Язык — это лишь композиционный инструмент, облегчающий выражение некомпозиционных мыслей.

🤖 Что такое агентность: от термометра до контроля над будущим 45:22

Проблема агентности ИИ вызывает серьезные опасения у пионеров индустрии. Так, Йошуа Бенджио утверждает, что наделение систем агентностью несет колоссальные риски, поскольку они могут выйти из-под контроля, преследуя собственные автономные цели. Лора Руис согласилась с этой опасностью, отметив, что при равенстве возможностей всегда предпочла бы видеть ИИ в роли безопасного инструмента, а не независимого агента. Однако гостья сомневается, что человечество сможет достичь подлинно высокого уровня искусственного интеллекта без внедрения элементов агентности.

Собеседники выделили несколько подходов к определению этого феномена:

Поведенческий (бихевиористский) подход: Зак Кентон из DeepMind определяет агента как систему, которая меняет свою стратегию (policy), когда ее действия начинают иначе влиять на окружающую среду. Лора считает это определение слишком тривиальным, поскольку простую связку из нескольких LLM можно легко заставить соответствовать данному критерию.
Кибернетический подход: Лора Руис определяет агента как сущность, предпринимающую действия в условиях неопределенности с целью контроля своих собственных будущих входных данных (сигналов среды). Это позволяет отделить полноценного агента от простых детерминированных рефлексов.
Подход жесткого автомата: соавтор подкаста доктор Дугар предлагает строгое математическое определение агентности как автомата, принимающего сигналы из среды, выполняющего вычисления (в рамках иерархии Хомского и машин Тьюринга) и совершающего действия, модифицирующие среду.

По мнению Лоры Руис, строго технический взгляд упускает самое главное — гибкое планирование и способность действовать в условиях неопределенности. В рамках теорий активного вывода (active inference) Карла Фристона, Элиезера Юдковского и Иоши Баха глубина агентства напрямую измеряется «горизонтом планирования» и способностью контролировать будущее.

🎬 Эксперимент Хайдера — Зиммеля и иллюзия намерений 58:15

Говоря о восприятии агентности, Лора Руис подчеркнула, что эта концепция во многом является субъективной абстракцией, заложенной в человеческую когнитивную прошивку как примитив для разделения мира. В качестве доказательства она привела знаменитый психологический эксперимент Фрица Хайдера и Марианны Зиммель 1944 года.

В этом коротком анимационном видео на плоскости перемещаются три геометрические фигуры: большой треугольник, маленький треугольник и кружок, а также изображена коробка с открывающейся дверью. Человеческий мозг мгновенно достраивает социальный сюжет:

Большой треугольник воспринимается как «злой», «агрессивный» преследователь.
Маленький треугольник кажется «напуганным», пытающимся спастись в коробке.

Несмотря на то, что это всего лишь бездушные двумерные объекты, двигающиеся по заданным координатам, люди на автомате приписывают им намерения, цели и характер. Точно так же, по мнению Руис, мы склонны очеловечивать ИИ. Существует фундаментальное различие между обычным термометром и живым агентом, но строгие формулировки часто стирают эту грань, заставляя нас искать ментальные состояния там, где их нет.

👥 Симуляторы, супер-агенты и коллективный разум 1:03:22

Анализируя внутреннюю структуру LLM, Лора Руис выразила восхищение концепцией «языковых моделей как симуляторов», предложенной исследователем Janus, а также научной статьей Джейкоба Андреаса «Language Models as Agent Models». В рамках этой парадигмы нейросеть рассматривается не как монолитная личность, а как суперпозиция огромного количества различных агентов и ролей, извлеченных из обучающих текстов.

Такой подход элегантно объясняет как успехи ИИ, так и его провалы. Модель пытается минимизировать функцию потерь при предсказании следующего токена. Для этого ей жизненно необходимо смоделировать цели и скрытые намерения автора текста (например, если текст написан с целью убеждения). При этом, как показывают свежие исследования с конференции NeurIPS, ИИ не способен удерживать выбранную роль и оставаться «в образе» так же долго и когерентно, как это делают люди.

Собеседники сошлись во мнении, что агентность может носить нефизический и коллективный характер:

Виртуальными агентами можно назвать мемы, корпорации, религии или даже вирусы (например, динамическое равновесие между гриппом и COVID-19 в популяции).
Крупная компания на верхнем уровне демонстрирует эмерджентное поведение и ценности, которые невозможно объяснить простой суммой качеств работающих там сотрудников.

По оценке Лоры Руис, цели и смыслы внутри таких суперструктур циркулируют в обоих направлениях: они одновременно пузырятся снизу вверх (от людей к системе) и спускаются сверху вниз (когда ценности бренда начинают формировать поведение отдельных работников).

🛡️ Безопасность ИИ и «незаметный» апокалипсис 1:07:56

В финальной части интервью Лора Руис поделилась своим взглядом на экзистенциальные угрозы. Она призналась, что не берется строить точные прогнозы относительно сроков появления сильного ИИ (AGI), но не ожидает радикального технологического перелома в ближайшие три года, указывая на медленную адаптацию общества и фундаментальную ненадежность текущих систем.

Гостья выделила три ключевые зоны риска:

Лишение людей субъектности и автономии под воздействием алгоритмов.
Доступ злоумышленников к созданию химического оружия и бомб с помощью ИИ-подсказок.
Обретение искусственным интеллектом собственных опасных инструментальных целей.

Тем не менее, наибольшую тревогу у исследовательницы вызывает не восстание машин, а неравный доступ (skewed access) к технологиям и несправедливое распределение плодов автоматизации, что является следствием текущей политической и экономической конфигурации мира. Также серьезную опасность, по ее мнению, представляет постепенная передача контроля над критической инфраструктурой «глупым» и неэффективным ИИ-системам.

Лора Руис убеждена, что у человечества не будет яркого «сигнала тревоги» перед катастрофой. Процесс подчинения алгоритмам будет ползучим и незаметным — точно так же, как общество когда-то внедрило рекомендательные алгоритмы Facebook, не осознав вовремя их разрушительного влияния на выборы и психику людей. Мы ищем угрозу внутри кода языковой модели, но в реальности пугающим коллективным разумом становится вся глобальная система «человек-алгоритм», управлять которой мы пока не научились.