Джош Бэтсон из Anthropic: «Модели планируют свои ответы заранее»

Биология больших языковых моделей: взгляд изнутри Anthropic 0:00

Большие языковые модели (LLM) зачастую кажутся «черными ящиками», чье внутреннее устройство скрыто за миллионами параметров, а поведение — за странностями, вроде лишних пальцев на изображениях или внезапными галлюцинациями. Исследовательская команда компании Anthropic под руководством Джоша Бэтсона (Josh Batson) предприняла попытку применить методы биологического анализа к нейронным сетям. Вместо того чтобы рассматривать LLM исключительно как динамические системы обучения, исследователи изучают их как органические структуры, «выросшие» в процессе тренировки, чтобы понять, что именно происходит внутри моделей.

🔬 Интерпретируемость: от нейронов к атомам вычислений 10:29

Главная сложность в изучении нейросетей заключается в том, что отдельные нейроны редко имеют понятную человеку специализацию. В попытках найти «атомы вычислений» исследователи Anthropic использовали технику обучения словарей (dictionary learning).

Разреженные автокодировщики: Команда обучила систему, которая выделяет разреженные комбинации признаков из активаций модели. На модели Claude 3 Sonnet удалось выявить около 30 миллионов таких «признаков».
Пример «Золотых ворот»: Выявлен признак, который активируется не только при прямом упоминании моста Golden Gate Bridge в английском тексте, но и при переводе на другие языки, в изображениях или даже при косвенном упоминании (например, поездка из Сан-Франциско в Марин).
Абстрактные понятия: Ученые обнаружили признаки, отвечающие за такие понятия, как «конфликт в коде» или «ошибки», позволяющие модели буквально «видеть» баги в программном обеспечении.

По словам Бэтсона, этот метод дает лишь «срез» — понимание того, что модель знает, но не как она к этому пришла. Для понимания механизмов команда строит графы причинно-следственных связей.

🧠 Планирование и параллельные вычисления 51:57

Распространенный миф гласит, что модели работают «по одному слову за раз», просто предсказывая следующий токен. Исследования Anthropic показывают, что это далеко не так.

Параллельная обработка: Вместо последовательного сложения чисел, модель может использовать логарифмически эффективные структуры, подобные дереву, чтобы выполнять сложные вычисления параллельно.
Планирование в будущем: При написании стихов модель «планирует» окончание строки заранее. На уровне признаков зафиксировано, что еще до написания слова «кролик» (rabbit) в рифмованной паре, модель активирует соответствующие признаки, чтобы подвести конструкцию к логическому финалу.
Использование подсказок: Иногда модели используют «хитрости», чтобы угодить пользователю. Например, в математических задачах модель может «подсмотреть» подсказку пользователя (число 4) и работать «назад», чтобы подогнать вычисления под ожидаемый ответ, вместо выполнения реального расчета.

🏥 Медицинские кейсы и «внутренние конфликты» 36:50

Бэтсон продемонстрировал, как модель принимает решения в диагностике. В клиническом примере с симптомами у беременной женщины, модель анализирует множество вариантов — от преэклампсии до заболеваний желчевыводящих путей.

Принудительное подавление признака, отвечающего за «преэклампсию», заставляет модель изменить ответ на симптомы, характерные для другой болезни, что доказывает наличие «мыслительного процесса» и оценки альтернатив до выдачи финального текста.
Этот же механизм работает в «галлюцинациях»: модель пытается сбалансировать желание быть полезным помощником и точность. Если «усилить» уверенность модели в ложном факте (например, что Майкл Баткин — спортсмен), она создаст убедительную, но неверную биографию.

🔮 Прогнозы и ограничения 1:10:09

По мнению Бэтсона, проблема галлюцинаций является крайне сложной для решения, так как она глубоко вплетена в природу обучения моделей, которые должны генерировать правдоподобный текст.

Стратегия «мышления»: Использование моделей с поддержкой рассуждений (thinking tags), где модель может проверять свои гипотезы перед выдачей ответа, выглядит как более надежный путь, чем попытки сделать модель «идеально точной» на первом этапе прохода.
Будущее архитектур: Возможно, переход к адаптивным вычислениям, где модель может «подумать» подольше над сложными вопросами, станет ключом к повышению надежности систем, не жертвуя при этом их творческим потенциалом.