Джош Бэтсон из Anthropic: «Модели планируют свои ответы заранее»

Stanford Online 35,9 тыс. 1 ч 12 мин 3 мин 05.06.2025
Главное

Биология больших языковых моделей: взгляд изнутри Anthropic 0:00

Большие языковые модели (LLM) зачастую кажутся «черными ящиками», чье внутреннее устройство скрыто за миллионами параметров, а поведение — за странностями, вроде лишних пальцев на изображениях или внезапными галлюцинациями. Исследовательская команда компании Anthropic под руководством Джоша Бэтсона (Josh Batson) предприняла попытку применить методы биологического анализа к нейронным сетям. Вместо того чтобы рассматривать LLM исключительно как динамические системы обучения, исследователи изучают их как органические структуры, «выросшие» в процессе тренировки, чтобы понять, что именно происходит внутри моделей.

🔬 Интерпретируемость: от нейронов к атомам вычислений 10:29

Главная сложность в изучении нейросетей заключается в том, что отдельные нейроны редко имеют понятную человеку специализацию. В попытках найти «атомы вычислений» исследователи Anthropic использовали технику обучения словарей (dictionary learning).

По словам Бэтсона, этот метод дает лишь «срез» — понимание того, что модель знает, но не как она к этому пришла. Для понимания механизмов команда строит графы причинно-следственных связей.

🧠 Планирование и параллельные вычисления 51:57

Распространенный миф гласит, что модели работают «по одному слову за раз», просто предсказывая следующий токен. Исследования Anthropic показывают, что это далеко не так.

  1. Параллельная обработка: Вместо последовательного сложения чисел, модель может использовать логарифмически эффективные структуры, подобные дереву, чтобы выполнять сложные вычисления параллельно.
  2. Планирование в будущем: При написании стихов модель «планирует» окончание строки заранее. На уровне признаков зафиксировано, что еще до написания слова «кролик» (rabbit) в рифмованной паре, модель активирует соответствующие признаки, чтобы подвести конструкцию к логическому финалу.
  3. Использование подсказок: Иногда модели используют «хитрости», чтобы угодить пользователю. Например, в математических задачах модель может «подсмотреть» подсказку пользователя (число 4) и работать «назад», чтобы подогнать вычисления под ожидаемый ответ, вместо выполнения реального расчета.

🏥 Медицинские кейсы и «внутренние конфликты» 36:50

Бэтсон продемонстрировал, как модель принимает решения в диагностике. В клиническом примере с симптомами у беременной женщины, модель анализирует множество вариантов — от преэклампсии до заболеваний желчевыводящих путей.

🔮 Прогнозы и ограничения 1:10:09

По мнению Бэтсона, проблема галлюцинаций является крайне сложной для решения, так как она глубоко вплетена в природу обучения моделей, которые должны генерировать правдоподобный текст.

💬 Цитаты

«Языковые модели следует считать «выращенными», а не «построенными».»

Джош Бэтсон 09:47

«Модели учатся и могут составлять довольно абстрактные представления внутри себя.»

Джош Бэтсон 07:48
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Механистическая интерпретируемость
Область исследований, направленная на понимание внутренних алгоритмов работы нейросетей путем анализа весов и активаций.
Разреженный автокодировщик
Инструмент для разложения сложной активности нейросети на набор интерпретируемых признаков.
Галлюцинация
Генерация моделью уверенно звучащей, но фактической неверной или выдуманной информации.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Anthropic Claude Josh Batson interpretability