Трей Коллмер о будущем Transformer: токены пауз, аналогический промптинг и Ring Attention

В новом выпуске подкаста The Cognitive Revolution ведущий Нейтан Лабенс и эксперт Трей Коллмер (Trey Kollmer) анализируют последние научные прорывы в архитектуре нейросетей. Основное внимание уделено методам расширения контекстного окна до миллионов токенов и внедрению механизмов «обдумывания» внутри Transformer, что может радикально изменить производительность ИИ.

🧠 Механизм «паузы»: как заставить ИИ думать перед ответом 1:05

Одним из наиболее перспективных направлений оптимизации моделей Transformer является внедрение так называемых «токенов паузы» (pause tokens). Трей Коллмер ссылается на совместное исследование Google и Университета Карнеги-Меллона под названием «Think before you speak: Training Language Models with Pause Tokens» .

Суть метода заключается в следующем:

Проблема немедленного вывода: Стандартные языковые модели генерируют токены последовательно, один за другим. На генерацию каждого следующего токена уходит ограниченное количество вычислительных векторов (hidden vectors) .
Идея «пространства для размышлений»: Что если позволить модели манипулировать, например, десятью дополнительными скрытыми векторами, прежде чем выводить фактический следующий токен?
Реализация: Вместо того чтобы сразу выдавать ответ, модель вставляет пустые токены паузы. Это не классическая цепочка рассуждений (Chain of Thought), где мы видим логику, а скрытый процесс накопления информации .

Трей Коллмер подчеркивает, что этот подход уже демонстрирует улучшение производительности в бенчмарках на логику и математику . Тем не менее, эксперт отмечает важный недостаток: потерю интерпретируемости. В отличие от Chain of Thought, где человек может проверить ход мыслей модели, «паузы» остаются для исследователей «черным ящиком» .

Интересный факт: метод работает эффективнее, если интегрировать его на этапе предварительного обучения (pre-training), а не только при дообучении (fine-tuning) .

🧩 Аналогический промптинг: ИИ как собственная база данных 12:38

Трей Коллмер обсуждает новую технику под названием «аналогический промптинг» (analogical prompting), которая превосходит классический Few-shot Chain of Thought (обучение на нескольких примерах с цепочкой рассуждений) .

Основные этапы работы этого метода:

Постановка задачи: Модели предъявляется проблема.
Эвристический вызов: Вместо того чтобы пользователь давал примеры, модель просят самой вспомнить и сгенерировать релевантные задачи с решениями .
Финальное решение: Модель решает исходную задачу, опираясь на ею же созданные примеры.

По мнению Трея Коллмера, это похоже на «Self-RAG» (самостоятельную генерацию с расширенным поиском), где модель использует свои веса как базу данных . Он приводит аналогию с учеником средней школы: когда ему дают задачу на вычисление площади квадрата, он не смотрит на случайные примеры по математике, а вспоминает конкретную формулу и алгоритм, который уже знает .

Техническая деталь: эксперт упоминает, что для моделей OpenAI лучше всего работают инструкции в формате Markdown, тогда как Anthropic официально рекомендует использовать XML-теги для моделей Claude .

🌊 StreamingLLM: бесконечный диалог без потери памяти 26:00

Исследователи из Meta представили технологию StreamingLLM, которая позволяет языковым моделям обрабатывать тексты огромной длины, буквально в миллионы токенов, без значительного падения качества .

Главное открытие этого исследования — феномен «аттеншн-синков» (attention sinks):

Наблюдение: Было замечено, что модели при генерации сосредоточены либо на самых последних токенах, либо на самых первых (начале документа) .
Механизм внимания: Поскольку сумма внимания всегда должна быть равна единице, модель сбрасывает «ненужное» внимание на первые токены, даже если они не несут смысла для текущей фразы .
Решение: Если при использовании «скользящего окна» внимания (sliding window) всегда сохранять первые несколько токенов («синки»), модель остается когерентной и не «взрывается» даже при обработке сверхдлинных транскриптов .

Трей Коллмер отмечает, что этот метод можно ретроспективно применить ко многим существующим моделям с открытым кодом, таким как Llama 2 или Falcon, без их переобучения .

💍 Ring Attention: путь к 10 миллионам токенов 39:47

Самым глубоким технологическим прорывом выпуска стало обсуждение алгоритма Ring Attention. Трей Коллмер цитирует Имада Муштака (ex-Stability AI), который заявил, что подобные исследования могут сократить глобальные потребности в вычислительных мощностях для обучения ИИ на 10% .

Технические особенности Ring Attention:

Линейное масштабирование: Этот метод позволяет масштабировать длину контекста линейно в зависимости от количества устройств (GPU), избавляясь от квадратичной сложности традиционного внимания .
Эффективность: Переход от 4 000 токенов к 10 миллионам на модели в 175 миллиардов параметров требует лишь в 150 раз больше вычислений (что значительно меньше ожидаемого роста при классическом подходе) .
Точность: Это не аппроксимация, а полноценное вычисление «каждый к каждому» (all-to-all attention), но оптимизированное на уровне передачи данных между GPU .

По словам Трея Коллмера, это открывает дорогу к «сверхчеловеческой производительности». Если модель с контекстом в 10 миллионов токенов сможет за один раз проанализировать 100 книг или полные данные о взаимодействии ДНК, она начнет находить связи, которые не способен уловить ни один эксперт-человек .

🔮 Будущее Transformer: сжатая память и планирование 52:42

В завершение дискуссии Трей Коллмер и Нейтан Лабенс делятся прогнозами относительно следующего поколения систем. Основной концепт — внедрение «сжатой исторической записи» (compressed historical record) .

Гость предполагает, что будущие модели будут комбинировать:

Токены памяти: Специальные токены (по аналогии с паузами), которые хранят высокоуровневые концептуальные представления о прошлых частях диалога, не занимая лишнего места в контекстном окне .
Динамический контекст: Возможность «подгружать» детализированные данные из «базы данных истории» только тогда, когда модель осознает их необходимость .

Трей Коллмер утверждает, что такие системы сделают ИИ более похожим на человека: мы не помним каждую букву в прочитанном романе, но имеем четкое ассоциативное представление о сюжете, к которому можем обратиться при необходимости .