# Трей Коллмер о будущем Transformer: токены пауз, аналогический промптинг и Ring Attention

Источник: https://www.youtube.com/watch?v=2QGQWWA3mVU
Канал: The Cognitive Revolution
Опубликовано: 20.10.2023

---

В новом выпуске подкаста *The Cognitive Revolution* ведущий Нейтан Лабенс и эксперт **Трей Коллмер (Trey Kollmer)** анализируют последние научные прорывы в архитектуре нейросетей. Основное внимание уделено методам расширения контекстного окна до миллионов токенов и внедрению механизмов «обдумывания» внутри Transformer, что может радикально изменить производительность ИИ.

## 🧠 Механизм «паузы»: как заставить ИИ думать перед ответом
[[JUMP:01:05]]

Одним из наиболее перспективных направлений оптимизации моделей Transformer является внедрение так называемых «токенов паузы» (pause tokens). Трей Коллмер ссылается на совместное исследование Google и Университета Карнеги-Меллона под названием *«Think before you speak: Training Language Models with Pause Tokens»* [01:19].

Суть метода заключается в следующем:

*   **Проблема немедленного вывода:** Стандартные языковые модели генерируют токены последовательно, один за другим. На генерацию каждого следующего токена уходит ограниченное количество вычислительных векторов (hidden vectors) [02:00].
*   **Идея «пространства для размышлений»:** Что если позволить модели манипулировать, например, десятью дополнительными скрытыми векторами, прежде чем выводить фактический следующий токен? [02:15]
*   **Реализация:** Вместо того чтобы сразу выдавать ответ, модель вставляет пустые токены паузы. Это не классическая цепочка рассуждений (Chain of Thought), где мы видим логику, а скрытый процесс накопления информации [03:08].

Трей Коллмер подчеркивает, что этот подход уже демонстрирует улучшение производительности в бенчмарках на логику и математику [03:50]. Тем не менее, эксперт отмечает важный недостаток: потерю интерпретируемости. В отличие от Chain of Thought, где человек может проверить ход мыслей модели, «паузы» остаются для исследователей «черным ящиком» [06:08]. 

Интересный факт: метод работает эффективнее, если интегрировать его на этапе предварительного обучения (pre-training), а не только при дообучении (fine-tuning) [09:13].

## 🧩 Аналогический промптинг: ИИ как собственная база данных
[[JUMP:12:38]]

Трей Коллмер обсуждает новую технику под названием «аналогический промптинг» (analogical prompting), которая превосходит классический Few-shot Chain of Thought (обучение на нескольких примерах с цепочкой рассуждений) [12:51].

Основные этапы работы этого метода:

1.  **Постановка задачи:** Модели предъявляется проблема.
2.  **Эвристический вызов:** Вместо того чтобы пользователь давал примеры, модель просят самой вспомнить и сгенерировать релевантные задачи с решениями [13:34].
3.  **Финальное решение:** Модель решает исходную задачу, опираясь на ею же созданные примеры.

По мнению Трея Коллмера, это похоже на «Self-RAG» (самостоятельную генерацию с расширенным поиском), где модель использует свои веса как базу данных [17:03]. Он приводит аналогию с учеником средней школы: когда ему дают задачу на вычисление площади квадрата, он не смотрит на случайные примеры по математике, а вспоминает конкретную формулу и алгоритм, который уже знает [22:01].

Техническая деталь: эксперт упоминает, что для моделей OpenAI лучше всего работают инструкции в формате Markdown, тогда как Anthropic официально рекомендует использовать XML-теги для моделей Claude [23:21].

## 🌊 StreamingLLM: бесконечный диалог без потери памяти
[[JUMP:26:00]]

Исследователи из Meta представили технологию *StreamingLLM*, которая позволяет языковым моделям обрабатывать тексты огромной длины, буквально в миллионы токенов, без значительного падения качества [26:13]. 

Главное открытие этого исследования — феномен «аттеншн-синков» (attention sinks):

*   **Наблюдение:** Было замечено, что модели при генерации сосредоточены либо на самых последних токенах, либо на самых первых (начале документа) [28:11].
*   **Механизм внимания:** Поскольку сумма внимания всегда должна быть равна единице, модель сбрасывает «ненужное» внимание на первые токены, даже если они не несут смысла для текущей фразы [29:35].
*   **Решение:** Если при использовании «скользящего окна» внимания (sliding window) всегда сохранять первые несколько токенов («синки»), модель остается когерентной и не «взрывается» даже при обработке сверхдлинных транскриптов [31:58].

Трей Коллмер отмечает, что этот метод можно ретроспективно применить ко многим существующим моделям с открытым кодом, таким как Llama 2 или Falcon, без их переобучения [37:06].

## 💍 Ring Attention: путь к 10 миллионам токенов
[[JUMP:39:47]]

Самым глубоким технологическим прорывом выпуска стало обсуждение алгоритма *Ring Attention*. Трей Коллмер цитирует Имада Муштака (ex-Stability AI), который заявил, что подобные исследования могут сократить глобальные потребности в вычислительных мощностях для обучения ИИ на 10% [40:01].

Технические особенности Ring Attention:

*   **Линейное масштабирование:** Этот метод позволяет масштабировать длину контекста линейно в зависимости от количества устройств (GPU), избавляясь от квадратичной сложности традиционного внимания [43:18].
*   **Эффективность:** Переход от 4 000 токенов к 10 миллионам на модели в 175 миллиардов параметров требует лишь в 150 раз больше вычислений (что значительно меньше ожидаемого роста при классическом подходе) [43:45].
*   **Точность:** Это не аппроксимация, а полноценное вычисление «каждый к каждому» (all-to-all attention), но оптимизированное на уровне передачи данных между GPU [42:25].

По словам Трея Коллмера, это открывает дорогу к «сверхчеловеческой производительности». Если модель с контекстом в 10 миллионов токенов сможет за один раз проанализировать 100 книг или полные данные о взаимодействии ДНК, она начнет находить связи, которые не способен уловить ни один эксперт-человек [49:53].

## 🔮 Будущее Transformer: сжатая память и планирование
[[JUMP:52:42]]

В завершение дискуссии Трей Коллмер и Нейтан Лабенс делятся прогнозами относительно следующего поколения систем. Основной концепт — внедрение «сжатой исторической записи» (compressed historical record) [55:08].

Гость предполагает, что будущие модели будут комбинировать:

1.  **Токены памяти:** Специальные токены (по аналогии с паузами), которые хранят высокоуровневые концептуальные представления о прошлых частях диалога, не занимая лишнего места в контекстном окне [58:37].
2.  **Динамический контекст:** Возможность «подгружать» детализированные данные из «базы данных истории» только тогда, когда модель осознает их необходимость [56:54].

Трей Коллмер утверждает, что такие системы сделают ИИ более похожим на человека: мы не помним каждую букву в прочитанном романе, но имеем четкое ассоциативное представление о сюжете, к которому можем обратиться при необходимости [1:00:35].