Трей Коллмер о будущем Transformer: токены пауз, аналогический промптинг и Ring Attention

The Cognitive Revolution 541 1 ч 3 мин 4 мин 20.10.2023
Главное

В новом выпуске подкаста The Cognitive Revolution ведущий Нейтан Лабенс и эксперт Трей Коллмер (Trey Kollmer) анализируют последние научные прорывы в архитектуре нейросетей. Основное внимание уделено методам расширения контекстного окна до миллионов токенов и внедрению механизмов «обдумывания» внутри Transformer, что может радикально изменить производительность ИИ.

🧠 Механизм «паузы»: как заставить ИИ думать перед ответом 1:05

Одним из наиболее перспективных направлений оптимизации моделей Transformer является внедрение так называемых «токенов паузы» (pause tokens). Трей Коллмер ссылается на совместное исследование Google и Университета Карнеги-Меллона под названием «Think before you speak: Training Language Models with Pause Tokens» .

Суть метода заключается в следующем:

Трей Коллмер подчеркивает, что этот подход уже демонстрирует улучшение производительности в бенчмарках на логику и математику . Тем не менее, эксперт отмечает важный недостаток: потерю интерпретируемости. В отличие от Chain of Thought, где человек может проверить ход мыслей модели, «паузы» остаются для исследователей «черным ящиком» .

Интересный факт: метод работает эффективнее, если интегрировать его на этапе предварительного обучения (pre-training), а не только при дообучении (fine-tuning) .

🧩 Аналогический промптинг: ИИ как собственная база данных 12:38

Трей Коллмер обсуждает новую технику под названием «аналогический промптинг» (analogical prompting), которая превосходит классический Few-shot Chain of Thought (обучение на нескольких примерах с цепочкой рассуждений) .

Основные этапы работы этого метода:

  1. Постановка задачи: Модели предъявляется проблема.
  2. Эвристический вызов: Вместо того чтобы пользователь давал примеры, модель просят самой вспомнить и сгенерировать релевантные задачи с решениями .
  3. Финальное решение: Модель решает исходную задачу, опираясь на ею же созданные примеры.

По мнению Трея Коллмера, это похоже на «Self-RAG» (самостоятельную генерацию с расширенным поиском), где модель использует свои веса как базу данных . Он приводит аналогию с учеником средней школы: когда ему дают задачу на вычисление площади квадрата, он не смотрит на случайные примеры по математике, а вспоминает конкретную формулу и алгоритм, который уже знает .

Техническая деталь: эксперт упоминает, что для моделей OpenAI лучше всего работают инструкции в формате Markdown, тогда как Anthropic официально рекомендует использовать XML-теги для моделей Claude .

🌊 StreamingLLM: бесконечный диалог без потери памяти 26:00

Исследователи из Meta представили технологию StreamingLLM, которая позволяет языковым моделям обрабатывать тексты огромной длины, буквально в миллионы токенов, без значительного падения качества .

Главное открытие этого исследования — феномен «аттеншн-синков» (attention sinks):

Трей Коллмер отмечает, что этот метод можно ретроспективно применить ко многим существующим моделям с открытым кодом, таким как Llama 2 или Falcon, без их переобучения .

💍 Ring Attention: путь к 10 миллионам токенов 39:47

Самым глубоким технологическим прорывом выпуска стало обсуждение алгоритма Ring Attention. Трей Коллмер цитирует Имада Муштака (ex-Stability AI), который заявил, что подобные исследования могут сократить глобальные потребности в вычислительных мощностях для обучения ИИ на 10% .

Технические особенности Ring Attention:

По словам Трея Коллмера, это открывает дорогу к «сверхчеловеческой производительности». Если модель с контекстом в 10 миллионов токенов сможет за один раз проанализировать 100 книг или полные данные о взаимодействии ДНК, она начнет находить связи, которые не способен уловить ни один эксперт-человек .

🔮 Будущее Transformer: сжатая память и планирование 52:42

В завершение дискуссии Трей Коллмер и Нейтан Лабенс делятся прогнозами относительно следующего поколения систем. Основной концепт — внедрение «сжатой исторической записи» (compressed historical record) .

Гость предполагает, что будущие модели будут комбинировать:

  1. Токены памяти: Специальные токены (по аналогии с паузами), которые хранят высокоуровневые концептуальные представления о прошлых частях диалога, не занимая лишнего места в контекстном окне .
  2. Динамический контекст: Возможность «подгружать» детализированные данные из «базы данных истории» только тогда, когда модель осознает их необходимость .

Трей Коллмер утверждает, что такие системы сделают ИИ более похожим на человека: мы не помним каждую букву в прочитанном романе, но имеем четкое ассоциативное представление о сюжете, к которому можем обратиться при необходимости .

💬 Цитаты

«10 миллионов токенов дают возможность поместить целые пласты литературы в один единственный токен.»

Трей Коллмер 46:24

«Это может стать моментом перехода к сверхчеловеческой производительности — изучению вещей, которые эксперты не знают.»

Трей Коллмер 50:00
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Токены паузы (Pause Tokens)
Специальные пустые токены, вставляемые в процесс генерации, чтобы дать модели больше вычислительных циклов перед ответом.
Attention Sink
Феномен, при котором языковая модель переносит избыточное внимание на первые токены текста для поддержания стабильности.
Ring Attention
Алгоритм распределения вычислений внимания между несколькими GPU, позволяющий обрабатывать сверхдлинные последовательности.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Transformer Ring Attention StreamingLLM Трей Коллмер OpenAI