Мегабайты вместо токенов: Революция в архитектуре ИИ от Meta

MEGABYTE: Будущее нейросетевых архитектур без токенизации 🤖 0:00

Исследователь Meta AI Лили Ю (Lili Yu) представила MEGABYTE — новую архитектуру нейросетей, способную работать с последовательностями длиной до миллиона байт. В интервью подкасту The Cognitive Revolution автор объясняет, как многомасштабные трансформеры могут полностью исключить стадию токенизации, которая сегодня является «узким местом» в развитии ИИ.

Проблема токенизации и «головная боль» инженеров 1:16

Традиционные языковые модели, такие как GPT-3 и GPT-4, разбивают текст на токены — фрагменты слов, чисел или символов. Лили Ю называет этот подход «хакерским» методом сжатия данных, который порождает ряд проблем:

Потеря контекста и ошибки генерации: Токенизаторы часто некорректно обрабатывают пробелы, нестандартные сочетания букв или редкие термины, заставляя модель «галлюцинировать» бессмыслицу.
Сложности с доменами: Если токенизатор был обучен на общих текстах, он работает неэффективно в узких областях, таких как биохимия или программирование.
Мультимодальность: Для изображений и аудио существующие методы токенизации (например, VQ-GAN) часто являются «с потерями», что снижает точность передачи деталей.

По мнению Лили Ю, избавление от токенизатора необходимо для создания действительно универсальных мультимодальных систем, где текст, код, музыка и изображения обрабатываются как «сырые» данные.

Архитектура MEGABYTE: Как это работает 3:40

В отличие от стандартного трансформера, где все слои имеют одинаковый размер, MEGABYTE использует многомасштабный подход.

Патчи (Patches): Входные данные (байты) группируются в патчи.
Глобальная модель: Основной трансформер оперирует уже сжатыми векторами патчей, что позволяет существенно экономить вычислительные ресурсы.
Локальные модели: После того как глобальная модель перемешала данные, локальные модели (работающие параллельно) восстанавливают окончательные байты.

Такой дизайн позволяет модели обрабатывать последовательности длиной в 1 миллион байт, что в десятки раз превышает возможности современных моделей, работающих с токенами.

Преимущества и вычислительная эффективность 11:11

Лили Ю подчеркивает, что MEGABYTE предлагает сразу несколько ключевых преимуществ:

Масштабируемость: Архитектура обладает более привлекательными законами масштабирования и позволяет эффективно работать с очень длинными контекстами.
Параллелизация: Локальные модели могут работать параллельно, что ускоряет обучение.
Универсальность: Система доказала свою эффективность не только в тексте, но и при моделировании аудио и изображений, достигая уровня State-of-the-Art (SOTA).

На вопрос о том, не теряется ли «вдумчивость» модели при такой фрагментации, гость отмечает, что в ходе обучения на каждом шаге (на каждом байте) модель получает сигнал функции потерь, что делает процесс обучения очень эффективным.

Будущее и вызовы: От математики до безопасности

Основная задача Meta AI на текущем этапе — масштабирование MEGABYTE до размеров модели LLaMA. Лили Ю выражает оптимизм, что именно этот переход позволит решить проблемы моделей с математическими вычислениями и сложным программированием, где текущая токенизация часто мешает логическим рассуждениям.

В контексте дискуссий о безопасности ИИ, Лили Ю отметила, что команда Meta AI придерживается принципов «открытой науки». Несмотря на то что процесс подготовки моделей к публикации стал значительно строже (с использованием фильтров и ответственных проверок), в Meta убеждены, что развитие безопасного ИИ требует коллективных усилий всего научного сообщества, а не горстки закрытых лабораторий.