# Мегабайты вместо токенов: Революция в архитектуре ИИ от Meta

Источник: https://www.youtube.com/watch?v=8EIqHFFdccA
Канал: The Cognitive Revolution
Опубликовано: 29.06.2023

---

## MEGABYTE: Будущее нейросетевых архитектур без токенизации 🤖
[[JUMP:0:00]]

Исследователь Meta AI Лили Ю (Lili Yu) представила MEGABYTE — новую архитектуру нейросетей, способную работать с последовательностями длиной до миллиона байт. В интервью подкасту *The Cognitive Revolution* автор объясняет, как многомасштабные трансформеры могут полностью исключить стадию токенизации, которая сегодня является «узким местом» в развитии ИИ.

### Проблема токенизации и «головная боль» инженеров
[[JUMP:1:16]]

Традиционные языковые модели, такие как GPT-3 и GPT-4, разбивают текст на токены — фрагменты слов, чисел или символов. Лили Ю называет этот подход «хакерским» методом сжатия данных, который порождает ряд проблем:

*   **Потеря контекста и ошибки генерации:** Токенизаторы часто некорректно обрабатывают пробелы, нестандартные сочетания букв или редкие термины, заставляя модель «галлюцинировать» бессмыслицу.
*   **Сложности с доменами:** Если токенизатор был обучен на общих текстах, он работает неэффективно в узких областях, таких как биохимия или программирование.
*   **Мультимодальность:** Для изображений и аудио существующие методы токенизации (например, VQ-GAN) часто являются «с потерями», что снижает точность передачи деталей.

По мнению Лили Ю, избавление от токенизатора необходимо для создания действительно универсальных мультимодальных систем, где текст, код, музыка и изображения обрабатываются как «сырые» данные.

### Архитектура MEGABYTE: Как это работает
[[JUMP:3:40]]

В отличие от стандартного трансформера, где все слои имеют одинаковый размер, MEGABYTE использует многомасштабный подход.

1.  **Патчи (Patches):** Входные данные (байты) группируются в патчи.
2.  **Глобальная модель:** Основной трансформер оперирует уже сжатыми векторами патчей, что позволяет существенно экономить вычислительные ресурсы.
3.  **Локальные модели:** После того как глобальная модель перемешала данные, локальные модели (работающие параллельно) восстанавливают окончательные байты.

Такой дизайн позволяет модели обрабатывать последовательности длиной в 1 миллион байт, что в десятки раз превышает возможности современных моделей, работающих с токенами.

### Преимущества и вычислительная эффективность
[[JUMP:11:11]]

Лили Ю подчеркивает, что MEGABYTE предлагает сразу несколько ключевых преимуществ:

*   **Масштабируемость:** Архитектура обладает более привлекательными законами масштабирования и позволяет эффективно работать с очень длинными контекстами.
*   **Параллелизация:** Локальные модели могут работать параллельно, что ускоряет обучение.
*   **Универсальность:** Система доказала свою эффективность не только в тексте, но и при моделировании аудио и изображений, достигая уровня State-of-the-Art (SOTA).

На вопрос о том, не теряется ли «вдумчивость» модели при такой фрагментации, гость отмечает, что в ходе обучения на каждом шаге (на каждом байте) модель получает сигнал функции потерь, что делает процесс обучения очень эффективным.

### Будущее и вызовы: От математики до безопасности
[[JUMP:113:16]]

Основная задача Meta AI на текущем этапе — масштабирование MEGABYTE до размеров модели LLaMA. Лили Ю выражает оптимизм, что именно этот переход позволит решить проблемы моделей с математическими вычислениями и сложным программированием, где текущая токенизация часто мешает логическим рассуждениям.

В контексте дискуссий о безопасности ИИ, Лили Ю отметила, что команда Meta AI придерживается принципов «открытой науки». Несмотря на то что процесс подготовки моделей к публикации стал значительно строже (с использованием фильтров и ответственных проверок), в Meta убеждены, что развитие безопасного ИИ требует коллективных усилий всего научного сообщества, а не горстки закрытых лабораторий.