MEGABYTE: Будущее нейросетевых архитектур без токенизации 🤖 0:00
Исследователь Meta AI Лили Ю (Lili Yu) представила MEGABYTE — новую архитектуру нейросетей, способную работать с последовательностями длиной до миллиона байт. В интервью подкасту The Cognitive Revolution автор объясняет, как многомасштабные трансформеры могут полностью исключить стадию токенизации, которая сегодня является «узким местом» в развитии ИИ.
Проблема токенизации и «головная боль» инженеров 1:16
Традиционные языковые модели, такие как GPT-3 и GPT-4, разбивают текст на токены — фрагменты слов, чисел или символов. Лили Ю называет этот подход «хакерским» методом сжатия данных, который порождает ряд проблем:
- Потеря контекста и ошибки генерации: Токенизаторы часто некорректно обрабатывают пробелы, нестандартные сочетания букв или редкие термины, заставляя модель «галлюцинировать» бессмыслицу.
- Сложности с доменами: Если токенизатор был обучен на общих текстах, он работает неэффективно в узких областях, таких как биохимия или программирование.
- Мультимодальность: Для изображений и аудио существующие методы токенизации (например, VQ-GAN) часто являются «с потерями», что снижает точность передачи деталей.
По мнению Лили Ю, избавление от токенизатора необходимо для создания действительно универсальных мультимодальных систем, где текст, код, музыка и изображения обрабатываются как «сырые» данные.
Архитектура MEGABYTE: Как это работает 3:40
В отличие от стандартного трансформера, где все слои имеют одинаковый размер, MEGABYTE использует многомасштабный подход.
- Патчи (Patches): Входные данные (байты) группируются в патчи.
- Глобальная модель: Основной трансформер оперирует уже сжатыми векторами патчей, что позволяет существенно экономить вычислительные ресурсы.
- Локальные модели: После того как глобальная модель перемешала данные, локальные модели (работающие параллельно) восстанавливают окончательные байты.
Такой дизайн позволяет модели обрабатывать последовательности длиной в 1 миллион байт, что в десятки раз превышает возможности современных моделей, работающих с токенами.
Преимущества и вычислительная эффективность 11:11
Лили Ю подчеркивает, что MEGABYTE предлагает сразу несколько ключевых преимуществ:
- Масштабируемость: Архитектура обладает более привлекательными законами масштабирования и позволяет эффективно работать с очень длинными контекстами.
- Параллелизация: Локальные модели могут работать параллельно, что ускоряет обучение.
- Универсальность: Система доказала свою эффективность не только в тексте, но и при моделировании аудио и изображений, достигая уровня State-of-the-Art (SOTA).
На вопрос о том, не теряется ли «вдумчивость» модели при такой фрагментации, гость отмечает, что в ходе обучения на каждом шаге (на каждом байте) модель получает сигнал функции потерь, что делает процесс обучения очень эффективным.
Будущее и вызовы: От математики до безопасности
Основная задача Meta AI на текущем этапе — масштабирование MEGABYTE до размеров модели LLaMA. Лили Ю выражает оптимизм, что именно этот переход позволит решить проблемы моделей с математическими вычислениями и сложным программированием, где текущая токенизация часто мешает логическим рассуждениям.
В контексте дискуссий о безопасности ИИ, Лили Ю отметила, что команда Meta AI придерживается принципов «открытой науки». Несмотря на то что процесс подготовки моделей к публикации стал значительно строже (с использованием фильтров и ответственных проверок), в Meta убеждены, что развитие безопасного ИИ требует коллективных усилий всего научного сообщества, а не горстки закрытых лабораторий.