Мегабайты вместо токенов: Революция в архитектуре ИИ от Meta

The Cognitive Revolution 1,3 тыс. 1 ч 32 мин 2 мин 29.06.2023
Главное

MEGABYTE: Будущее нейросетевых архитектур без токенизации 🤖 0:00

Исследователь Meta AI Лили Ю (Lili Yu) представила MEGABYTE — новую архитектуру нейросетей, способную работать с последовательностями длиной до миллиона байт. В интервью подкасту The Cognitive Revolution автор объясняет, как многомасштабные трансформеры могут полностью исключить стадию токенизации, которая сегодня является «узким местом» в развитии ИИ.

Проблема токенизации и «головная боль» инженеров 1:16

Традиционные языковые модели, такие как GPT-3 и GPT-4, разбивают текст на токены — фрагменты слов, чисел или символов. Лили Ю называет этот подход «хакерским» методом сжатия данных, который порождает ряд проблем:

По мнению Лили Ю, избавление от токенизатора необходимо для создания действительно универсальных мультимодальных систем, где текст, код, музыка и изображения обрабатываются как «сырые» данные.

Архитектура MEGABYTE: Как это работает 3:40

В отличие от стандартного трансформера, где все слои имеют одинаковый размер, MEGABYTE использует многомасштабный подход.

  1. Патчи (Patches): Входные данные (байты) группируются в патчи.
  2. Глобальная модель: Основной трансформер оперирует уже сжатыми векторами патчей, что позволяет существенно экономить вычислительные ресурсы.
  3. Локальные модели: После того как глобальная модель перемешала данные, локальные модели (работающие параллельно) восстанавливают окончательные байты.

Такой дизайн позволяет модели обрабатывать последовательности длиной в 1 миллион байт, что в десятки раз превышает возможности современных моделей, работающих с токенами.

Преимущества и вычислительная эффективность 11:11

Лили Ю подчеркивает, что MEGABYTE предлагает сразу несколько ключевых преимуществ:

На вопрос о том, не теряется ли «вдумчивость» модели при такой фрагментации, гость отмечает, что в ходе обучения на каждом шаге (на каждом байте) модель получает сигнал функции потерь, что делает процесс обучения очень эффективным.

Будущее и вызовы: От математики до безопасности

Основная задача Meta AI на текущем этапе — масштабирование MEGABYTE до размеров модели LLaMA. Лили Ю выражает оптимизм, что именно этот переход позволит решить проблемы моделей с математическими вычислениями и сложным программированием, где текущая токенизация часто мешает логическим рассуждениям.

В контексте дискуссий о безопасности ИИ, Лили Ю отметила, что команда Meta AI придерживается принципов «открытой науки». Несмотря на то что процесс подготовки моделей к публикации стал значительно строже (с использованием фильтров и ответственных проверок), в Meta убеждены, что развитие безопасного ИИ требует коллективных усилий всего научного сообщества, а не горстки закрытых лабораторий.

💬 Цитаты

«Трансформеры — это лишь одна архитектура, как и человеческий мозг — лишь одна архитектура, и ни то, ни другое не является концом истории.»

Нейтан Лебенс 03:40

«Мы действительно хотим избавиться от головной боли, связанной с токенизатором.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Токенизация
Процесс разбиения текста на фиксированный набор фрагментов перед подачей в нейросеть.
BPE (Byte Pair Encoding)
Алгоритм, часто используемый для токенизации, который разбивает редкие слова на более мелкие составляющие.
Мультимодальность
Способность модели работать с разными типами данных (текст, аудио, видео, изображения) в рамках одной архитектуры.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Meta AI MEGABYTE Lili Yu Transformers Tokenization