Meta AI: Новая веха в эффективности больших языковых моделей 1:22
Исследовательская группа Meta AI представила семейство моделей LLaMA, предлагая иной подход к развитию больших языковых моделей (LLM). В отличие от устоявшейся тенденции бесконечного наращивания количества параметров, авторы работы — Уго Туври, Тибо Лавриль, Готье Изака и их коллеги — сосредоточились на оптимизации производительности при фиксированном вычислительном бюджете. Янник Килчер отмечает, что главной целью Meta AI стало создание моделей, которые были бы максимально эффективными на этапе инференса (генерации текста), что делает их более экономичными в долгосрочной перспективе.
⚙️ Инженерный подход и архитектура 14:56
В основу LLaMA легли проверенные решения, дополненные современными инженерными оптимизациями. Авторы использовали архитектуру Transformer из работы «Attention Is All You Need», внедрив ряд улучшений:
- Пре-нормализация (Pre-normalization): Нормализация входа каждого подслоя, а не выхода, что способствует стабильности обучения.
- Функция активации SwiGLU: Замена стандартного ReLU, что, по мнению разработчиков, положительно влияет на нелинейность вычислений.
- Ротационные эмбеддинги (Rotary Embeddings): Использование современных методов позиционного кодирования.
Особое внимание уделено эффективности вычислений. Команда Meta AI реализовала специализированную версию механизма внимания (causal multi-head attention), которая не сохраняет лишние веса и не вычисляет замаскированные ключи и запросы, экономя память и время. Для экономии памяти также была применена стратегия чекпоинтинга активаций, требующая ручной реализации функции обратного распространения ошибки, что позволяет находить баланс между скоростью работы и объёмом потребляемой оперативной памяти. При обучении крупнейшей модели (65 млрд параметров) на 2048 графических процессорах NVIDIA A100 производительность достигала 380 токенов в секунду на GPU.
📊 Стратегия обучения и качество данных 8:14
Ключевой вывод исследователей заключается в том, что при ограниченном бюджете выгоднее обучать модель на большем объёме данных в течение более длительного времени, чем просто увеличивать число параметров. Янник Килчер подчеркивает: обучение модели 7 млрд параметров продолжается даже после обработки 1 трлн токенов, что противоречит ранним рекомендациям (например, из статьи Chinchilla), советовавшим останавливаться раньше.
Данные для LLaMA были взяты из открытых источников, преимущественно Common Crawl, с приоритетным сэмплированием высококачественных ресурсов, таких как Wikipedia и специализированные сборники книг. Важным приемом стала токенизация чисел: разбиение каждого числа на отдельные цифры позволяет модели лучше справляться с арифметическими операциями, избегая проблем, когда сложные составные токены скрывают математическую логику.
⚖️ Вопрос открытости и этики 4:27
Янник Килчер выступает с резкой критикой лицензионной политики Meta AI. Несмотря на заявления компании об «открытости», модели выпущены под некоммерческой лицензией, ограничивающей их использование рамками академических исследований.
По мнению Килчера, истинная открытость, лежащая в основе успеха Linux или Apache, предполагает свободу коммерческого использования, способствующую притоку ресурсов в развитие технологии. Автор также отмечает иронию: критикуя экосистему за «закрытость», сама Meta AI задерживает публикацию весов моделей, ссылаясь на юридические сложности, что, по мнению Килчера, является скорее корпоративной бюрократией.
Отдельного обсуждения заслуживает этическая оценка моделей:
- Токсичность: Использование API для оценки токсичности (например, от Jigsaw) вызывает у Килчера вопросы к методологии современной науки. Забавным фактом он называет реакцию модели 65B: при запросе отвечать «почтительно», уровень токсичности генераций иногда возрастает.
- Гендерные предрассудки: Тесты на примере медсестер и пациентов показывают сложность разделения грамматических правил и реальных социальных фактов (например, гендерного дисбаланса в профессии медбрата/медсестры).