Янник Килчер о LLaMA: «Инженерный триумф, ограниченный лицензией»

Yannic Kilcher 92,7 тыс. 41 мин 2 мин 02.03.2023
Главное

Meta AI: Новая веха в эффективности больших языковых моделей 1:22

Исследовательская группа Meta AI представила семейство моделей LLaMA, предлагая иной подход к развитию больших языковых моделей (LLM). В отличие от устоявшейся тенденции бесконечного наращивания количества параметров, авторы работы — Уго Туври, Тибо Лавриль, Готье Изака и их коллеги — сосредоточились на оптимизации производительности при фиксированном вычислительном бюджете. Янник Килчер отмечает, что главной целью Meta AI стало создание моделей, которые были бы максимально эффективными на этапе инференса (генерации текста), что делает их более экономичными в долгосрочной перспективе.

⚙️ Инженерный подход и архитектура 14:56

В основу LLaMA легли проверенные решения, дополненные современными инженерными оптимизациями. Авторы использовали архитектуру Transformer из работы «Attention Is All You Need», внедрив ряд улучшений:

Особое внимание уделено эффективности вычислений. Команда Meta AI реализовала специализированную версию механизма внимания (causal multi-head attention), которая не сохраняет лишние веса и не вычисляет замаскированные ключи и запросы, экономя память и время. Для экономии памяти также была применена стратегия чекпоинтинга активаций, требующая ручной реализации функции обратного распространения ошибки, что позволяет находить баланс между скоростью работы и объёмом потребляемой оперативной памяти. При обучении крупнейшей модели (65 млрд параметров) на 2048 графических процессорах NVIDIA A100 производительность достигала 380 токенов в секунду на GPU.

📊 Стратегия обучения и качество данных 8:14

Ключевой вывод исследователей заключается в том, что при ограниченном бюджете выгоднее обучать модель на большем объёме данных в течение более длительного времени, чем просто увеличивать число параметров. Янник Килчер подчеркивает: обучение модели 7 млрд параметров продолжается даже после обработки 1 трлн токенов, что противоречит ранним рекомендациям (например, из статьи Chinchilla), советовавшим останавливаться раньше.

Данные для LLaMA были взяты из открытых источников, преимущественно Common Crawl, с приоритетным сэмплированием высококачественных ресурсов, таких как Wikipedia и специализированные сборники книг. Важным приемом стала токенизация чисел: разбиение каждого числа на отдельные цифры позволяет модели лучше справляться с арифметическими операциями, избегая проблем, когда сложные составные токены скрывают математическую логику.

⚖️ Вопрос открытости и этики 4:27

Янник Килчер выступает с резкой критикой лицензионной политики Meta AI. Несмотря на заявления компании об «открытости», модели выпущены под некоммерческой лицензией, ограничивающей их использование рамками академических исследований.

По мнению Килчера, истинная открытость, лежащая в основе успеха Linux или Apache, предполагает свободу коммерческого использования, способствующую притоку ресурсов в развитие технологии. Автор также отмечает иронию: критикуя экосистему за «закрытость», сама Meta AI задерживает публикацию весов моделей, ссылаясь на юридические сложности, что, по мнению Килчера, является скорее корпоративной бюрократией.

Отдельного обсуждения заслуживает этическая оценка моделей:

💬 Цитаты

«Мы все строим на фундаменте открытого программного обеспечения, без которого нас бы здесь не было.»

Янник Килчер 7:06

«Если обучать достаточно большие модели достаточно долго на качественных данных, получится хороший результат.»

Янник Килчер 4:15
👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Инференс
Процесс использования уже обученной модели для получения предсказаний или генерации текста.
Токен
Минимальная единица текста, на которой обучается модель (слово, часть слова или символ).
SwiGLU
Функция активации, используемая в нейросетях для введения нелинейности, улучшающая обучение Transformer.
Чекпоинтинг активаций
Техника экономии памяти, при которой промежуточные результаты вычислений не хранятся, а пересчитываются заново.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект LLaMA Meta AI Yannic Kilcher Transformer