В этом выпуске подкаста a16z партнер фонда Анан Майда беседует с Артуром Меншем (Arthur Mensch), сооснователем и CEO компании Mistral AI. Они обсуждают историю создания знаменитой статьи о «законах масштабирования» Chinchilla, переход от закрытых лабораторных исследований к открытому программному обеспечению и технические особенности архитектуры Mixture of Experts (Mixtral), которая обещает сделать искусственный интеллект быстрее и доступнее.
📈 Пересмотр законов масштабирования: наследие Chinchilla 2:10
До 2022 года в исследовательском сообществе преобладало мнение, что размер модели — это главный фактор её эффективности. Артур Менш, работая в то время в DeepMind, стал соавтором статьи о модели Chinchilla, которая радикально изменила этот подход . Исследование показало, что наборы данных (datasets) имеют гораздо большее значение, чем простое наращивание количества параметров.
Основные выводы исследования Chinchilla:
- В 2019–2021 годах отрасль ошибочно полагала, что при увеличении вычислительных мощностей в 4 раза нужно в 3,5 раза увеличивать размер модели и лишь незначительно — объем данных .
- Менш и его коллеги эмпирически доказали, что при четырехкратном росте вычислений следует удваивать и размер модели, и объем обучающих данных в равной пропорции .
- По мнению Менша, это открытие позволило создавать более компактные, но при этом более мощные модели, что стало фундаментом для эффективности современных систем .
🇫🇷 От DeepMind и Meta к созданию Mistral AI 4:47
Команда основателей Mistral AI сформировалась из исследователей, стоявших у истоков ключевых проектов в Google (DeepMind) и Meta. Гийом Лампль (Guillaume Lample) и Тимоте Лакруа (Timothée Lacroix) работали в Meta над созданием Llama, а Артур Менш в DeepMind занимался моделями Gopher, Chinchilla и Flamingo .
История объединения команды:
- Основатели знали друг друга давно: Артур и Гийом учились вместе, а с Тимоте Артур познакомился в магистратуре в Париже .
- По словам Менша, выпуск ChatGPT стал сигналом о том, что технология готова к массовому внедрению, но требует другого подхода к распространению — через открытый исходный код .
- Проект Llama в Meta, в котором участвовали будущие сооснователи Mistral, стал первым публичным подтверждением того, что модели можно «переобучать» (overtrain) на большем количестве токенов, чем диктуют законы Chinchilla, ради эффективности на этапе инференса (вывода) .
🧠 Mixtral и архитектура Mixture of Experts (MoE) 8:48
Mistral AI представила модель Mixtral, использующую технологию Sparse Mixture of Experts (разреженная смесь экспертов). Это решение позволяет значительно снизить стоимость эксплуатации ИИ при сохранении высокой производительности .
Технические характеристики Mixtral:
- Общее количество параметров модели составляет 46 миллиардов .
- Для обработки каждого конкретного токена активируются только два «эксперта» из восьми .
- В результате фактические вычисления производятся только для 12 миллиардов параметров на токен .
- По данным Mistral AI, Mixtral не уступает по производительности модели Llama 2 70B, оставаясь при этом в 6 раз быстрее и дешевле в эксплуатации .
Артур Менш отмечает, что главными сложностями при внедрении MoE были математическая точность обучения и оптимизация обмена данными между экспертами на аппаратном уровне . Для поддержки сообщества компания выпустила открытый пакет на базе vLLM для эффективного запуска таких моделей .
🌐 Философия Open Source: идеология и прагматизм 13:36
Выбор в пользу открытого исходного кода в Mistral AI объясняют сочетанием двух факторов. С одной стороны, Менш утверждает, что весь прогресс в области ИИ с 2012 года был обеспечен свободным обменом знаниями между лабораториями . С другой — закрытие технологий (как в случае с GPT-3 и последующими моделями) замедляет развитие всей отрасли.
Аргументы Менша в пользу открытости:
- Инновации сообщества. Разработчики могут изменять веса моделей, изучать активации нейронов и адаптировать ИИ под специфические задачи .
- Нейтральность. Mistral придерживается позиции, что базовая модель должна быть нейтральной. Разработчики приложений сами должны внедрять в неё свои инструкции, «конституции» или редакционную политику .
- Бизнес-модель. Компания планирует использовать подход Open Core, сочетая бесплатные открытые модели с платными сервисами и поддержкой .
По оценке Менша, разрыв между открытыми и лучшими проприетарными моделями (такими как GPT-4) на текущий момент составляет около шести месяцев и продолжает сокращаться .
🛡️ Безопасность и регулирование: регулируйте приложения, а не математику 21:28
Одним из самых спорных вопросов в индустрии остается безопасность открытых моделей. Артур Менш категорически не согласен с тем, что Open Source опаснее закрытых API. Он сравнивает современные LLM с печатным станком: они лишь ускоряют доступ к уже существующим в интернете знаниям .
Позиция Менша по безопасности и госрегулированию:
- Безопасность через прозрачность. Тысячи независимых исследователей (red-teamers), проверяющих открытый код, найдут уязвимости и предвзятости быстрее, чем закрытая команда одной корпорации .
- Регулирование продуктов, а не функций. Менш настаивает: регулировать нужно конечное приложение (например, медицинского диагностического ассистента), а не базовую математическую модель или язык программирования .
- Независимый контроль. Чтобы государственные органы могли эффективно проверять ИИ-продукты на безопасность, им необходим доступ к мощным открытым моделям, которыми они владеют сами, а не через API сторонних компаний .
🚀 Будущее ИИ: эффективность данных и новые парадигмы 31:47
Несмотря на успехи, современные модели всё еще крайне неэффективны по сравнению с человеческим мозгом. По оценке Менша, разрыв в эффективности обучения между LLM и мозгом составляет примерно 100 000 крат .
Ключевые направления развития, по мнению CEO Mistral AI:
- Data Efficiency. Работа над качеством фильтрации данных станет важнее, чем простое увеличение их объема .
- Адаптивные вычисления (Adaptive Compute). Способность модели самостоятельно решать, сколько вычислительных ресурсов потратить на конкретную сложную задачу .
- Специализация моделей. В течение пяти лет рынок перейдет от универсальных гигантов к роям (swarms) специализированных компактных моделей, работающих внутри сложных систем .
Артур Менш прогнозирует, что ИИ полностью изменит способ взаимодействия с интернетом и машинами, сделав его интерактивным и персонализированным . Он призывает разработчиков не ждать и начинать строить приложения уже сейчас, используя доступные мощности даже на обычных ноутбуках .