Артур Менш из Mistral AI: почему регулировать нужно приложения, а не математические функции

В этом выпуске подкаста a16z партнер фонда Анан Майда беседует с Артуром Меншем (Arthur Mensch), сооснователем и CEO компании Mistral AI. Они обсуждают историю создания знаменитой статьи о «законах масштабирования» Chinchilla, переход от закрытых лабораторных исследований к открытому программному обеспечению и технические особенности архитектуры Mixture of Experts (Mixtral), которая обещает сделать искусственный интеллект быстрее и доступнее.

📈 Пересмотр законов масштабирования: наследие Chinchilla 2:10

До 2022 года в исследовательском сообществе преобладало мнение, что размер модели — это главный фактор её эффективности. Артур Менш, работая в то время в DeepMind, стал соавтором статьи о модели Chinchilla, которая радикально изменила этот подход . Исследование показало, что наборы данных (datasets) имеют гораздо большее значение, чем простое наращивание количества параметров.

Основные выводы исследования Chinchilla:

В 2019–2021 годах отрасль ошибочно полагала, что при увеличении вычислительных мощностей в 4 раза нужно в 3,5 раза увеличивать размер модели и лишь незначительно — объем данных .
Менш и его коллеги эмпирически доказали, что при четырехкратном росте вычислений следует удваивать и размер модели, и объем обучающих данных в равной пропорции .
По мнению Менша, это открытие позволило создавать более компактные, но при этом более мощные модели, что стало фундаментом для эффективности современных систем .

🇫🇷 От DeepMind и Meta к созданию Mistral AI 4:47

Команда основателей Mistral AI сформировалась из исследователей, стоявших у истоков ключевых проектов в Google (DeepMind) и Meta. Гийом Лампль (Guillaume Lample) и Тимоте Лакруа (Timothée Lacroix) работали в Meta над созданием Llama, а Артур Менш в DeepMind занимался моделями Gopher, Chinchilla и Flamingo .

История объединения команды:

Основатели знали друг друга давно: Артур и Гийом учились вместе, а с Тимоте Артур познакомился в магистратуре в Париже .
По словам Менша, выпуск ChatGPT стал сигналом о том, что технология готова к массовому внедрению, но требует другого подхода к распространению — через открытый исходный код .
Проект Llama в Meta, в котором участвовали будущие сооснователи Mistral, стал первым публичным подтверждением того, что модели можно «переобучать» (overtrain) на большем количестве токенов, чем диктуют законы Chinchilla, ради эффективности на этапе инференса (вывода) .

🧠 Mixtral и архитектура Mixture of Experts (MoE) 8:48

Mistral AI представила модель Mixtral, использующую технологию Sparse Mixture of Experts (разреженная смесь экспертов). Это решение позволяет значительно снизить стоимость эксплуатации ИИ при сохранении высокой производительности .

Технические характеристики Mixtral:

Общее количество параметров модели составляет 46 миллиардов .
Для обработки каждого конкретного токена активируются только два «эксперта» из восьми .
В результате фактические вычисления производятся только для 12 миллиардов параметров на токен .
По данным Mistral AI, Mixtral не уступает по производительности модели Llama 2 70B, оставаясь при этом в 6 раз быстрее и дешевле в эксплуатации .

Артур Менш отмечает, что главными сложностями при внедрении MoE были математическая точность обучения и оптимизация обмена данными между экспертами на аппаратном уровне . Для поддержки сообщества компания выпустила открытый пакет на базе vLLM для эффективного запуска таких моделей .

🌐 Философия Open Source: идеология и прагматизм 13:36

Выбор в пользу открытого исходного кода в Mistral AI объясняют сочетанием двух факторов. С одной стороны, Менш утверждает, что весь прогресс в области ИИ с 2012 года был обеспечен свободным обменом знаниями между лабораториями . С другой — закрытие технологий (как в случае с GPT-3 и последующими моделями) замедляет развитие всей отрасли.

Аргументы Менша в пользу открытости:

Инновации сообщества. Разработчики могут изменять веса моделей, изучать активации нейронов и адаптировать ИИ под специфические задачи .
Нейтральность. Mistral придерживается позиции, что базовая модель должна быть нейтральной. Разработчики приложений сами должны внедрять в неё свои инструкции, «конституции» или редакционную политику .
Бизнес-модель. Компания планирует использовать подход Open Core, сочетая бесплатные открытые модели с платными сервисами и поддержкой .

По оценке Менша, разрыв между открытыми и лучшими проприетарными моделями (такими как GPT-4) на текущий момент составляет около шести месяцев и продолжает сокращаться .

🛡️ Безопасность и регулирование: регулируйте приложения, а не математику 21:28

Одним из самых спорных вопросов в индустрии остается безопасность открытых моделей. Артур Менш категорически не согласен с тем, что Open Source опаснее закрытых API. Он сравнивает современные LLM с печатным станком: они лишь ускоряют доступ к уже существующим в интернете знаниям .

Позиция Менша по безопасности и госрегулированию:

Безопасность через прозрачность. Тысячи независимых исследователей (red-teamers), проверяющих открытый код, найдут уязвимости и предвзятости быстрее, чем закрытая команда одной корпорации .
Регулирование продуктов, а не функций. Менш настаивает: регулировать нужно конечное приложение (например, медицинского диагностического ассистента), а не базовую математическую модель или язык программирования .
Независимый контроль. Чтобы государственные органы могли эффективно проверять ИИ-продукты на безопасность, им необходим доступ к мощным открытым моделям, которыми они владеют сами, а не через API сторонних компаний .

🚀 Будущее ИИ: эффективность данных и новые парадигмы 31:47

Несмотря на успехи, современные модели всё еще крайне неэффективны по сравнению с человеческим мозгом. По оценке Менша, разрыв в эффективности обучения между LLM и мозгом составляет примерно 100 000 крат .

Ключевые направления развития, по мнению CEO Mistral AI:

Data Efficiency. Работа над качеством фильтрации данных станет важнее, чем простое увеличение их объема .
Адаптивные вычисления (Adaptive Compute). Способность модели самостоятельно решать, сколько вычислительных ресурсов потратить на конкретную сложную задачу .
Специализация моделей. В течение пяти лет рынок перейдет от универсальных гигантов к роям (swarms) специализированных компактных моделей, работающих внутри сложных систем .

Артур Менш прогнозирует, что ИИ полностью изменит способ взаимодействия с интернетом и машинами, сделав его интерактивным и персонализированным . Он призывает разработчиков не ждать и начинать строить приложения уже сейчас, используя доступные мощности даже на обычных ноутбуках .