# Артур Менш из Mistral AI: почему регулировать нужно приложения, а не математические функции

Источник: https://www.youtube.com/watch?v=NhASk7rZsmU
Канал: a16z (Andreessen Horowitz)
Опубликовано: 28.12.2023

---

В этом выпуске подкаста a16z партнер фонда Анан Майда беседует с Артуром Меншем (Arthur Mensch), сооснователем и CEO компании Mistral AI. Они обсуждают историю создания знаменитой статьи о «законах масштабирования» Chinchilla, переход от закрытых лабораторных исследований к открытому программному обеспечению и технические особенности архитектуры Mixture of Experts (Mixtral), которая обещает сделать искусственный интеллект быстрее и доступнее.

## 📈 Пересмотр законов масштабирования: наследие Chinchilla
[[JUMP:02:10]]

До 2022 года в исследовательском сообществе преобладало мнение, что размер модели — это главный фактор её эффективности. Артур Менш, работая в то время в DeepMind, стал соавтором статьи о модели Chinchilla, которая радикально изменила этот подход [02:47]. Исследование показало, что наборы данных (datasets) имеют гораздо большее значение, чем простое наращивание количества параметров.

Основные выводы исследования Chinchilla:

*   В 2019–2021 годах отрасль ошибочно полагала, что при увеличении вычислительных мощностей в 4 раза нужно в 3,5 раза увеличивать размер модели и лишь незначительно — объем данных [03:01].
*   Менш и его коллеги эмпирически доказали, что при четырехкратном росте вычислений следует удваивать и размер модели, и объем обучающих данных в равной пропорции [04:09].
*   По мнению Менша, это открытие позволило создавать более компактные, но при этом более мощные модели, что стало фундаментом для эффективности современных систем [04:22].

## 🇫🇷 От DeepMind и Meta к созданию Mistral AI
[[JUMP:04:47]]

Команда основателей Mistral AI сформировалась из исследователей, стоявших у истоков ключевых проектов в Google (DeepMind) и Meta. Гийом Лампль (Guillaume Lample) и Тимоте Лакруа (Timothée Lacroix) работали в Meta над созданием Llama, а Артур Менш в DeepMind занимался моделями Gopher, Chinchilla и Flamingo [05:59].

История объединения команды:

*   Основатели знали друг друга давно: Артур и Гийом учились вместе, а с Тимоте Артур познакомился в магистратуре в Париже [05:01].
*   По словам Менша, выпуск ChatGPT стал сигналом о том, что технология готова к массовому внедрению, но требует другого подхода к распространению — через открытый исходный код [06:13].
*   Проект Llama в Meta, в котором участвовали будущие сооснователи Mistral, стал первым публичным подтверждением того, что модели можно «переобучать» (overtrain) на большем количестве токенов, чем диктуют законы Chinchilla, ради эффективности на этапе инференса (вывода) [07:28].

## 🧠 Mixtral и архитектура Mixture of Experts (MoE)
[[JUMP:08:48]]

Mistral AI представила модель Mixtral, использующую технологию Sparse Mixture of Experts (разреженная смесь экспертов). Это решение позволяет значительно снизить стоимость эксплуатации ИИ при сохранении высокой производительности [09:01].

Технические характеристики Mixtral:

*   Общее количество параметров модели составляет 46 миллиардов [09:38].
*   Для обработки каждого конкретного токена активируются только два «эксперта» из восьми [09:53].
*   В результате фактические вычисления производятся только для 12 миллиардов параметров на токен [10:06].
*   По данным Mistral AI, Mixtral не уступает по производительности модели Llama 2 70B, оставаясь при этом в 6 раз быстрее и дешевле в эксплуатации [11:50].

Артур Менш отмечает, что главными сложностями при внедрении MoE были математическая точность обучения и оптимизация обмена данными между экспертами на аппаратном уровне [12:42]. Для поддержки сообщества компания выпустила открытый пакет на базе vLLM для эффективного запуска таких моделей [13:11].

## 🌐 Философия Open Source: идеология и прагматизм
[[JUMP:13:36]]

Выбор в пользу открытого исходного кода в Mistral AI объясняют сочетанием двух факторов. С одной стороны, Менш утверждает, что весь прогресс в области ИИ с 2012 года был обеспечен свободным обменом знаниями между лабораториями [14:16]. С другой — закрытие технологий (как в случае с GPT-3 и последующими моделями) замедляет развитие всей отрасли.

Аргументы Менша в пользу открытости:

1.  **Инновации сообщества.** Разработчики могут изменять веса моделей, изучать активации нейронов и адаптировать ИИ под специфические задачи [16:54].
2.  **Нейтральность.** Mistral придерживается позиции, что базовая модель должна быть нейтральной. Разработчики приложений сами должны внедрять в неё свои инструкции, «конституции» или редакционную политику [17:21].
3.  **Бизнес-модель.** Компания планирует использовать подход Open Core, сочетая бесплатные открытые модели с платными сервисами и поддержкой [15:59].

По оценке Менша, разрыв между открытыми и лучшими проприетарными моделями (такими как GPT-4) на текущий момент составляет около шести месяцев и продолжает сокращаться [18:27].

## 🛡️ Безопасность и регулирование: регулируйте приложения, а не математику
[[JUMP:21:28]]

Одним из самых спорных вопросов в индустрии остается безопасность открытых моделей. Артур Менш категорически не согласен с тем, что Open Source опаснее закрытых API. Он сравнивает современные LLM с печатным станком: они лишь ускоряют доступ к уже существующим в интернете знаниям [21:55].

Позиция Менша по безопасности и госрегулированию:

*   **Безопасность через прозрачность.** Тысячи независимых исследователей (red-teamers), проверяющих открытый код, найдут уязвимости и предвзятости быстрее, чем закрытая команда одной корпорации [24:11].
*   **Регулирование продуктов, а не функций.** Менш настаивает: регулировать нужно конечное приложение (например, медицинского диагностического ассистента), а не базовую математическую модель или язык программирования [28:15].
*   **Независимый контроль.** Чтобы государственные органы могли эффективно проверять ИИ-продукты на безопасность, им необходим доступ к мощным открытым моделям, которыми они владеют сами, а не через API сторонних компаний [25:58].

## 🚀 Будущее ИИ: эффективность данных и новые парадигмы
[[JUMP:31:47]]

Несмотря на успехи, современные модели всё еще крайне неэффективны по сравнению с человеческим мозгом. По оценке Менша, разрыв в эффективности обучения между LLM и мозгом составляет примерно 100 000 крат [32:28].

Ключевые направления развития, по мнению CEO Mistral AI:

1.  **Data Efficiency.** Работа над качеством фильтрации данных станет важнее, чем простое увеличение их объема [32:55].
2.  **Адаптивные вычисления (Adaptive Compute).** Способность модели самостоятельно решать, сколько вычислительных ресурсов потратить на конкретную сложную задачу [33:10].
3.  **Специализация моделей.** В течение пяти лет рынок перейдет от универсальных гигантов к роям (swarms) специализированных компактных моделей, работающих внутри сложных систем [35:39].

Артур Менш прогнозирует, что ИИ полностью изменит способ взаимодействия с интернетом и машинами, сделав его интерактивным и персонализированным [36:17]. Он призывает разработчиков не ждать и начинать строить приложения уже сейчас, используя доступные мощности даже на обычных ноутбуках [37:47].