Артур Менш из Mistral AI: почему регулировать нужно приложения, а не математические функции

a16z (Andreessen Horowitz) 7,4 тыс. 38 мин 5 мин 28.12.2023
Главное

В этом выпуске подкаста a16z партнер фонда Анан Майда беседует с Артуром Меншем (Arthur Mensch), сооснователем и CEO компании Mistral AI. Они обсуждают историю создания знаменитой статьи о «законах масштабирования» Chinchilla, переход от закрытых лабораторных исследований к открытому программному обеспечению и технические особенности архитектуры Mixture of Experts (Mixtral), которая обещает сделать искусственный интеллект быстрее и доступнее.

📈 Пересмотр законов масштабирования: наследие Chinchilla 2:10

До 2022 года в исследовательском сообществе преобладало мнение, что размер модели — это главный фактор её эффективности. Артур Менш, работая в то время в DeepMind, стал соавтором статьи о модели Chinchilla, которая радикально изменила этот подход . Исследование показало, что наборы данных (datasets) имеют гораздо большее значение, чем простое наращивание количества параметров.

Основные выводы исследования Chinchilla:

🇫🇷 От DeepMind и Meta к созданию Mistral AI 4:47

Команда основателей Mistral AI сформировалась из исследователей, стоявших у истоков ключевых проектов в Google (DeepMind) и Meta. Гийом Лампль (Guillaume Lample) и Тимоте Лакруа (Timothée Lacroix) работали в Meta над созданием Llama, а Артур Менш в DeepMind занимался моделями Gopher, Chinchilla и Flamingo .

История объединения команды:

🧠 Mixtral и архитектура Mixture of Experts (MoE) 8:48

Mistral AI представила модель Mixtral, использующую технологию Sparse Mixture of Experts (разреженная смесь экспертов). Это решение позволяет значительно снизить стоимость эксплуатации ИИ при сохранении высокой производительности .

Технические характеристики Mixtral:

Артур Менш отмечает, что главными сложностями при внедрении MoE были математическая точность обучения и оптимизация обмена данными между экспертами на аппаратном уровне . Для поддержки сообщества компания выпустила открытый пакет на базе vLLM для эффективного запуска таких моделей .

🌐 Философия Open Source: идеология и прагматизм 13:36

Выбор в пользу открытого исходного кода в Mistral AI объясняют сочетанием двух факторов. С одной стороны, Менш утверждает, что весь прогресс в области ИИ с 2012 года был обеспечен свободным обменом знаниями между лабораториями . С другой — закрытие технологий (как в случае с GPT-3 и последующими моделями) замедляет развитие всей отрасли.

Аргументы Менша в пользу открытости:

  1. Инновации сообщества. Разработчики могут изменять веса моделей, изучать активации нейронов и адаптировать ИИ под специфические задачи .
  2. Нейтральность. Mistral придерживается позиции, что базовая модель должна быть нейтральной. Разработчики приложений сами должны внедрять в неё свои инструкции, «конституции» или редакционную политику .
  3. Бизнес-модель. Компания планирует использовать подход Open Core, сочетая бесплатные открытые модели с платными сервисами и поддержкой .

По оценке Менша, разрыв между открытыми и лучшими проприетарными моделями (такими как GPT-4) на текущий момент составляет около шести месяцев и продолжает сокращаться .

🛡️ Безопасность и регулирование: регулируйте приложения, а не математику 21:28

Одним из самых спорных вопросов в индустрии остается безопасность открытых моделей. Артур Менш категорически не согласен с тем, что Open Source опаснее закрытых API. Он сравнивает современные LLM с печатным станком: они лишь ускоряют доступ к уже существующим в интернете знаниям .

Позиция Менша по безопасности и госрегулированию:

🚀 Будущее ИИ: эффективность данных и новые парадигмы 31:47

Несмотря на успехи, современные модели всё еще крайне неэффективны по сравнению с человеческим мозгом. По оценке Менша, разрыв в эффективности обучения между LLM и мозгом составляет примерно 100 000 крат .

Ключевые направления развития, по мнению CEO Mistral AI:

  1. Data Efficiency. Работа над качеством фильтрации данных станет важнее, чем простое увеличение их объема .
  2. Адаптивные вычисления (Adaptive Compute). Способность модели самостоятельно решать, сколько вычислительных ресурсов потратить на конкретную сложную задачу .
  3. Специализация моделей. В течение пяти лет рынок перейдет от универсальных гигантов к роям (swarms) специализированных компактных моделей, работающих внутри сложных систем .

Артур Менш прогнозирует, что ИИ полностью изменит способ взаимодействия с интернетом и машинами, сделав его интерактивным и персонализированным . Он призывает разработчиков не ждать и начинать строить приложения уже сейчас, используя доступные мощности даже на обычных ноутбуках .

💬 Цитаты

«Модель — это на самом деле язык программирования для приложений.»

Артур Менш 27:34

«Мы не делаем мир менее безопасным, обеспечивая более интерактивный доступ к знаниям. Это история человечества — от изобретения печатного станка до интернета.»

Артур Менш 21:55

«В конечном итоге поле ИИ станет гораздо более открытым, потому что для выхода за пределы текущих моделей нам нужны новые парадигмы исследований.»

Артур Менш 19:18
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Mixture of Experts (MoE)
Архитектура нейросети, где для каждого входящего сигнала активируется только часть параметров (экспертов), что экономит вычислительные ресурсы.
Chinchilla Scaling Laws
Законы, определяющие оптимальное соотношение размера модели и количества обучающих данных для достижения максимальной эффективности.
Inference (инференс)
Процесс использования уже обученной модели для получения предсказаний или генерации текста.
DPO (Direct Preference Optimization)
Метод дообучения моделей на основе предпочтений человека без использования сложных систем вознаграждения.
📊 Цифры
🗓 Хронология
  1. 2019-2020 Доминирование первых «законов масштабирования», призывавших бесконечно наращивать размер моделей.
  2. 2021 Разработка и публикация статьи Chinchilla в DeepMind, пересмотревшей подход к данным.
  3. Май 2023 Артур Менш покидает DeepMind для основания Mistral AI.
  4. 5 июня 2023 Официальное начало работы команды Mistral AI.
  5. Сентябрь 2023 Релиз Mistral 7B — компактной и мощной открытой модели.
  6. Декабрь 2023 Релиз Mixtral (MoE), обеспечивающей прорыв в эффективности инференса.
⚖️ Другая сторона
Искусственный интеллект Mistral AI Arthur Mensch Mixtral Open Source AI Chinchilla scaling laws