OpenAI vs. DeepSeek vs. Qwen: архитектурная битва LLM

Y Combinator 31,7 тыс. 12 мин 3 мин 29.08.2025
Главное

Архитектурная гонка: OpenAI, DeepSeek и Qwen в ландшафте открытых моделей 0:00

Индустрия искусственного интеллекта переживает период бурного развития открытых весов (open weights), где такие гиганты, как OpenAI, DeepSeek и Alibaba Cloud, соревнуются в эффективности и архитектурных инновациях. Видео от Y Combinator анализирует ключевые подходы этих лабораторий, подчеркивая, что за схожими бенчмарками скрываются принципиально разные инженерные решения.

🧠 OpenAI и модель GPT OSS: возвращение к открытости 0:25

OpenAI представила GPT OSS — свою первую модель с открытыми весами со времен GPT-2 (2019 год). Это смесь экспертов (MoE), доступная в версиях на 120 млрд и 20 млрд параметров.

По словам ведущего, модель поставляется в квантованном формате, что делает её доступной для запуска на потребительском «железе». Примечательно, что OpenAI провела существенную работу по посттрейну для безопасности, хотя энтузиасты уже экспериментируют с удалением этих слоев для доступа к «сырым» возможностям модели.

☁️ Qwen 3: масштабируемость от Alibaba 2:41

Семейство моделей Qwen 3 от Alibaba Cloud, выпущенное в апреле, предложило рынку как плотные (dense), так и разреженные (MoE) конфигурации.

Ведущий отмечает, что использование алгоритма GRPO (разработанного исследователями DeepSeek) на всего 4000 пар данных для усиления логических способностей является «потрясающим» результатом.

🚀 DeepSeek V3.1: смена экономических правил 6:43

DeepSeek V3, выпущенная в декабре, стала одним из самых амбициозных проектов, изменивших представления об экономике тренировки LLM.

⚖️ Итоговый анализ: эмпирика против первой теории 10:35

Ведущий выделяет несколько критических наблюдений относительно текущего состояния AI-разработок:

  1. Эмпирический характер: Лаборатории чаще делятся комбинациями инструментов, которые «просто работают», не предоставляя фундаментального обоснования, почему один метод (например, MLA против GQA) объективно лучше.
  2. Разнообразие путей: Поразительно, что при схожих топовых результатах модели достигают их через радикально отличающиеся архитектурные решения.
  3. Данные как ров (moat): Инженерия данных является самым непрозрачным и, вероятно, наиболее важным аспектом, который защищает компании от прямого копирования их продуктов конкурентами.

Ведущий советует разработчикам не концентрироваться исключительно на бенчмарках или размере контекста, а изучать конкретные методы, которыми лаборатории добиваются результатов.

💬 Цитаты

«Deepseek — это фундаментальное изменение экономики того, что происходит.»

Ведущий Y Combinator 06:56

«Я нахожу очаровательным, что требуется всего 4000 пар для получения отличных результатов.»

Ведущий Y Combinator 05:53
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
MoE (Mixture of Experts)
Архитектура нейросети, где для обработки каждого токена активируется только часть параметров (экспертов), а не вся модель.
GQA (Grouped Query Attention)
Метод оптимизации внимания, при котором несколько голов внимания разделяют одни и те же пары ключ-значение.
RoPE (Rotary Positional Embeddings)
Метод кодирования позиции токенов, помогающий модели лучше обрабатывать длинные последовательности.
MLA (Multi-head Latent Attention)
Техника DeepSeek для сжатия ключей и значений в латентное пространство перед кэшированием.
Yarn
Метод расширения контекстного окна путем изменения частотных характеристик RoPE.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект OpenAI DeepSeek Qwen mixture of experts LLM architecture