# OpenAI vs. DeepSeek vs. Qwen: архитектурная битва LLM

Источник: https://www.youtube.com/watch?v=raTbhtKZTZA
Канал: Y Combinator
Опубликовано: 29.08.2025

---

## Архитектурная гонка: OpenAI, DeepSeek и Qwen в ландшафте открытых моделей
[[JUMP:0:00]]

Индустрия искусственного интеллекта переживает период бурного развития открытых весов (open weights), где такие гиганты, как OpenAI, DeepSeek и Alibaba Cloud, соревнуются в эффективности и архитектурных инновациях. Видео от Y Combinator анализирует ключевые подходы этих лабораторий, подчеркивая, что за схожими бенчмарками скрываются принципиально разные инженерные решения.

### 🧠 OpenAI и модель GPT OSS: возвращение к открытости
[[JUMP:0:25]]

OpenAI представила GPT OSS — свою первую модель с открытыми весами со времен GPT-2 (2019 год). Это смесь экспертов (MoE), доступная в версиях на 120 млрд и 20 млрд параметров.

*   **Архитектурные особенности:** Модель использует архитектуру decoder-only transformer. При каждом запросе активируются «топ-4» эксперта, что оптимизирует производительность.
*   **Оптимизация внимания:** Применяется Grouped Query Attention (GQA), позволяющая нескольким головам внимания использовать общие пары ключ-значение, что ускоряет инференс.
*   **Контекстное окно:** GPT OSS поддерживает 131 000 токенов, достигая этого за счет применения технологии Yarn (Yet Another RoPE extension) непосредственно на этапе претрейна, а не как надстройки для инференса.
*   **Токенизация и данные:** Используется токенизатор O200K, аналогичный применяемому в GPT-4o. Обучение проходило на массиве из триллионов токенов с упором на STEM и программирование.

По словам ведущего, модель поставляется в квантованном формате, что делает её доступной для запуска на потребительском «железе». Примечательно, что OpenAI провела существенную работу по посттрейну для безопасности, хотя энтузиасты уже экспериментируют с удалением этих слоев для доступа к «сырым» возможностям модели.

### ☁️ Qwen 3: масштабируемость от Alibaba
[[JUMP:2:41]]

Семейство моделей Qwen 3 от Alibaba Cloud, выпущенное в апреле, предложило рынку как плотные (dense), так и разреженные (MoE) конфигурации.

*   **Гибкость архитектуры:** Плотные модели представлены в 7 размерных классах (начиная с 6 млрд параметров), а MoE-модели содержат 128 экспертов, из которых 8 активируются на токен.
*   **Инновация в нормализации:** Вместо традиционного QKV-bias (статического смещения), Qwen 3 использует QK-нормировку, динамически пересчитывающую векторы для поддержания стабильности внимания при масштабировании.
*   **Этапы обучения:** Qwen 3 обучалась в три стадии, включая генерацию триллионов токенов синтетических данных на базе Qwen 2.5.
*   **Контекст:** Для достижения длинного контекста команда использовала сочетание ABF (для коррекции RoPE), Yarn и dual chunk attention.
*   **Режим мышления:** Ключевым нововведением стало слияние режимов «мышления» (Chain of Thought) и «обычного» ответа в одну модель с переключателем.

Ведущий отмечает, что использование алгоритма GRPO (разработанного исследователями DeepSeek) на всего 4000 пар данных для усиления логических способностей является «потрясающим» результатом.

### 🚀 DeepSeek V3.1: смена экономических правил
[[JUMP:6:43]]

DeepSeek V3, выпущенная в декабре, стала одним из самых амбициозных проектов, изменивших представления об экономике тренировки LLM.

*   **Эффективность обучения:** V3 — это MoE-модель с 671 млрд параметров, где тренировка изначально велась в 8-битном формате, что стало «огромным разблокирующим фактором» для снижения затрат.
*   **Механизм внимания:** В отличие от GQA у конкурентов, DeepSeek использует Multi-head Latent Attention (MLA). Согласно отчету компании, этот метод сжатия ключей и значений в латентное пространство обеспечивает большую экономию памяти и лучшее моделирование, чем стандартные подходы.
*   **Обновление V3.1:** Недавнее обновление добавило гибридный режим мышления и улучшенную работу с инструментами (tool use), при этом сохранив базовую архитектуру.

### ⚖️ Итоговый анализ: эмпирика против первой теории
[[JUMP:10:35]]

Ведущий выделяет несколько критических наблюдений относительно текущего состояния AI-разработок:

1.  **Эмпирический характер:** Лаборатории чаще делятся комбинациями инструментов, которые «просто работают», не предоставляя фундаментального обоснования, почему один метод (например, MLA против GQA) объективно лучше.
2.  **Разнообразие путей:** Поразительно, что при схожих топовых результатах модели достигают их через радикально отличающиеся архитектурные решения.
3.  **Данные как ров (moat):** Инженерия данных является самым непрозрачным и, вероятно, наиболее важным аспектом, который защищает компании от прямого копирования их продуктов конкурентами.

Ведущий советует разработчикам не концентрироваться исключительно на бенчмарках или размере контекста, а изучать конкретные методы, которыми лаборатории добиваются результатов.