OpenAI vs. DeepSeek vs. Qwen: архитектурная битва LLM

Архитектурная гонка: OpenAI, DeepSeek и Qwen в ландшафте открытых моделей 0:00

Индустрия искусственного интеллекта переживает период бурного развития открытых весов (open weights), где такие гиганты, как OpenAI, DeepSeek и Alibaba Cloud, соревнуются в эффективности и архитектурных инновациях. Видео от Y Combinator анализирует ключевые подходы этих лабораторий, подчеркивая, что за схожими бенчмарками скрываются принципиально разные инженерные решения.

🧠 OpenAI и модель GPT OSS: возвращение к открытости 0:25

OpenAI представила GPT OSS — свою первую модель с открытыми весами со времен GPT-2 (2019 год). Это смесь экспертов (MoE), доступная в версиях на 120 млрд и 20 млрд параметров.

Архитектурные особенности: Модель использует архитектуру decoder-only transformer. При каждом запросе активируются «топ-4» эксперта, что оптимизирует производительность.
Оптимизация внимания: Применяется Grouped Query Attention (GQA), позволяющая нескольким головам внимания использовать общие пары ключ-значение, что ускоряет инференс.
Контекстное окно: GPT OSS поддерживает 131 000 токенов, достигая этого за счет применения технологии Yarn (Yet Another RoPE extension) непосредственно на этапе претрейна, а не как надстройки для инференса.
Токенизация и данные: Используется токенизатор O200K, аналогичный применяемому в GPT-4o. Обучение проходило на массиве из триллионов токенов с упором на STEM и программирование.

По словам ведущего, модель поставляется в квантованном формате, что делает её доступной для запуска на потребительском «железе». Примечательно, что OpenAI провела существенную работу по посттрейну для безопасности, хотя энтузиасты уже экспериментируют с удалением этих слоев для доступа к «сырым» возможностям модели.

☁️ Qwen 3: масштабируемость от Alibaba 2:41

Семейство моделей Qwen 3 от Alibaba Cloud, выпущенное в апреле, предложило рынку как плотные (dense), так и разреженные (MoE) конфигурации.

Гибкость архитектуры: Плотные модели представлены в 7 размерных классах (начиная с 6 млрд параметров), а MoE-модели содержат 128 экспертов, из которых 8 активируются на токен.
Инновация в нормализации: Вместо традиционного QKV-bias (статического смещения), Qwen 3 использует QK-нормировку, динамически пересчитывающую векторы для поддержания стабильности внимания при масштабировании.
Этапы обучения: Qwen 3 обучалась в три стадии, включая генерацию триллионов токенов синтетических данных на базе Qwen 2.5.
Контекст: Для достижения длинного контекста команда использовала сочетание ABF (для коррекции RoPE), Yarn и dual chunk attention.
Режим мышления: Ключевым нововведением стало слияние режимов «мышления» (Chain of Thought) и «обычного» ответа в одну модель с переключателем.

Ведущий отмечает, что использование алгоритма GRPO (разработанного исследователями DeepSeek) на всего 4000 пар данных для усиления логических способностей является «потрясающим» результатом.

🚀 DeepSeek V3.1: смена экономических правил 6:43

DeepSeek V3, выпущенная в декабре, стала одним из самых амбициозных проектов, изменивших представления об экономике тренировки LLM.

Эффективность обучения: V3 — это MoE-модель с 671 млрд параметров, где тренировка изначально велась в 8-битном формате, что стало «огромным разблокирующим фактором» для снижения затрат.
Механизм внимания: В отличие от GQA у конкурентов, DeepSeek использует Multi-head Latent Attention (MLA). Согласно отчету компании, этот метод сжатия ключей и значений в латентное пространство обеспечивает большую экономию памяти и лучшее моделирование, чем стандартные подходы.
Обновление V3.1: Недавнее обновление добавило гибридный режим мышления и улучшенную работу с инструментами (tool use), при этом сохранив базовую архитектуру.

⚖️ Итоговый анализ: эмпирика против первой теории 10:35

Ведущий выделяет несколько критических наблюдений относительно текущего состояния AI-разработок:

Эмпирический характер: Лаборатории чаще делятся комбинациями инструментов, которые «просто работают», не предоставляя фундаментального обоснования, почему один метод (например, MLA против GQA) объективно лучше.
Разнообразие путей: Поразительно, что при схожих топовых результатах модели достигают их через радикально отличающиеся архитектурные решения.
Данные как ров (moat): Инженерия данных является самым непрозрачным и, вероятно, наиболее важным аспектом, который защищает компании от прямого копирования их продуктов конкурентами.

Ведущий советует разработчикам не концентрироваться исключительно на бенчмарках или размере контекста, а изучать конкретные методы, которыми лаборатории добиваются результатов.