# Уэс Рот: «Qwen 3 — неожиданный прорыв, который обходит o3-mini и Gemini»

Источник: https://www.youtube.com/watch?v=gk0PrTcZfGA
Канал: Wes Roth
Опубликовано: 28.04.2025

---

Пока всё внимание ИИ-сообщества было приковано к ожидаемым релизам от DeepSeek, китайская технологическая индустрия преподнесла сюрприз в виде выхода Qwen 3. В новом видео аналитик Уэс Рот подробно разбирает возможности этой открытой модели, которая, по его мнению, способна изменить расстановку сил среди топовых нейросетей.

## 🚀 Флагманская архитектура: Расшифровка Qwen 3 235B A22B
[[JUMP:00:00]]

Выход Qwen 3 стал неожиданностью для многих экспертов, ожидавших новостей от других игроков рынка [0:00]. Уэс Рот отмечает, что нейминг современных ИИ-моделей становится всё более сложным, и Qwen 3 не стала исключением [0:12]. Флагманская модель получила длинное название — Qwen 3 235B A22B, которое требует пояснения для понимания её реальной мощности [0:26].

Ключевые характеристики архитектуры:

*   **Семейство моделей:** Qwen 3 включает в себя как тяжелые флагманские решения, так и компактные, быстрые версии [0:38].
*   **Параметры (235B):** Это общее количество параметров, определяющее размер и потенциальные знания модели [0:50].
*   **Смесь экспертов (Mixture of Experts, MoE):** Модель не задействует все мощности сразу, а обращается к разным «экспертам» в зависимости от задачи [1:03].
*   **Активируемые параметры (A22B):** Несмотря на гигантский общий объем, для каждого конкретного запроса используется только 22 миллиарда параметров, что оптимизирует скорость работы [1:16].

По мнению Рота, такая архитектура позволяет Qwen 3 напрямую конкурировать с DeepSeek R1, моделями серии o1 и o3 от OpenAI, а также Grok 3 и Gemini 2.5 Pro [1:30].

## 📊 Бенчмарки: Битва с Gemini и OpenAI
[[JUMP:01:43]]

В ходе сравнения производительности Qwen 3 демонстрирует результаты, максимально близкие к проприетарным лидерам индустрии. Уэс Рот выделяет Gemini 2.5 Pro как основного соперника, которого Qwen 3 старается превзойти в большинстве тестов [1:56].

Результаты тестов, представленные в видео:

*   **Arena Hard:** Qwen 3 обходит o3-mini и вплотную приближается к показателям Gemini 2.5 Pro [2:10].
*   **AIME 24/25 (Математика):** В этих высокоуровневых математических соревнованиях модель занимает позицию между o3-mini и Gemini [2:25].
*   **LiveCodeBench и Code Forces:** В задачах на программирование Qwen 3 показывает превосходство над обоими конкурентами [2:39].

Автор видео подчеркивает, что бенчмарки — это лишь часть картины, так как разработчики иногда специально обучают модели под конкретные тесты, что не всегда отражается на реальных сценариях использования [2:52].

## 🛠️ Модельный ряд и открытость
[[JUMP:03:05]]

Помимо флагмана с архитектурой MoE, разработчики представили шесть «плотных» (dense) моделей [3:05]. В отличие от MoE, плотные модели представляют собой единые монолитные структуры без разделения на экспертов.

Линейка открытых весов включает:

*   Диапазон размеров: от 6 до 32 миллиардов параметров [3:18].
*   Доступность: пред-обученные и дообученные (post-trained) версии уже размещены на Hugging Face, Model Scope и Kaggle [3:31].
*   Цель релиза: по словам разработчиков, они стремятся расширить возможности исследователей и организаций по всему миру [3:44].

Рот цитирует одного из разработчиков Qwen, который утверждает, что модель обладает «интригующими функциями», не описанными в официальных карточках, что оставляет простор для новых открытий в процессе эксплуатации сообществом [3:56].

## 🧠 Режим размышления и «бюджет» токенов
[[JUMP:04:23]]

Одной из самых инновационных особенностей Qwen 3 является поддержка двух режимов: «думающего» (thinking) и «не думающего» (non-thinking) [4:23]. Это превращает её в полноценную рассуждающую модель (reasoning model).

Особенности системы рассуждений:

*   **Гибкость:** Пользователь может переключаться между мгновенными ответами и режимом глубокого анализа проблемы [4:36].
*   **Бюджет размышлений:** Модель способна эффективно контролировать объем токенов, затрачиваемых на внутренний монолог перед выдачей ответа [4:49].
*   **Масштабируемость качества:** Тесты показывают, что чем больше токенов модель тратит на «раздумья» (вплоть до 16 000–32 000), тем выше становится точность её ответов [5:16].

На графиках тестов AIME и LiveCodeBench виден резкий рост результативности по мере углубления процесса мышления: от базовых показателей в режиме мгновенного ответа до 85% точности в сложных задачах [5:42].

## 📚 Данные и процесс обучения
[[JUMP:06:22]]

Качество Qwen 3 во многом обусловлено колоссальным объемом данных, использованных для обучения. Если предыдущая версия Qwen 2.5 обучалась на 18 триллионах токенов, то для третьего поколения этот объем был увеличен почти вдвое [6:36].

Технологические нюансы подготовки данных:

*   **Источники:** Веб-страницы и PDF-документы [6:36].
*   **Синтетические данные:** Команда использовала специализированные модели (Qwen 2.5-VL для текста, Qwen 2.5-Math и Coder) для генерации качественных учебных материалов, включая учебники и пары «вопрос-ответ» [6:49].
*   **Итеративность:** Уэс Рот отмечает, что каждое новое поколение моделей используется для обучения следующего, что создает цикл непрерывного самосовершенствования ИИ [7:16].

Процесс обучения был разделен на три этапа: общие языковые навыки (30 трлн токенов), усиление знаний в STEM-дисциплинах (еще 5 трлн) и расширение контекстного окна до 32 триллионов токенов с использованием высококачественных длинных текстов [7:44].

## 🧬 Пост-тренинг и метод GRPO
[[JUMP:07:58]]

Финальная стадия подготовки модели включала четыре этапа пост-тренинга, направленных на развитие логики и следование инструкциям [7:58].

Этапы пост-тренинга:

1.  **Cold Start CoT:** Обучение на небольшом количестве примеров длинных цепочек рассуждений (Chain of Thought) [8:10].
2.  **RL (Обучение с подкреплением):** Модель учится находить правильные решения через систему наград [8:23].
3.  **Thinking Mode Fusion:** Слияние «быстрого» и «медленного» режимов мышления в единую структуру [8:37].
4.  **General RL:** Финальная шлифовка способности следовать форматам и агентских возможностей [8:37].

Уэс Рот обращает внимание на метод GRPO (Group Relative Policy Optimization), популяризированный DeepSeek [10:46]. Этот метод позволяет эффективно проводить обучение с подкреплением, пропуская использование отдельной модели-критика и оценивая результаты на основе групповых показателей [11:00]. Однако, судя по документации, Qwen использовала несколько иной подход, детали которого будут раскрыты в готовящейся научной статье [11:24].

## 🤖 Будущее: От моделей к автономным агентам
[[JUMP:12:29]]

Завершая обзор, Уэс Рот цитирует манифест команды Qwen: индустрия переходит от эры обучения моделей к эре обучения агентов [12:29]. Qwen 3 уже демонстрирует улучшенные возможности для интеграции с инструментами (через протокол MCP от Anthropic) и работы в качестве автономного помощника [6:22].

Модель распространяется под лицензией **Apache 2.0**, что Рот называет феноменальным шагом для инноваций [12:56]. Это означает:

*   Разрешено коммерческое использование: на базе Qwen 3 можно строить бизнес [13:08].
*   Модификация: разработчики могут создавать производные работы без обязательного лицензирования их на тех же условиях [13:21].
*   Свободное распространение: результаты работы модели принадлежат пользователю [13:21].

По мнению ведущего, такая открытость позволяет всему миру двигаться вперед быстрее, создавая цикл инноваций, где каждое новое открытие становится общим достоянием [12:14].