Уэс Рот: «Qwen 3 — неожиданный прорыв, который обходит o3-mini и Gemini»

Пока всё внимание ИИ-сообщества было приковано к ожидаемым релизам от DeepSeek, китайская технологическая индустрия преподнесла сюрприз в виде выхода Qwen 3. В новом видео аналитик Уэс Рот подробно разбирает возможности этой открытой модели, которая, по его мнению, способна изменить расстановку сил среди топовых нейросетей.

🚀 Флагманская архитектура: Расшифровка Qwen 3 235B A22B 0:00

Выход Qwen 3 стал неожиданностью для многих экспертов, ожидавших новостей от других игроков рынка . Уэс Рот отмечает, что нейминг современных ИИ-моделей становится всё более сложным, и Qwen 3 не стала исключением . Флагманская модель получила длинное название — Qwen 3 235B A22B, которое требует пояснения для понимания её реальной мощности .

Ключевые характеристики архитектуры:

Семейство моделей: Qwen 3 включает в себя как тяжелые флагманские решения, так и компактные, быстрые версии .
Параметры (235B): Это общее количество параметров, определяющее размер и потенциальные знания модели .
Смесь экспертов (Mixture of Experts, MoE): Модель не задействует все мощности сразу, а обращается к разным «экспертам» в зависимости от задачи .
Активируемые параметры (A22B): Несмотря на гигантский общий объем, для каждого конкретного запроса используется только 22 миллиарда параметров, что оптимизирует скорость работы .

По мнению Рота, такая архитектура позволяет Qwen 3 напрямую конкурировать с DeepSeek R1, моделями серии o1 и o3 от OpenAI, а также Grok 3 и Gemini 2.5 Pro .

📊 Бенчмарки: Битва с Gemini и OpenAI 1:43

В ходе сравнения производительности Qwen 3 демонстрирует результаты, максимально близкие к проприетарным лидерам индустрии. Уэс Рот выделяет Gemini 2.5 Pro как основного соперника, которого Qwen 3 старается превзойти в большинстве тестов .

Результаты тестов, представленные в видео:

Arena Hard: Qwen 3 обходит o3-mini и вплотную приближается к показателям Gemini 2.5 Pro .
AIME 24/25 (Математика): В этих высокоуровневых математических соревнованиях модель занимает позицию между o3-mini и Gemini .
LiveCodeBench и Code Forces: В задачах на программирование Qwen 3 показывает превосходство над обоими конкурентами .

Автор видео подчеркивает, что бенчмарки — это лишь часть картины, так как разработчики иногда специально обучают модели под конкретные тесты, что не всегда отражается на реальных сценариях использования .

🛠️ Модельный ряд и открытость 3:05

Помимо флагмана с архитектурой MoE, разработчики представили шесть «плотных» (dense) моделей . В отличие от MoE, плотные модели представляют собой единые монолитные структуры без разделения на экспертов.

Линейка открытых весов включает:

Диапазон размеров: от 6 до 32 миллиардов параметров .
Доступность: пред-обученные и дообученные (post-trained) версии уже размещены на Hugging Face, Model Scope и Kaggle .
Цель релиза: по словам разработчиков, они стремятся расширить возможности исследователей и организаций по всему миру .

Рот цитирует одного из разработчиков Qwen, который утверждает, что модель обладает «интригующими функциями», не описанными в официальных карточках, что оставляет простор для новых открытий в процессе эксплуатации сообществом .

🧠 Режим размышления и «бюджет» токенов 4:23

Одной из самых инновационных особенностей Qwen 3 является поддержка двух режимов: «думающего» (thinking) и «не думающего» (non-thinking) . Это превращает её в полноценную рассуждающую модель (reasoning model).

Особенности системы рассуждений:

Гибкость: Пользователь может переключаться между мгновенными ответами и режимом глубокого анализа проблемы .
Бюджет размышлений: Модель способна эффективно контролировать объем токенов, затрачиваемых на внутренний монолог перед выдачей ответа .
Масштабируемость качества: Тесты показывают, что чем больше токенов модель тратит на «раздумья» (вплоть до 16 000–32 000), тем выше становится точность её ответов .

На графиках тестов AIME и LiveCodeBench виден резкий рост результативности по мере углубления процесса мышления: от базовых показателей в режиме мгновенного ответа до 85% точности в сложных задачах .

📚 Данные и процесс обучения 6:22

Качество Qwen 3 во многом обусловлено колоссальным объемом данных, использованных для обучения. Если предыдущая версия Qwen 2.5 обучалась на 18 триллионах токенов, то для третьего поколения этот объем был увеличен почти вдвое .

Технологические нюансы подготовки данных:

Источники: Веб-страницы и PDF-документы .
Синтетические данные: Команда использовала специализированные модели (Qwen 2.5-VL для текста, Qwen 2.5-Math и Coder) для генерации качественных учебных материалов, включая учебники и пары «вопрос-ответ» .
Итеративность: Уэс Рот отмечает, что каждое новое поколение моделей используется для обучения следующего, что создает цикл непрерывного самосовершенствования ИИ .

Процесс обучения был разделен на три этапа: общие языковые навыки (30 трлн токенов), усиление знаний в STEM-дисциплинах (еще 5 трлн) и расширение контекстного окна до 32 триллионов токенов с использованием высококачественных длинных текстов .

🧬 Пост-тренинг и метод GRPO 7:58

Финальная стадия подготовки модели включала четыре этапа пост-тренинга, направленных на развитие логики и следование инструкциям .

Этапы пост-тренинга:

Cold Start CoT: Обучение на небольшом количестве примеров длинных цепочек рассуждений (Chain of Thought) .
RL (Обучение с подкреплением): Модель учится находить правильные решения через систему наград .
Thinking Mode Fusion: Слияние «быстрого» и «медленного» режимов мышления в единую структуру .
General RL: Финальная шлифовка способности следовать форматам и агентских возможностей .

Уэс Рот обращает внимание на метод GRPO (Group Relative Policy Optimization), популяризированный DeepSeek . Этот метод позволяет эффективно проводить обучение с подкреплением, пропуская использование отдельной модели-критика и оценивая результаты на основе групповых показателей . Однако, судя по документации, Qwen использовала несколько иной подход, детали которого будут раскрыты в готовящейся научной статье .

🤖 Будущее: От моделей к автономным агентам 12:29

Завершая обзор, Уэс Рот цитирует манифест команды Qwen: индустрия переходит от эры обучения моделей к эре обучения агентов . Qwen 3 уже демонстрирует улучшенные возможности для интеграции с инструментами (через протокол MCP от Anthropic) и работы в качестве автономного помощника .

Модель распространяется под лицензией Apache 2.0, что Рот называет феноменальным шагом для инноваций . Это означает:

Разрешено коммерческое использование: на базе Qwen 3 можно строить бизнес .
Модификация: разработчики могут создавать производные работы без обязательного лицензирования их на тех же условиях .
Свободное распространение: результаты работы модели принадлежат пользователю .

По мнению ведущего, такая открытость позволяет всему миру двигаться вперед быстрее, создавая цикл инноваций, где каждое новое открытие становится общим достоянием .