Пока всё внимание ИИ-сообщества было приковано к ожидаемым релизам от DeepSeek, китайская технологическая индустрия преподнесла сюрприз в виде выхода Qwen 3. В новом видео аналитик Уэс Рот подробно разбирает возможности этой открытой модели, которая, по его мнению, способна изменить расстановку сил среди топовых нейросетей.
🚀 Флагманская архитектура: Расшифровка Qwen 3 235B A22B 0:00
Выход Qwen 3 стал неожиданностью для многих экспертов, ожидавших новостей от других игроков рынка . Уэс Рот отмечает, что нейминг современных ИИ-моделей становится всё более сложным, и Qwen 3 не стала исключением . Флагманская модель получила длинное название — Qwen 3 235B A22B, которое требует пояснения для понимания её реальной мощности .
Ключевые характеристики архитектуры:
- Семейство моделей: Qwen 3 включает в себя как тяжелые флагманские решения, так и компактные, быстрые версии .
- Параметры (235B): Это общее количество параметров, определяющее размер и потенциальные знания модели .
- Смесь экспертов (Mixture of Experts, MoE): Модель не задействует все мощности сразу, а обращается к разным «экспертам» в зависимости от задачи .
- Активируемые параметры (A22B): Несмотря на гигантский общий объем, для каждого конкретного запроса используется только 22 миллиарда параметров, что оптимизирует скорость работы .
По мнению Рота, такая архитектура позволяет Qwen 3 напрямую конкурировать с DeepSeek R1, моделями серии o1 и o3 от OpenAI, а также Grok 3 и Gemini 2.5 Pro .
📊 Бенчмарки: Битва с Gemini и OpenAI 1:43
В ходе сравнения производительности Qwen 3 демонстрирует результаты, максимально близкие к проприетарным лидерам индустрии. Уэс Рот выделяет Gemini 2.5 Pro как основного соперника, которого Qwen 3 старается превзойти в большинстве тестов .
Результаты тестов, представленные в видео:
- Arena Hard: Qwen 3 обходит o3-mini и вплотную приближается к показателям Gemini 2.5 Pro .
- AIME 24/25 (Математика): В этих высокоуровневых математических соревнованиях модель занимает позицию между o3-mini и Gemini .
- LiveCodeBench и Code Forces: В задачах на программирование Qwen 3 показывает превосходство над обоими конкурентами .
Автор видео подчеркивает, что бенчмарки — это лишь часть картины, так как разработчики иногда специально обучают модели под конкретные тесты, что не всегда отражается на реальных сценариях использования .
🛠️ Модельный ряд и открытость 3:05
Помимо флагмана с архитектурой MoE, разработчики представили шесть «плотных» (dense) моделей . В отличие от MoE, плотные модели представляют собой единые монолитные структуры без разделения на экспертов.
Линейка открытых весов включает:
- Диапазон размеров: от 6 до 32 миллиардов параметров .
- Доступность: пред-обученные и дообученные (post-trained) версии уже размещены на Hugging Face, Model Scope и Kaggle .
- Цель релиза: по словам разработчиков, они стремятся расширить возможности исследователей и организаций по всему миру .
Рот цитирует одного из разработчиков Qwen, который утверждает, что модель обладает «интригующими функциями», не описанными в официальных карточках, что оставляет простор для новых открытий в процессе эксплуатации сообществом .
🧠 Режим размышления и «бюджет» токенов 4:23
Одной из самых инновационных особенностей Qwen 3 является поддержка двух режимов: «думающего» (thinking) и «не думающего» (non-thinking) . Это превращает её в полноценную рассуждающую модель (reasoning model).
Особенности системы рассуждений:
- Гибкость: Пользователь может переключаться между мгновенными ответами и режимом глубокого анализа проблемы .
- Бюджет размышлений: Модель способна эффективно контролировать объем токенов, затрачиваемых на внутренний монолог перед выдачей ответа .
- Масштабируемость качества: Тесты показывают, что чем больше токенов модель тратит на «раздумья» (вплоть до 16 000–32 000), тем выше становится точность её ответов .
На графиках тестов AIME и LiveCodeBench виден резкий рост результативности по мере углубления процесса мышления: от базовых показателей в режиме мгновенного ответа до 85% точности в сложных задачах .
📚 Данные и процесс обучения 6:22
Качество Qwen 3 во многом обусловлено колоссальным объемом данных, использованных для обучения. Если предыдущая версия Qwen 2.5 обучалась на 18 триллионах токенов, то для третьего поколения этот объем был увеличен почти вдвое .
Технологические нюансы подготовки данных:
- Источники: Веб-страницы и PDF-документы .
- Синтетические данные: Команда использовала специализированные модели (Qwen 2.5-VL для текста, Qwen 2.5-Math и Coder) для генерации качественных учебных материалов, включая учебники и пары «вопрос-ответ» .
- Итеративность: Уэс Рот отмечает, что каждое новое поколение моделей используется для обучения следующего, что создает цикл непрерывного самосовершенствования ИИ .
Процесс обучения был разделен на три этапа: общие языковые навыки (30 трлн токенов), усиление знаний в STEM-дисциплинах (еще 5 трлн) и расширение контекстного окна до 32 триллионов токенов с использованием высококачественных длинных текстов .
🧬 Пост-тренинг и метод GRPO 7:58
Финальная стадия подготовки модели включала четыре этапа пост-тренинга, направленных на развитие логики и следование инструкциям .
Этапы пост-тренинга:
- Cold Start CoT: Обучение на небольшом количестве примеров длинных цепочек рассуждений (Chain of Thought) .
- RL (Обучение с подкреплением): Модель учится находить правильные решения через систему наград .
- Thinking Mode Fusion: Слияние «быстрого» и «медленного» режимов мышления в единую структуру .
- General RL: Финальная шлифовка способности следовать форматам и агентских возможностей .
Уэс Рот обращает внимание на метод GRPO (Group Relative Policy Optimization), популяризированный DeepSeek . Этот метод позволяет эффективно проводить обучение с подкреплением, пропуская использование отдельной модели-критика и оценивая результаты на основе групповых показателей . Однако, судя по документации, Qwen использовала несколько иной подход, детали которого будут раскрыты в готовящейся научной статье .
🤖 Будущее: От моделей к автономным агентам 12:29
Завершая обзор, Уэс Рот цитирует манифест команды Qwen: индустрия переходит от эры обучения моделей к эре обучения агентов . Qwen 3 уже демонстрирует улучшенные возможности для интеграции с инструментами (через протокол MCP от Anthropic) и работы в качестве автономного помощника .
Модель распространяется под лицензией Apache 2.0, что Рот называет феноменальным шагом для инноваций . Это означает:
- Разрешено коммерческое использование: на базе Qwen 3 можно строить бизнес .
- Модификация: разработчики могут создавать производные работы без обязательного лицензирования их на тех же условиях .
- Свободное распространение: результаты работы модели принадлежат пользователю .
По мнению ведущего, такая открытость позволяет всему миру двигаться вперед быстрее, создавая цикл инноваций, где каждое новое открытие становится общим достоянием .