Уэс Рот: «Qwen 3 — неожиданный прорыв, который обходит o3-mini и Gemini»

Wes Roth 104 тыс. 14 мин 5 мин 28.04.2025
Главное

Пока всё внимание ИИ-сообщества было приковано к ожидаемым релизам от DeepSeek, китайская технологическая индустрия преподнесла сюрприз в виде выхода Qwen 3. В новом видео аналитик Уэс Рот подробно разбирает возможности этой открытой модели, которая, по его мнению, способна изменить расстановку сил среди топовых нейросетей.

🚀 Флагманская архитектура: Расшифровка Qwen 3 235B A22B 0:00

Выход Qwen 3 стал неожиданностью для многих экспертов, ожидавших новостей от других игроков рынка . Уэс Рот отмечает, что нейминг современных ИИ-моделей становится всё более сложным, и Qwen 3 не стала исключением . Флагманская модель получила длинное название — Qwen 3 235B A22B, которое требует пояснения для понимания её реальной мощности .

Ключевые характеристики архитектуры:

По мнению Рота, такая архитектура позволяет Qwen 3 напрямую конкурировать с DeepSeek R1, моделями серии o1 и o3 от OpenAI, а также Grok 3 и Gemini 2.5 Pro .

📊 Бенчмарки: Битва с Gemini и OpenAI 1:43

В ходе сравнения производительности Qwen 3 демонстрирует результаты, максимально близкие к проприетарным лидерам индустрии. Уэс Рот выделяет Gemini 2.5 Pro как основного соперника, которого Qwen 3 старается превзойти в большинстве тестов .

Результаты тестов, представленные в видео:

Автор видео подчеркивает, что бенчмарки — это лишь часть картины, так как разработчики иногда специально обучают модели под конкретные тесты, что не всегда отражается на реальных сценариях использования .

🛠️ Модельный ряд и открытость 3:05

Помимо флагмана с архитектурой MoE, разработчики представили шесть «плотных» (dense) моделей . В отличие от MoE, плотные модели представляют собой единые монолитные структуры без разделения на экспертов.

Линейка открытых весов включает:

Рот цитирует одного из разработчиков Qwen, который утверждает, что модель обладает «интригующими функциями», не описанными в официальных карточках, что оставляет простор для новых открытий в процессе эксплуатации сообществом .

🧠 Режим размышления и «бюджет» токенов 4:23

Одной из самых инновационных особенностей Qwen 3 является поддержка двух режимов: «думающего» (thinking) и «не думающего» (non-thinking) . Это превращает её в полноценную рассуждающую модель (reasoning model).

Особенности системы рассуждений:

На графиках тестов AIME и LiveCodeBench виден резкий рост результативности по мере углубления процесса мышления: от базовых показателей в режиме мгновенного ответа до 85% точности в сложных задачах .

📚 Данные и процесс обучения 6:22

Качество Qwen 3 во многом обусловлено колоссальным объемом данных, использованных для обучения. Если предыдущая версия Qwen 2.5 обучалась на 18 триллионах токенов, то для третьего поколения этот объем был увеличен почти вдвое .

Технологические нюансы подготовки данных:

Процесс обучения был разделен на три этапа: общие языковые навыки (30 трлн токенов), усиление знаний в STEM-дисциплинах (еще 5 трлн) и расширение контекстного окна до 32 триллионов токенов с использованием высококачественных длинных текстов .

🧬 Пост-тренинг и метод GRPO 7:58

Финальная стадия подготовки модели включала четыре этапа пост-тренинга, направленных на развитие логики и следование инструкциям .

Этапы пост-тренинга:

  1. Cold Start CoT: Обучение на небольшом количестве примеров длинных цепочек рассуждений (Chain of Thought) .
  2. RL (Обучение с подкреплением): Модель учится находить правильные решения через систему наград .
  3. Thinking Mode Fusion: Слияние «быстрого» и «медленного» режимов мышления в единую структуру .
  4. General RL: Финальная шлифовка способности следовать форматам и агентских возможностей .

Уэс Рот обращает внимание на метод GRPO (Group Relative Policy Optimization), популяризированный DeepSeek . Этот метод позволяет эффективно проводить обучение с подкреплением, пропуская использование отдельной модели-критика и оценивая результаты на основе групповых показателей . Однако, судя по документации, Qwen использовала несколько иной подход, детали которого будут раскрыты в готовящейся научной статье .

🤖 Будущее: От моделей к автономным агентам 12:29

Завершая обзор, Уэс Рот цитирует манифест команды Qwen: индустрия переходит от эры обучения моделей к эре обучения агентов . Qwen 3 уже демонстрирует улучшенные возможности для интеграции с инструментами (через протокол MCP от Anthropic) и работы в качестве автономного помощника .

Модель распространяется под лицензией Apache 2.0, что Рот называет феноменальным шагом для инноваций . Это означает:

По мнению ведущего, такая открытость позволяет всему миру двигаться вперед быстрее, создавая цикл инноваций, где каждое новое открытие становится общим достоянием .

💬 Цитаты

«Мы верим, что переходим от эры обучения моделей к эре обучения агентов.»

Уэс Рот (цитируя команду Qwen) 12:29

«Открытый исходный код позволяет всем двигаться вперед вместе.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
MoE (Mixture of Experts)
Архитектура нейросети, где только часть параметров (экспертов) активируется для выполнения конкретной задачи.
Tokens (Токены)
Минимальные единицы текста, на которых обучается и которыми оперирует языковая модель.
CoT (Chain of Thought)
Метод рассуждения, при котором модель описывает последовательные шаги логики перед выдачей ответа.
GRPO
Метод оптимизации обучения с подкреплением, который оценивает результаты относительно группы ответов без модели-критика.
MCP (Model Context Protocol)
Протокол, предложенный Anthropic для взаимодействия ИИ-моделей с внешними программными инструментами.
📊 Цифры
🗓 Хронология
  1. 2024 Выход моделей семейства Qwen 2.5, обученных на 18 триллионах токенов.
  2. Февраль 2025 Релиз Qwen 3, включающий флагманскую модель MoE и плотные модели.
⚖️ Другая сторона
Искусственный интеллект Qwen 3 Alibaba Mixture of Experts Apache 2.0 LLM