Уэс Рот о Qwen3: «Хороший кодер, но не король»

Wes Roth 31,3 тыс. 34 мин 3 мин 02.05.2025
Главное

Новый король кодинга? Тестируем возможности модели Qwen3 0:00

Недавно состоялся релиз флагманской модели Qwen3 235B A22B, которая, согласно некоторым бенчмаркам, демонстрирует результаты выше, чем у Gemini 2.5 Pro. Уэс Рот (Wes Roth) решил проверить эти громкие заявления на практике, протестировав новинку в серии сложных задач по программированию: от создания 2D-симуляций до разработки интерактивных аудиокниг. По мнению Уэса Рота, хотя Qwen3 показывает себя как мощная модель, способная на впечатляющие решения, она все же уступает лидирующим проприетарным системам от Google, Anthropic и OpenAI.

🌌 2D-симуляция Солнечной системы 0:45

Первой задачей стала разработка HTML-файла с 2D-визуализацией Солнечной системы и возможностью запуска исследовательского зонда. Модель Qwen3 использовала режим «мышления» (thinking mode), потратив около 40 000 токенов на генерацию логики.

⚽ Разработка футбольной симуляции на Python 7:07

Следующим тестом стала игра в футбол формата 2v2 с элементами развития персонажей. Qwen3 столкнулась с трудностями: игроки не взаимодействовали с мячом должным образом даже после правок.

🐍 Обучение нейросети в игре «Змейка» 10:05

В этой задаче требовалось создать одну программу, которая в зависимости от аргументов запуска могла бы:

  1. Работать как игра с простым скриптом (d-play).
  2. Запускать пайплайн обучения с использованием PyTorch (train).
  3. Использовать обученную нейросеть для управления змеей.

  4. Решение: Уэс Рот был впечатлен тем, что модель предложила использовать текстовые символы для симуляции среды, что позволило ускорить процесс обучения.

  5. Оценка: Хотя модель не предоставила визуальный интерфейс, она успешно реализовала сложную логику reinforcement learning, за что получила высокую оценку.

🎙️ Интерактивная аудиокнига с API-интеграцией 20:26

Самый сложный тест: создание HTML-приложения для интерактивной аудиокниги с использованием API ключей OpenAI и Eleven Labs. Уэс Рот отметил, что, в отличие от Python-скриптов, HTML-версия оказалась более кроссплатформенной.

💡 Заключение о модели Qwen3 31:21

По словам Уэса Рота, Qwen3 — это качественный инструмент, вероятно, самый сильный среди открытых моделей, превосходящий DeepSeek V3 и DeepSeek R1. Тем не менее, автор не ожидает, что модель займет первое место в общих рейтингах, так как проприетарные модели (Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3) на текущий момент показывают более надежные результаты в сложных задачах.

💬 Цитаты

«Если я хочу сделать что-то глупое, позвольте мне это сделать. Вот как я отношусь к жизни.»

«На данный момент я не убежден, что результаты бенчмарков выше, чем у Gemini 2.5 Pro, являются точными.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Thinking mode
Режим работы нейросети, при котором она тратит дополнительные вычислительные ресурсы на логическое обоснование ответа перед генерацией кода.
Headless mode
Режим запуска программы без графического интерфейса, что значительно ускоряет выполнение вычислений.
Reinforcement learning
Метод обучения нейросетей, основанный на взаимодействии со средой и получении «наград» за правильные действия.
Artifacts
Функция в Claude, позволяющая отображать сгенерированный код или документы в отдельном интерактивном окне.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Qwen3 Gemini 2.5 Pro Claude 3.7 Sonnet OpenAI o3 PyTorch