Новый король кодинга? Тестируем возможности модели Qwen3 0:00
Недавно состоялся релиз флагманской модели Qwen3 235B A22B, которая, согласно некоторым бенчмаркам, демонстрирует результаты выше, чем у Gemini 2.5 Pro. Уэс Рот (Wes Roth) решил проверить эти громкие заявления на практике, протестировав новинку в серии сложных задач по программированию: от создания 2D-симуляций до разработки интерактивных аудиокниг. По мнению Уэса Рота, хотя Qwen3 показывает себя как мощная модель, способная на впечатляющие решения, она все же уступает лидирующим проприетарным системам от Google, Anthropic и OpenAI.
🌌 2D-симуляция Солнечной системы 0:45
Первой задачей стала разработка HTML-файла с 2D-визуализацией Солнечной системы и возможностью запуска исследовательского зонда. Модель Qwen3 использовала режим «мышления» (thinking mode), потратив около 40 000 токенов на генерацию логики.
- Наблюдения: Изначально симуляция работала слишком медленно, а гравитация планет по умолчанию была отключена.
- Результат: После внесения уточнений модель добавила функционал управления скоростью и переключатели гравитации.
- Нюансы: По словам Уэса Рота, при включении гравитации планет зонд начинал вести себя неестественно, совершая хаотичные отскоки, однако общая реализация оказалась на высоком уровне.
⚽ Разработка футбольной симуляции на Python 7:07
Следующим тестом стала игра в футбол формата 2v2 с элементами развития персонажей. Qwen3 столкнулась с трудностями: игроки не взаимодействовали с мячом должным образом даже после правок.
- Сравнение: OpenAI o3 и Gemini 2.5 Pro справились с задачей лучше, создав рабочую механику отбора мяча и системы начисления очков.
- Итог: Уэс Рот отметил, что обе указанные модели превзошли Qwen3 в этом конкретном сценарии.
🐍 Обучение нейросети в игре «Змейка» 10:05
В этой задаче требовалось создать одну программу, которая в зависимости от аргументов запуска могла бы:
- Работать как игра с простым скриптом (d-play).
- Запускать пайплайн обучения с использованием PyTorch (train).
-
Использовать обученную нейросеть для управления змеей.
-
Решение: Уэс Рот был впечатлен тем, что модель предложила использовать текстовые символы для симуляции среды, что позволило ускорить процесс обучения.
- Оценка: Хотя модель не предоставила визуальный интерфейс, она успешно реализовала сложную логику reinforcement learning, за что получила высокую оценку.
🎙️ Интерактивная аудиокнига с API-интеграцией 20:26
Самый сложный тест: создание HTML-приложения для интерактивной аудиокниги с использованием API ключей OpenAI и Eleven Labs. Уэс Рот отметил, что, в отличие от Python-скриптов, HTML-версия оказалась более кроссплатформенной.
- Безопасность: Gemini 2.5 Pro корректно предупредила пользователя об опасности вставки ключей в код, предоставив закомментированный шаблон для безопасной настройки.
- Результаты тестов:
- Gemini 2.5 Pro: Отличная работа, однако требовалось улучшить систему «прослушивания» микрофона.
- OpenAI o3: Высокое качество, наличие темной темы и удобный интерфейс.
- Qwen3: Модель не смогла корректно настроить Eleven Labs, из-за чего озвучка отсутствовала.
- Claude 3.7 Sonnet: По мнению Уэса Рота, это лучшее решение, показавшее феноменальную стабильность и приятный UI.
💡 Заключение о модели Qwen3 31:21
По словам Уэса Рота, Qwen3 — это качественный инструмент, вероятно, самый сильный среди открытых моделей, превосходящий DeepSeek V3 и DeepSeek R1. Тем не менее, автор не ожидает, что модель займет первое место в общих рейтингах, так как проприетарные модели (Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3) на текущий момент показывают более надежные результаты в сложных задачах.