Сравнение Claude 3.7, o3 и Gemini 2.5 Pro: кто лучше пишет игры на Python?

Wes Roth 36,2 тыс. 19 мин 4 мин 18.04.2025
Главное

Технологический энтузиаст и автор YouTube-канала Wes Roth провел масштабное «сражение» ведущих нейросетей в дисциплине написания кода на Python. В испытании приняли участие новейшие модели: Claude 3.7 Sonnet, Gemini 2.5 Pro, а также представители семейства OpenAI — o3, o4-mini и o4-mini high . В качестве тестовых полигонов использовались задачи по созданию автономных игр, симуляторов физики и систем машинного обучения с подкреплением (Reinforcement Learning).

🐍 Битва змей: Базовые алгоритмы и логика 0:38

Первым этапом тестирования стала разработка автономной игры «Змейка» для двух игроков . По условиям задачи, две змеи должны сражаться друг с другом на одном поле, накапливая очки за выживание (1 очко в секунду), поедание фруктов (10 очков) и победу над соперником (50 очков) .

Результаты участников разделились:

По итогам первого раунда Уэс Рот поставил «проходной балл» моделям o3 и Gemini 2.5 Pro, назвав их лучшими в этой категории .

🧠 Интеллектуальный прорыв: Обучение с подкреплением 5:50

Задание было усложнено: ИИ должен был не просто написать скрипт, а создать полноценный конвейер обучения (training pipeline) на базе библиотеки PyTorch . Нейросети требовалось обучить агента в течение 500 эпизодов, сохранить модель («мозг») и использовать её для игры против обычного алгоритмического противника .

Этот этап стал моментом триумфа для модели от Anthropic:

  1. Claude 3.7 Sonnet: Уэс Рот заявил, что Claude — единственный участник, который «с первой попытки» (one-shot) создал четыре разные версии запуска программы с аргументами командной строки .
  2. Эффективность обучения: В ходе теста обученная Claude нейросеть (Змея №1) разгромила обычный скрипт (Змея №2), набрав более 1300 очков против 270 .
  3. Неудачи конкурентов: o4-mini и o4-mini high выдали ошибки в коде , Gemini 2.5 Pro зависла , а модель o3 создала странную «змею-путешественницу во времени», которая вообще не могла есть фрукты .

Рот признал Claude 3.7 безоговорочным победителем в задачах глубокой логики и сложного программирования .

🪐 Гравитационный маневр: Физика и симуляции 11:53

Третий тест заключался в создании 2D-симулятора Солнечной системы. Игрок должен был запускать зонды из-за пределов галактики, используя гравитацию планет для изменения траектории («эффект рогатки»), чтобы поразить две цели .

В этой дисциплине результаты оказались неожиданными:

Ведущий пришел к выводу, что в данном конкретном случае o4-mini справилась лучше всех, несмотря на свою простоту .

⚽ Киберфутбол: RPG-механики и визуальные эффекты 16:27

Заключительное испытание — автономный футбол 3 на 3 с элементами прокачки. У каждого игрока должны быть характеристики (сила, скорость, точность), опыт (XP) и уровни . Также требовались визуальные эффекты: дрожание экрана (screen shake) и замедление времени при голе .

🏆 Итоги противостояния 19:22

Подводя итоги, Уэс Рот отметил, что выбор «лучшего» ИИ зависит от конкретной задачи :

💬 Цитаты

«Claude выигрывает. Фаталити.»

«Google не собирается сдаваться без боя, как кажется.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Reinforcement Learning (RL)
Метод машинного обучения, при котором агент обучается, получая вознаграждение за правильные действия.
One-shot
Способность модели выполнить задачу правильно с первой попытки без дополнительных уточнений.
Slingshot effect
Гравитационный маневр — использование гравитации планеты для ускорения или изменения направления движения аппарата.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Claude 3.7 Sonnet Gemini 2.5 Pro OpenAI o3 Wes Roth Python