# Сравнение Claude 3.7, o3 и Gemini 2.5 Pro: кто лучше пишет игры на Python?

Источник: https://www.youtube.com/watch?v=3PJj-fYy2z0
Канал: Wes Roth
Опубликовано: 18.04.2025

---

Технологический энтузиаст и автор YouTube-канала Wes Roth провел масштабное «сражение» ведущих нейросетей в дисциплине написания кода на Python. В испытании приняли участие новейшие модели: Claude 3.7 Sonnet, Gemini 2.5 Pro, а также представители семейства OpenAI — o3, o4-mini и o4-mini high [0:00]. В качестве тестовых полигонов использовались задачи по созданию автономных игр, симуляторов физики и систем машинного обучения с подкреплением (Reinforcement Learning).

## 🐍 Битва змей: Базовые алгоритмы и логика
[[JUMP:0:38]]

Первым этапом тестирования стала разработка автономной игры «Змейка» для двух игроков [1:03]. По условиям задачи, две змеи должны сражаться друг с другом на одном поле, накапливая очки за выживание (1 очко в секунду), поедание фруктов (10 очков) и победу над соперником (50 очков) [1:16].

Результаты участников разделились:

*   **Claude 3.7 Sonnet:** По мнению Уэса Рота, модель создала отличную графику и точно следовала правилам начисления очков, однако в процессе работы произошел критический сбой (crash) из-за ошибки типа данных [2:37].
*   **Gemini 2.5 Pro:** Ведущий отметил стабильную работу модели. Нейросеть реализовала систему итоговых сводок после каждого раунда и корректно сохраняла накопительный счет [3:16].
*   **o4-mini / o4-mini high:** Модели OpenAI справились с задачей, но Рот заметил недостаток в алгоритмах движения — змеи часто сталкивались друг с другом, не учитывая траекторию оппонента [3:53].
*   **o3:** Уэс подчеркнул преимущество этой модели — змеи практически не сталкивались. По его оценке, o3 «продумала» логику уклонения, что стало заметным шагом вперед по сравнению с mini-версиями [5:10].

По итогам первого раунда Уэс Рот поставил «проходной балл» моделям o3 и Gemini 2.5 Pro, назвав их лучшими в этой категории [5:37].

## 🧠 Интеллектуальный прорыв: Обучение с подкреплением
[[JUMP:05:50]]

Задание было усложнено: ИИ должен был не просто написать скрипт, а создать полноценный конвейер обучения (training pipeline) на базе библиотеки PyTorch [6:15]. Нейросети требовалось обучить агента в течение 500 эпизодов, сохранить модель («мозг») и использовать её для игры против обычного алгоритмического противника [6:29].

Этот этап стал моментом триумфа для модели от Anthropic:

1.  **Claude 3.7 Sonnet:** Уэс Рот заявил, что Claude — единственный участник, который «с первой попытки» (one-shot) создал четыре разные версии запуска программы с аргументами командной строки [11:26]. 
2.  **Эффективность обучения:** В ходе теста обученная Claude нейросеть (Змея №1) разгромила обычный скрипт (Змея №2), набрав более 1300 очков против 270 [10:34].
3.  **Неудачи конкурентов:** o4-mini и o4-mini high выдали ошибки в коде [7:08], Gemini 2.5 Pro зависла [7:53], а модель o3 создала странную «змею-путешественницу во времени», которая вообще не могла есть фрукты [11:39].

Рот признал Claude 3.7 безоговорочным победителем в задачах глубокой логики и сложного программирования [11:53].

## 🪐 Гравитационный маневр: Физика и симуляции
[[JUMP:11:53]]

Третий тест заключался в создании 2D-симулятора Солнечной системы. Игрок должен был запускать зонды из-за пределов галактики, используя гравитацию планет для изменения траектории («эффект рогатки»), чтобы поразить две цели [12:06].

В этой дисциплине результаты оказались неожиданными:

*   **o4-mini:** Модель показала себя на удивление хорошо, корректно реализовав физику пролета сквозь цели, хотя планеты остались неподвижными [13:40].
*   **o4-mini high:** Планеты вращались, но Уэс отметил проблемы с контролем скорости зондов [14:09].
*   **Gemini 2.5 Pro:** Создала масштабный симулятор, но функция запуска зонда по клику мыши не сработала [15:19].
*   **Claude 3.7:** Уэс похвалил графику и управление, но заметил, что гравитационное влияние планет на зонд практически отсутствовало [16:01].

Ведущий пришел к выводу, что в данном конкретном случае o4-mini справилась лучше всех, несмотря на свою простоту [16:13].

## ⚽ Киберфутбол: RPG-механики и визуальные эффекты
[[JUMP:16:27]]

Заключительное испытание — автономный футбол 3 на 3 с элементами прокачки. У каждого игрока должны быть характеристики (сила, скорость, точность), опыт (XP) и уровни [16:27]. Также требовались визуальные эффекты: дрожание экрана (screen shake) и замедление времени при голе [16:40].

*   **Gemini 2.5 Pro:** По мнению Рота, эта модель заслужила оценку «A+». Она реализовала отличную механику ударов, систему уровней и детальную статистику персонажей [18:43]. Уэс назвал результат «феноменальным» [18:57].
*   **Claude 3.7:** Несмотря на хорошие визуальные наработки, игра вылетела с ошибкой при расчете дистанции до мяча [19:22].
*   **o3:** Модель не справилась с задачей [18:03].

## 🏆 Итоги противостояния
[[JUMP:19:22]]

Подводя итоги, Уэс Рот отметил, что выбор «лучшего» ИИ зависит от конкретной задачи [19:40]:

*   **Claude 3.7 Sonnet** демонстрирует поразительные способности в сложной логике и одноэтапном создании многокомпонентных систем (как в случае с обучением нейросети).
*   **Gemini 2.5 Pro** показывает себя как крайне надежный инструмент для создания сложных механик и игровых систем, «не сдаваясь без боя» конкурентам [19:35].
*   **Модели OpenAI** (o3 и mini-версии) остаются сильными игроками, но иногда проигрывают в стабильности выполнения комплексных Python-скриптов.