Сравнение Claude 3.7, o3 и Gemini 2.5 Pro: кто лучше пишет игры на Python?

Технологический энтузиаст и автор YouTube-канала Wes Roth провел масштабное «сражение» ведущих нейросетей в дисциплине написания кода на Python. В испытании приняли участие новейшие модели: Claude 3.7 Sonnet, Gemini 2.5 Pro, а также представители семейства OpenAI — o3, o4-mini и o4-mini high . В качестве тестовых полигонов использовались задачи по созданию автономных игр, симуляторов физики и систем машинного обучения с подкреплением (Reinforcement Learning).

🐍 Битва змей: Базовые алгоритмы и логика 0:38

Первым этапом тестирования стала разработка автономной игры «Змейка» для двух игроков . По условиям задачи, две змеи должны сражаться друг с другом на одном поле, накапливая очки за выживание (1 очко в секунду), поедание фруктов (10 очков) и победу над соперником (50 очков) .

Результаты участников разделились:

Claude 3.7 Sonnet: По мнению Уэса Рота, модель создала отличную графику и точно следовала правилам начисления очков, однако в процессе работы произошел критический сбой (crash) из-за ошибки типа данных .
Gemini 2.5 Pro: Ведущий отметил стабильную работу модели. Нейросеть реализовала систему итоговых сводок после каждого раунда и корректно сохраняла накопительный счет .
o4-mini / o4-mini high: Модели OpenAI справились с задачей, но Рот заметил недостаток в алгоритмах движения — змеи часто сталкивались друг с другом, не учитывая траекторию оппонента .
o3: Уэс подчеркнул преимущество этой модели — змеи практически не сталкивались. По его оценке, o3 «продумала» логику уклонения, что стало заметным шагом вперед по сравнению с mini-версиями .

По итогам первого раунда Уэс Рот поставил «проходной балл» моделям o3 и Gemini 2.5 Pro, назвав их лучшими в этой категории .

🧠 Интеллектуальный прорыв: Обучение с подкреплением 5:50

Задание было усложнено: ИИ должен был не просто написать скрипт, а создать полноценный конвейер обучения (training pipeline) на базе библиотеки PyTorch . Нейросети требовалось обучить агента в течение 500 эпизодов, сохранить модель («мозг») и использовать её для игры против обычного алгоритмического противника .

Этот этап стал моментом триумфа для модели от Anthropic:

Claude 3.7 Sonnet: Уэс Рот заявил, что Claude — единственный участник, который «с первой попытки» (one-shot) создал четыре разные версии запуска программы с аргументами командной строки .
Эффективность обучения: В ходе теста обученная Claude нейросеть (Змея №1) разгромила обычный скрипт (Змея №2), набрав более 1300 очков против 270 .
Неудачи конкурентов: o4-mini и o4-mini high выдали ошибки в коде , Gemini 2.5 Pro зависла , а модель o3 создала странную «змею-путешественницу во времени», которая вообще не могла есть фрукты .

Рот признал Claude 3.7 безоговорочным победителем в задачах глубокой логики и сложного программирования .

🪐 Гравитационный маневр: Физика и симуляции 11:53

Третий тест заключался в создании 2D-симулятора Солнечной системы. Игрок должен был запускать зонды из-за пределов галактики, используя гравитацию планет для изменения траектории («эффект рогатки»), чтобы поразить две цели .

В этой дисциплине результаты оказались неожиданными:

o4-mini: Модель показала себя на удивление хорошо, корректно реализовав физику пролета сквозь цели, хотя планеты остались неподвижными .
o4-mini high: Планеты вращались, но Уэс отметил проблемы с контролем скорости зондов .
Gemini 2.5 Pro: Создала масштабный симулятор, но функция запуска зонда по клику мыши не сработала .
Claude 3.7: Уэс похвалил графику и управление, но заметил, что гравитационное влияние планет на зонд практически отсутствовало .

Ведущий пришел к выводу, что в данном конкретном случае o4-mini справилась лучше всех, несмотря на свою простоту .

⚽ Киберфутбол: RPG-механики и визуальные эффекты 16:27

Заключительное испытание — автономный футбол 3 на 3 с элементами прокачки. У каждого игрока должны быть характеристики (сила, скорость, точность), опыт (XP) и уровни . Также требовались визуальные эффекты: дрожание экрана (screen shake) и замедление времени при голе .

Gemini 2.5 Pro: По мнению Рота, эта модель заслужила оценку «A+». Она реализовала отличную механику ударов, систему уровней и детальную статистику персонажей . Уэс назвал результат «феноменальным» .
Claude 3.7: Несмотря на хорошие визуальные наработки, игра вылетела с ошибкой при расчете дистанции до мяча .
o3: Модель не справилась с задачей .

🏆 Итоги противостояния 19:22

Подводя итоги, Уэс Рот отметил, что выбор «лучшего» ИИ зависит от конкретной задачи :

Claude 3.7 Sonnet демонстрирует поразительные способности в сложной логике и одноэтапном создании многокомпонентных систем (как в случае с обучением нейросети).
Gemini 2.5 Pro показывает себя как крайне надежный инструмент для создания сложных механик и игровых систем, «не сдаваясь без боя» конкурентам .
Модели OpenAI (o3 и mini-версии) остаются сильными игроками, но иногда проигрывают в стабильности выполнения комплексных Python-скриптов.