Технологический энтузиаст и автор YouTube-канала Wes Roth провел масштабное «сражение» ведущих нейросетей в дисциплине написания кода на Python. В испытании приняли участие новейшие модели: Claude 3.7 Sonnet, Gemini 2.5 Pro, а также представители семейства OpenAI — o3, o4-mini и o4-mini high . В качестве тестовых полигонов использовались задачи по созданию автономных игр, симуляторов физики и систем машинного обучения с подкреплением (Reinforcement Learning).
🐍 Битва змей: Базовые алгоритмы и логика 0:38
Первым этапом тестирования стала разработка автономной игры «Змейка» для двух игроков . По условиям задачи, две змеи должны сражаться друг с другом на одном поле, накапливая очки за выживание (1 очко в секунду), поедание фруктов (10 очков) и победу над соперником (50 очков) .
Результаты участников разделились:
- Claude 3.7 Sonnet: По мнению Уэса Рота, модель создала отличную графику и точно следовала правилам начисления очков, однако в процессе работы произошел критический сбой (crash) из-за ошибки типа данных .
- Gemini 2.5 Pro: Ведущий отметил стабильную работу модели. Нейросеть реализовала систему итоговых сводок после каждого раунда и корректно сохраняла накопительный счет .
- o4-mini / o4-mini high: Модели OpenAI справились с задачей, но Рот заметил недостаток в алгоритмах движения — змеи часто сталкивались друг с другом, не учитывая траекторию оппонента .
- o3: Уэс подчеркнул преимущество этой модели — змеи практически не сталкивались. По его оценке, o3 «продумала» логику уклонения, что стало заметным шагом вперед по сравнению с mini-версиями .
По итогам первого раунда Уэс Рот поставил «проходной балл» моделям o3 и Gemini 2.5 Pro, назвав их лучшими в этой категории .
🧠 Интеллектуальный прорыв: Обучение с подкреплением 5:50
Задание было усложнено: ИИ должен был не просто написать скрипт, а создать полноценный конвейер обучения (training pipeline) на базе библиотеки PyTorch . Нейросети требовалось обучить агента в течение 500 эпизодов, сохранить модель («мозг») и использовать её для игры против обычного алгоритмического противника .
Этот этап стал моментом триумфа для модели от Anthropic:
- Claude 3.7 Sonnet: Уэс Рот заявил, что Claude — единственный участник, который «с первой попытки» (one-shot) создал четыре разные версии запуска программы с аргументами командной строки .
- Эффективность обучения: В ходе теста обученная Claude нейросеть (Змея №1) разгромила обычный скрипт (Змея №2), набрав более 1300 очков против 270 .
- Неудачи конкурентов: o4-mini и o4-mini high выдали ошибки в коде , Gemini 2.5 Pro зависла , а модель o3 создала странную «змею-путешественницу во времени», которая вообще не могла есть фрукты .
Рот признал Claude 3.7 безоговорочным победителем в задачах глубокой логики и сложного программирования .
🪐 Гравитационный маневр: Физика и симуляции 11:53
Третий тест заключался в создании 2D-симулятора Солнечной системы. Игрок должен был запускать зонды из-за пределов галактики, используя гравитацию планет для изменения траектории («эффект рогатки»), чтобы поразить две цели .
В этой дисциплине результаты оказались неожиданными:
- o4-mini: Модель показала себя на удивление хорошо, корректно реализовав физику пролета сквозь цели, хотя планеты остались неподвижными .
- o4-mini high: Планеты вращались, но Уэс отметил проблемы с контролем скорости зондов .
- Gemini 2.5 Pro: Создала масштабный симулятор, но функция запуска зонда по клику мыши не сработала .
- Claude 3.7: Уэс похвалил графику и управление, но заметил, что гравитационное влияние планет на зонд практически отсутствовало .
Ведущий пришел к выводу, что в данном конкретном случае o4-mini справилась лучше всех, несмотря на свою простоту .
⚽ Киберфутбол: RPG-механики и визуальные эффекты 16:27
Заключительное испытание — автономный футбол 3 на 3 с элементами прокачки. У каждого игрока должны быть характеристики (сила, скорость, точность), опыт (XP) и уровни . Также требовались визуальные эффекты: дрожание экрана (screen shake) и замедление времени при голе .
- Gemini 2.5 Pro: По мнению Рота, эта модель заслужила оценку «A+». Она реализовала отличную механику ударов, систему уровней и детальную статистику персонажей . Уэс назвал результат «феноменальным» .
- Claude 3.7: Несмотря на хорошие визуальные наработки, игра вылетела с ошибкой при расчете дистанции до мяча .
- o3: Модель не справилась с задачей .
🏆 Итоги противостояния 19:22
Подводя итоги, Уэс Рот отметил, что выбор «лучшего» ИИ зависит от конкретной задачи :
- Claude 3.7 Sonnet демонстрирует поразительные способности в сложной логике и одноэтапном создании многокомпонентных систем (как в случае с обучением нейросети).
- Gemini 2.5 Pro показывает себя как крайне надежный инструмент для создания сложных механик и игровых систем, «не сдаваясь без боя» конкурентам .
- Модели OpenAI (o3 и mini-версии) остаются сильными игроками, но иногда проигрывают в стабильности выполнения комплексных Python-скриптов.