Уэс Рот: «Gemini 2.5 Pro — это абсолютный зверь в кодинге»

Wes Roth 112 тыс. 46 мин 7 мин 28.03.2025
Главное

Появление экспериментальной языковой модели Gemini 2.5 Pro от компании Google ознаменовало новый этап в индустрии автоматической генерации кода и веб-разработки. Популярный IT-блогер Уэс Рот (Wes Roth) провел подробный разбор возможностей новой нейросети, протестировав её способность создавать сложные игровые симуляции, алгоритмы машинного обучения и интерактивные интерфейсы в режиме «vibe coding». На основе проведенных тестов эксперт оценил, насколько обоснованно претендует разработка Google на лидерство в технологическом секторе.

🚀 Триумф на LMSYS Arena и архитектурные особенности 0:00

Новая экспериментальная модель Gemini 2.5 Pro (версия 03-25) неожиданно для экспертного сообщества заняла первую строчку в глобальном рейтинге LMSYS Chatbot Arena. Продукт от Google продемонстрировал самый масштабный скачок по количеству баллов за всю историю существования платформы, опередив ближайших конкурентов в лице Grok 3 от xAI и GPT-4.5 от OpenAI сразу на 40 очков.

Модель удерживает абсолютное лидерство во всех ключевых дисциплинах, включая математику, креативное письмо и написание программного кода. Дата отсечки знаний (knowledge cutoff) для данной версии — январь 2025 года. На данный момент доступ к ней предоставляется бесплатно на платформе Google AI Studio.

Главной архитектурной особенностью Gemini 2.5 Pro, по мнению Уэса Рота, является уникальный паттерн мышления. В отличие от стандартных моделей, которые сначала генерируют внутреннее рассуждение (thought process), а затем сразу выдают ответ, Gemini 2.5 Pro осуществляет двухэтапный процесс. Нейросеть способна к глубокой рефлексии и самокоррекции непосредственно в процессе «размышления»: она анализирует собственный контекст, находит логические ошибки и оптимизирует код еще до начала вывода финального текста пользователю. Дополнительным технологическим преимуществом является контекстное окно объемом в 1 миллион токенов, что позволяет обрабатывать массивные кодовые базы целиком.

🐍 Эксперимент с машинным обучением: Q-Learning против DQN 2:48

Для проверки реальных когнитивных способностей модели ведущий поставил перед ней задачу, которую ранее не удавалось решить ни одной ИИ-модели за один промт (one shot). Gemini 2.5 Pro должна была с нуля написать полноценную игру «Змейка» на двоих игроков на языке Python, а также разработать полноценную архитектуру машинного обучения с подкреплением (Reinforcement Learning), чтобы обучить двух независимых агентов конкурировать друг с другом.

Модель успешно деконструировала запрос, самостоятельно определив пространство состояний, матрицу вознаграждений и штрафов, а также алгоритмическую разницу между агентами. В качестве механики обучения нейросеть предложила устроить сплит-тест двух разных подходов:

Нейросеть разработала детальную систему поощрений: +20 очков за поедание фрукта, +50 за сбор бонуса, ±30 очков за победу или поражение, а также микроштраф за каждый сделанный шаг для стимуляции скорости прохождения. В процессе рассуждения модель скорректировала свой первоначальный план, решив завершать игровой раунд сразу после смерти одной из змеек для экономии вычислительных ресурсов.

Хотя код не запустился с первого раза из-за синтаксической ошибки, Уэсу Роту потребовалось всего три итерации копирования логов ошибок обратно в чат, чтобы Gemini полностью исправила проект. Вся структура (включая файлы зависимостей requirements.txt с библиотекой PyTorch от Meta) была сведена в один файл для удобства тестирования.

Запущенная за кулисами (в headless-режиме без отрисовки графики для ускорения процесса) симуляция на 10 000 эпизодов наглядно продемонстрировала эволюцию алгоритмов. На старте средний счет обоих игроков составлял ничтожные 0.04 и 0.06 балла. Однако ближе к середине цикла DQN-агент (Игрок 2) резко вырвался вперед. На отметке в 6000 раундов нейросетевой агент стабильно набирал в среднем 2.13 очка, в то время как табличный Q-learning стагнировал на уровне 0.2 очка. Тестирование заняло от 6 до 10 минут реального времени. Уэс Рот подчеркнул, что Gemini 2.5 Pro превзошла специализированного ИИ-агента Manus AI (работающего на базе Claude 3.5 Sonnet), поскольку Manus выполнял аналогичную задачу 15 минут внутри виртуальной машины Linux и не предоставил пользователю исходный код для верификации.

⚽ От ретро-футбола до интерактивной доски Гальтона 17:48

Следующие тесты касались возможностей модели в сфере компьютерного зрения и быстрой итерации UI. Уэс Рот загрузил скриншот футбольного симулятора 1990 года для консоли Nintendo и попросил создать аналогичную самоиграющуюся игру на базе библиотеки Pygame с функцией отображения траектории движения игроков и живой статистикой.

Первая же выданная версия заработала без единой ошибки, продемонстрировав плавную анимацию. В рамках второй итерации ведущий усложнил задачу, попросив детализировать интерфейс:

ИИ безошибочно интегрировал данные требования в кодовую базу.

Не менее успешным стал эксперимент по визуализации доски Гальтона (устройства для демонстрации нормального распределения вероятностей). Модель создала симуляцию, снабженную полным набором интерактивных слайдеров. Пользователь может в реальном времени изменять количество шаров, рядов штырей, скорость падения, размер частиц и, что самое главное, задавать левое или правое смещение (bias) вероятности.

По запросу «прокачать визуал до 11 из 10» Gemini 2.5 Pro перевела симуляцию на полноценный физический движок, добавила динамическое изменение цвета шаров при падении, шлейфы движения и всплывающие индикаторы с номерами корзин и общим счетом. Уэс Рот оценил этот результат на 9 баллов из 10, отметив феноменальную стабильность кода: модель практически никогда не ломает существующую логику при добавлении новых функций.

📺 Симуляция ТВ-каналов и провал с веб-камерой в Flappy Bird 24:52

Вдохновившись хакатоном «Vibe Jam 2025», организованным разработчиком Питером Левелсом (Peter Levels), где участники создавали игры исключительно с помощью промтов, Уэс Рот попытался воспроизвести один из самых ярких проектов — трехмерный клон Flappy Bird, управляемый взмахами рук перед веб-камерой.

Модель сгенерировала стандартный стек из трех файлов (index.html, game.js, style.css). На этапе тестирования возникла критическая проблема: библиотека успешно перехватывала видеопоток, корректно накладывала маску на пальцы ведущего и распознавала жесты (кулак, знак мира, жест «ОК») в верхнем углу экрана, однако сам игровой мир и спрайт птицы на веб-странице не отрендерились, оставив лишь черный экран. Попытки исправить стили и структуру документа к успеху не привели.

В противовес этой неудаче, Gemini 2.5 Pro продемонстрировала великолепный результат при создании симулятора старого телевизора. По техническому заданию Александра Чана модель должна была запрограммировать ТВ-интерфейс, переключаемый кнопками от 0 до 9, где каждый канал транслирует уникальную процедурную анимацию определенного жанра. Нейросеть с первой попытки реализовала:

🏈 Кровавый спорт и симуляция пандемии: Blood Bowl и Plague Inc. 30:10

Одним из самых комплексных стал тест по воссозданию игровой механики настольной стратегии Blood Bowl (жестокая пародия на американский футбол в фэнтезийной вселенной Warhammer / D&D). Запрос включал детальные требования к симуляции матча между медлительными, но сильными Орками и ловкими быстрыми Эльфами. Параметры персонажей (сила, выносливость, ловкость, скорость) варьировались от 1 до 10, а все действия рассчитывались через виртуальный бросок 20-гранного кубика (D20), где 1 — критический провал, а 20 — критический успех. Была интегрирована жесткая система травм: при получении сильного удара выбрасывался дополнительный кубик, и выпадение единицы означало мгновенную смерть суперзвезды команды.

Изначально Gemini создала текстовую пошаговую версию игры в консоли, которая идеально и без ошибок обсчитывала все правила, включая фмбли, пасы и проверки на переломы. Перевод игры на рельсы реального времени с двухмерной графикой Pygame выявил проблемы с позиционированием: ИИ эльфов застревал в бесконечных стычках с орками вместо того, чтобы бежать с мячом к зачетной зоне. Ведущему пришлось внедрить в системный промт жесткое правило: «Всегда выдавай кодовую базу целиком, а не только измененный кусок», поскольку модель часто ленилась и присылала лишь патчи. После финальной корректировки логики игра заработала идеально: эльфы начали выстраивать защитные формации, отдавать пасы в прорыв и заносить тачдауны.

Напоследок Уэс Рот проверил, способна ли Gemini 2.5 Pro обработать гигантское описание механик популярной игры Plague Inc. (симулятор глобальной пандемии). Модель успешно сгенерировала масштабную карту мира с разделением на государства. Стартовав с «пациента ноль» в изолированном Мадагаскаре с 20 очками ДНК, симуляция позволила игроку мутировать симптомы (кашель, сыпь) и способы передачи инфекции (через воздух или землю). При переносе очага в высоконаселенный Китай графический интерфейс наглядно отобразил экспоненциальный рост заражения до 3000 человек, подтвердив способность Gemini 2.5 Pro удерживать в памяти масштабные комплексные ТЗ.

💬 Цитаты

«Это первая модель, на которой я смог с одного промта выполнить одно из самых сложных заданий, что я когда-либо пробовал.»

Уэс Рот 0:27

«Как можно не испытывать хайп, когда вы понимаете, что именно она делает? Три-четыре года назад ИИ не умел кодить. Теперь он пишет код и настраивает машинное обучение.»

Уэс Рот 8:25
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Контекстное окно
Максимальный объем данных (текста, кода), который нейросеть способна удерживать в оперативной памяти одновременно.
DQN (Deep Q-Network)
Алгоритм обучения с подкреплением, использующий глубокую нейросеть для прогнозирования наиболее выгодных действий агента в среде.
Headless mode
Режим работы программного обеспечения (или игры) без запуска графического интерфейса пользователя для экономии ресурсов.
Vibe coding
Процесс создания программного обеспечения, при котором разработчик пишет код исключительно высокоуровневыми командами через ИИ-чат.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Gemini 2.5 Pro Google AI Studio Deep Q-Network Pygame