Уэс Рот протестировал веб-разработку в Gemini 2.5 Pro IO Edition

Wes Roth 51,7 тыс. 50 мин 6 мин 07.05.2025
Главное

Компания Google выпустила экспериментальное обновление своей языковой модели Gemini 2.5 Pro, известное как сборка 0506 или IO Edition, которое сразу после релиза заняло верхнюю строчку в рейтинге веб-разработки LM Arena. Популярный технологический обозреватель Уэс Рот протестировал возможности обновленной нейросети в рамках встроенной среды Canvas, предназначенной для интерактивного создания и запуска кода. В ходе глубокого анализа эксперт оценил потенциал модели в генерации сложных 2D- и 3D-приложений, а также проверил ее навыки мультимодального визуального мышления при поиске критических багов.

🏆 Борьба за лидерство: Gemini против Claude 0:00

На платформе LM Arena (бывшая LMSYS) обновился авторитетный лидерборд Webdev Arena, фиксирующий успехи нейросетей в области веб-разработки. Долгое время верхнюю строчку удерживала модель Claude 3.7 Sonnet от компании Anthropic, однако новая экспериментальная сборка Gemini 2.5 Pro Preview 0506 сумела сместить конкурента с первой позиции. По словам Уэса Рота, эта версия, вероятно, тестировалась разработчиками в течение последних недель под внутренними кодовыми именами вроде Nighthawk и Dragon Tail.

Главным изменением в пользовательском опыте стало масштабное внедрение интерактивного рабочего пространства Canvas в экосистему Google. Сама концепция подобного разделенного экрана, где в одной части происходит диалог с чат-ботом, а в другой — рендеринг готового веб-приложения, изначально была представлена разработчиками из Anthropic. Теперь аналогичный инструмент доступен пользователям gemini.google.com при переключении на экспериментальную модель. Это избавляет от необходимости копировать сгенерированный код во внешние редакторы или IDE для проверки работоспособности интерфейсов.

🌆 Эволюция мегаполиса: Создание 3D-симулятора трафика 5:13

В качестве первого комплексного теста Уэс Рот запустил процесс пошаговой разработки трехмерного симулятора городского движения, задействовав библиотеки JavaScript. Проект развивался по методу последовательных итераций, что позволило наглядно оценить долгосрочную память модели и ее способность удерживать контекст.

Эволюция игрового движка проходила через следующие стадии:

Попытка обогатить симулятор реалистичными моделями транспорта привела к курьезным визуальным багам: автобусы и грузовики получили по одному колесу, а некоторые текстуры начали сливаться при столкновениях. Тем не менее, модель успешно справилась с интеграцией цикла смены дня и ночи, а также окружила мегаполис песчаными пляжами и океаном, в который, правда, периодически заезжали автомобили-амфибии. При возникновении критических ошибок шейдеров из-за избытка источников света, Canvas задействовал функцию автоматического исправления. Модель самостоятельно заменила точечные источники света (point lights) на светящиеся эмиссионные материалы (emissive materials), снизив нагрузку на графический конвейер.

🌌 Задача трёх тел: Гравитационный хаос на холсте 19:39

Вдохновившись научно-фантастическим сериалом «Задача трёх тел» от Netflix, ведущий поставил перед Gemini 2.5 Pro задачу смоделировать физику гравитационного взаимодействия трех массивных звезд и одной обитаемой планеты. Основная трудность заключалась в создании двух независимых окон обзора на одном экране: классического интерактивного вида звездной системы слева и панорамы от первого лица с поверхности планеты справа.

Потребовалось несколько итераций, чтобы отладить масштабирование камеры и расширить угол обзора (FOV) до 120°, предотвратив размытие пролетающих мимо светил. В ходе симуляции на ускоренной в 100 раз скорости пользователи могут наблюдать, как гравитационное притяжение синего, желтого и красного солнц постоянно меняет траекторию зеленой планеты. Уэс Рот отметил высокую точность симуляции хаотического движения, продемонстрировав один из финальных сценариев, когда планету на огромной скорости выбросило за пределы зоны притяжения в открытый космос, а три солнца начали медленно отдаляться на экране.

👁️ Визуальное мышление: Скриншот вместо ТЗ 25:12

Наиболее примечательным тестом мультимодальных способностей Gemini 2.5 Pro стало создание экономической idle-игры «Idle Villager Empire». Нейросеть самостоятельно, без детальных указаний, спроектировала базовую игровую экономику, включая распределение рабочих (лесорубы, фермеры), систему складов, лимиты ресурсов и механику голода населения.

В процессе усложнения математической прогрессии возник гейм-брейкинг баг (непроходимый тупик):

  1. Лимит хранения древесины на текущем уровне развития был жестко ограничен 100 единицами.
  2. Для постройки следующего здания — склада (Warehouse), увеличивающего этот лимит, требовалось затратить 150 единиц древесины.
  3. Игрок оказывался в ситуации экономического дедлока, лишенный возможности развиваться дальше.

Уэс Рот решил провести эксперимент в области так называемого «вайб-кодинга» (vibe coding). Вместо текстового объяснения ошибки он просто загрузил в чат скриншот заблокированного интерфейса игры с лаконичной припиской: «Проблема, не могу продолжить». Модель продемонстрировала выдающееся визуальное рассуждение. Проанализировав изображение, Gemini пошагово сопоставила данные: считала текущие запасы ресурсов, распознала текст в логах о переполнении хранилищ и определила, что кнопка апгрейда склада серая и неактивная из-за нехватки материалов.

Внутренний лог размышлений ИИ зафиксировал мгновенное обнаружение первопричины: «Ближайшее узкое место — склад (warehouse). У игрока 0 складов». На основе этого вывода Gemini не просто переписала лимиты, а точечно перебалансировала всю систему производства и потребления ресурсов, одновременно устранив мелкий визуальный дефект таймера, который обозреватель даже не упоминал. По мнению автора видео, еще год назад подобные комплексные мультимодальные задачи автоматического поиска и исправления багов по картинке были абсолютно невыполнимы для коммерческих нейросетей.

🪐 Космический трекинг и симуляция розничной торговли 34:46

Дополнительно в Canvas были протестированы еще два веб-приложения: трехмерная модель Солнечной системы и комплексный двухмерный сити-менеджер. В космическом симуляторе Gemini успешно реализовала алгоритмы привязки камеры к конкретному небесному телу, физику орбитального вращения и даже реалистичный эффект колебания (wobbling) колец Сатурна при максимальном ускорении времени. Единственной неудачей стала попытка сгенерировать текстуру Млечного Пути: вместо красивой панорамы ИИ построил вокруг сцены трехмерный куб с набором координатных меток, из-за чего фон пришлось вернуть к стандартным звездам.

Двухмерный симулятор города (2D City Sim) оказался самым проблемным в плане рендеринга и заработал оценку «B+» из-за регулярных сбоев кода на этапе компиляции. Идея была вдохновлена симуляторами живого мира, где каждый неигровой персонаж (NPC) имеет жесткое суточное расписание. Модель сумела закодить логику, при которой по утрам человечки-точки выходят из домов и идут на рабочие места в офисы и магазины.

Игровой процесс включал следующие элементы:

🛠️ Инструменты Canvas: Новая экосистема для обучения разработки 43:50

Анализируя софтверную сторону релиза, Уэс Рот подчеркнул, что встроенная консоль Canvas выводит диагностику на новый уровень: при возникновении программного сбоя пользователю достаточно нажать одну кнопку Fix errors, чтобы передать текст ошибки обратно в Gemini для автоисправления. Присутствует упрощенная система контроля версий (стрелки «назад» и «вперед»), заменяющая новичкам сложный функционал платформы GitHub и позволяющая мгновенно откатить неудачные изменения кода.

Готовыми проектами можно делиться с помощью прямой веб-ссылки, причем получателю не обязательно иметь аккаунт Google для запуска симуляции в браузере. Если приложение требует серверной логики на Python, Canvas предлагает бесшовный экспорт кода в интерактивную среду Google Colab.

По оценке Уэса Рота, за счет огромного контекстного окна в 1 миллион токенов и удобного интерфейса Canvas, корпорация Google смогла вплотную приблизиться к возможностям Anthropic и OpenAI в сегменте веб-разработки. Инструмент бесплатен в базовой версии, что делает его крайне перспективным решением для прототипирования и обучения программированию с нуля.

💬 Цитаты

«Что я могу сказать вам со своей стороны, так это то, что год назад это было невозможно. Две недели назад она даже писать код толком не умела.»

«Вся эта штука встроена в Canvas, и Canvas работает феноменально хорошо. Сверху есть консоль, которая показывает проблемы, и большая кнопка Fix Issues.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Canvas
Интерактивное рабочее пространство в интерфейсе нейросети, позволяющее параллельно вести чат и запускать генерируемый код.
Vibe coding
Процесс создания программного обеспечения, при котором человек лишь задает общее направление и описывает идеи, а ИИ пишет весь код.
Chain of Thought
Метод рассуждения языковых моделей, при котором они разбивают сложную задачу на последовательные логические шаги перед выдачей ответа.
Idle-игры
Жанр игр, игровой процесс в которых автоматизирован и практически не требует активных действий от пользователя.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Gemini 2.5 Pro Уэс Рот Google Canvas Claude 3.7 Sonnet