Известный ИТ-исследователь и блогер Уэс Рот представил подробный разбор обновленной модели искусственного интеллекта Gemini 2.5 Pro от компании Google. В центре внимания оказалась новая интерактивная функция холста (Canvas), которая превращает обычный чат-бот в полноценную среду для веб-разработки и запуска приложений в реальном времени. По оценке автора, этот релиз кардинально меняет правила игры в сфере автоматической генерации кода, выводя технологические возможности ИТ-гиганта на лидирующие позиции.
🚀 Смена лидера на арене веб-разработки и запуск функции Canvas 0:00
Компания Google выпустила крупное обновление для своего флагманского ИИ-семейства — модель Gemini 2.5 Pro (в интерфейсе Google AI Studio она обозначается как сборка от 6 мая под кодом 0506, а в твиттере упоминается как «IO edition»). Уэс Рот отмечает, что эта версия, скорее всего, совпадает с секретными экспериментальными прототипами, которые незадолго до официального релиза тестировались сообществом под кодовыми именами Nighthawk и Dragon Tail.
Буквально за несколько часов до записи обзора обновленная нейросеть совершила сенсационный прорыв: она заняла первую строчку в авторитетном международном рейтинге Webdev Arena на платформе LM Arena. Модели от Google удалось сместить прежнего многолетнего лидера в дисциплине веб-разработки — модель Claude 3.7 Sonnet от Anthropic.
Главным интерфейсным нововведением для обычных пользователей стало появление интерактивного холста (Canvas) непосредственно на сайте gemini.google.com. Как напоминает ведущий, исторически первопроходцем в использовании подобного формата разделения экрана была компания Anthropic со своими «артефактами».
Суть технологии заключается в том, что чат-бот больше не просто выдает сплошной текст программного кода. Вместо этого в правой боковой панели открывается полноценная изолированная среда веб-браузера, которая автоматически компилирует, собирает и запускает интерактивные приложения или игры «на лету».
Помимо визуализации, интерфейс Canvas от Google получил несколько важных сопутствующих инструментов:
- Упрощенную систему контроля версий, позволяющую пошагово переключаться между прошлыми и будущими итерациями генерации кода.
- Консоль разработчика для отслеживания системных логов и программных ошибок.
- Кнопку быстрой публикации проекта, создающую прямую ссылку для обмена веб-приложением с другими людьми.
Ведущий подчеркивает, что подобный комплексный функционал интеграции интерактивного холста в экосистему Gemini демонстрируется широкой публике впервые.
🏙️ Создание 3D-симулятора города: от кубиков к текстурам и трафику 1:18
В качестве первого практического испытания Уэс Рот попросил экспериментальную модель создать трехмерное веб-приложение, симулирующее прогулку пешехода по мегаполису. С первой же попытки Gemini 2.5 Pro выдала рабочий трехмерный движок. Пользователь получил возможность перемещаться в пространстве с помощью классической раскладки клавиш WASD, осматриваться по сторонам мышью и созерцать текстурированные небоскребы с динамически просчитываемыми тенями. Единственным недочетом первой версии было отсутствие физических коллизий: камера могла беспрепятственно проходить сквозь стены сооружений.
Перед тем как продолжить масштабное усложнение кода, автор видео делится забавным бытовым наблюдением: прямо перед записью ролика он зашел в Starbucks, где бариста оставила на его стаканчике с кофе рисунок в виде сердечка. По мнению Уэса Рота, он либо смог произвести на сотрудника кофейни неизгладимое приятное впечатление, либо бренд использует данный милый жест в качестве массового маркетингового стандарта для абсолютно всех клиентов.
Возвращаясь к программированию, ведущий отправил ИИ запрос на добавление дорожной разметки, полноценных тротуаров и автомобильного трафика. Эта комплексная задача временно запутала нейросеть: в коде инвертировались клавиши горизонтального стрейфа, а коробки многоэтажных зданий сгенерировались хаотично, заблокировав проезжую часть.
Анализируя внутренние логи рассуждений ИИ (chain of thought), Уэс Рот обратил внимание, насколько глубоко модель погрузилась в геометрию сцены. Нейросеть начала пошагово вычислять координаты дорожного полотна по условной оси x=0, чтобы математически запретить объектам пересекаться и накладываться друг на друга.
Последующие патчи, сгенерированные Gemini, исправили баги и превратили проект в комплексную симуляцию городского трафика:
- Здания получили твердые физические границы, исключающие сквозное прохождение камеры.
- Были добавлены пешеходы, которые поначалу хаотично перебегали улицы и внезапно исчезали («прямо как в Лос-Анджелесе», шутит автор), но затем научились дисциплинированно ходить строго по тротуарам и переходить дороги по «зебре».
- Модель развернула рабочую систему светофоров с циклическим переключением зеленого, желтого и красного сигналов.
- Автомобили (среди которых ИИ запрограммировал седаны, грузовики и даже массивные автобусы) обрели сложную логику поведения: они начали заблаговременно останавливаться на красный свет и терпеливо выстраиваться друг за другом в очереди на перекрестках, вместо того чтобы хаотично сливаться текстурами.
В финале итерационного процесса Уэс Рот выстроил вокруг мегаполиса живописную береговую линию с песчаными пляжами и бесконечным океаном. Хотя некоторые виртуальные машины из-за сбоев навигации все же уезжали штурмовать водную гладь, общая картина симулятора заслужила от блогера твердую оценку «А».
🌌 Задача трёх тел: визуализация космического хаоса 19:39
Вторым масштабным экспериментом стала попытка смоделировать знаменитую астрофизическую задачу трех тел. Идея пришла к ведущему во время просмотра одноименного научно-фантастического сериала на Netflix, который произвел на него сильное впечатление качеством режиссуры и масштабностью съемок. Уэс Рот отдельно попросил зрителей в комментариях избегать спойлеров, поскольку сам он успел посмотреть картину только до половины.
Основная сложность заключалась в том, чтобы заставить Gemini 2.5 Pro воспроизвести специфический визуальный прием из сериала — одновременный показ классической карты звездной системы и перспективы неба, какой её видит наблюдатель, находящийся непосредственно на поверхности планеты. ИИ успешно справился со структурированием интерфейса, разделив рабочую область холста Canvas на два независимых экрана:
- Левая панель: глобальный интерактивный вид на миниатюрную вселенную, где маленькая зеленая обитаемая планета вращается вокруг трех массивных солнц (красного, желтого и синего).
- Правая панель: трехмерная симуляция небосвода с поверхности этой планеты, на котором гигантские диски светил динамически меняют свои размеры и траектории.
Поскольку в задаче трех тел отсутствует стабильное аналитическое математическое решение, орбита планеты постоянно искажается под воздействием меняющихся векторов гравитационных сил со стороны массивных солнц.
В первой симуляции, когда Уэс Рот выставил ускорение времени на отметку 100x, гравитационный хаос привел к драматическому финалу: планету мощным импульсом выбросило за пределы звездной системы в открытый космос. Ведущий назвал этот сценарий крайне меланхоличным. По его словам, если бы гипотетические жители планеты смогли пережить такой катаклизм в глубоких подземных бункерах, они бы наблюдали в свои телескопы, как их родные три солнца безвозвратно тускнеют и уменьшаются, улетая в космическую пустоту.
Второй запуск симуляции выдал принципиально иную траекторию движения. Обитаемый мир сначала закрепился на орбите желтого солнца, затем попал в зону притяжения красного гиганта, совершил опасный гравитационный маневр возле синего светила и вновь вернулся к красному солнцу.
Чтобы добиться плавности визуализации, автору пришлось вручную просить ИИ расширить угол обзора виртуальной камеры (FOV) до 120 градусов. Это позволило избежать смазывания и размытия картинки, когда массивные космические тела пролетали на огромной скорости в опасной близости от экрана. Итоговый результат симулятора космоса получил от Рота восторженную оценку «А+».
🎮 Триумф визуального мышления ИИ: разбор deadlock-ошибки по скриншоту 25:00
Наиболее показательным тестом, продемонстрировавшим качественный скачок в развитии когнитивных способностей Gemini 2.5 Pro, стала разработка инкрементальной текстово-графической стратегии Idle Villager Empire. По изначальному текстовому запросу Рота нейросеть создала комплексный игровой экономический цикл: внедрила базовые ресурсы (крестьяне, дерево, железо, камень), запрограммировала распределение рабочих по профессиям (фермеры, дровосеки) и добавила функционал для ускорения хода времени в 10 или 100 раз. Модель самостоятельно, без дополнительных подсказок, внедрила продвинутые механики, включая систему голодания и гибели населения в случае дефицита еды на складах.
Однако в ходе игры Уэс Рот столкнулся с классической ошибкой проектирования игрового баланса (deadlock), которая полностью блокировала дальнейший прогресс. Сложилась следующая ситуация:
- Текущая вместимость хранилища древесины была жестко ограничена лимитом в 100 единиц.
- Ресурсы игрока полностью заполнились, достигнув пикового значения 100 из 100.
- Для увеличения лимита требовалось построить новое здание — Warehouse (Склад).
- Стоимость постройки Склада составляла 150 единиц древесины. Таким образом, накопить на расширение было физически невозможно.
Вместо того чтобы описывать ИИ эту логическую дилемму текстом, автор пошел на эксперимент: он сделал обычный скриншот заблокированного игрового интерфейса, загрузил картинку в чат-бот и написал максимально лаконичную фразу: «Проблема, не могу продолжить».
Результат визуального анализа (visual reasoning) со стороны Gemini 2.5 Pro превзошел ожидания блогера. Нейросеть детально отсканировала изображение и в блоке внутренних рассуждений пошагово разложила ситуацию: она распознала точные числовые значения всех ресурсов, прочитала текстовые алерты в системных логах о переполнении продовольственного хранилища и безошибочно определила, что кнопка апгрейда Склада подсвечена серым цветом, то есть заблокирована.
В огромном массиве сгенерированного текста рассуждений ИИ выделил жирным шрифтом всего одно-единственное слово — warehouse. Модель выдала лаконичное человекоподобное резюме: «Главная критическая точка — это склад. У игрока сейчас ноль складов».
Поняв суть системного тупика, Gemini не просто увеличила лимит, а комплексно переписала математический баланс игры: она отрегулировала коэффициенты добычи ресурсов, добавила новые ступени апгрейдов и параллельно самостоятельно нашла и исправила мелкий визуальный баг с кнопками таймера, о котором Уэс Рот ей вообще не сообщал.
По мнению автора, скорость эволюции технологий поражает:
«Год назад подобный уровень взаимодействия был фантастикой. Два года назад большие языковые модели вообще с трудом генерировали простейшие скрипты. Сегодня мы дожили до момента, когда ИИ способен проводить глубокий визуальный аудит интерфейса, выявлять логические баги проектирования по скриншоту и самостоятельно их ликвидировать».
Блогер считает, что индустрия находится в шаге от создания полностью автономных замкнутых циклов разработки, когда нейросеть будет сама компилировать код, сама делать скриншоты экрана, находить ошибки и непрерывно улучшать продукт без какого-либо участия человека.
🗺️ Прототипирование 2D-симулятора жизни и выводы о потенциале модели 38:29
Последним и самым капризным в плане разработки проектом стал двухмерный симулятор жизни мегаполиса с видом сверху, концептуально напоминающий инди-игры в духе Schedule One (смесь стилистики сериала Breaking Bad и мультсериала Южный Парк). Идея заключалась в создании симуляции живого города, где каждый сгенерированный персонаж (NPC) обладает жестким индивидуальным расписанием дня. Утром фигурки человечков выходят из жилых зон, идут на работу в офисы и магазины, а в течение дня тратят заработанные средства в коммерческих заведениях.
Программирование этой механики шло сложнее всего. Даже несмотря на плоский 2D-формат, код регулярно выдавал критические ошибки, ломал отрисовку спрайтов и требовал долгого итерационного общения. В итоге Уэсу Роту все же удалось получить работоспособный прототип, где пользователь управляет главным героем с балансом в $1000. Игрок может подходить к коммерческим точкам (таким как Global Systems, United Core, Global Limited, Tech Grand или Ace Goods), выкупать их в собственность нажатием клавиши B и затем забирать накопленную кассу кнопкой E, увеличивая личный капитал.
Также была успешно реализована механика маркетингового интерактива: игрок может подбегать к случайным прохожим на улице и нажатием клавиши C раздавать им рекламные купоны, после чего алгоритм NPC пересчитывает приоритеты и направляет пешехода совершать покупки именно в магазин пользователя. За обилие багов в процессе создания данный проект удостоился от ведущего более сдержанной оценки B+.
Подводя итог многочасового тестирования Gemini 2.5 Pro, Уэс Рот сформировал список ключевых технологических преимуществ обновленной платформы от Google:
- Интеллектуальная консоль и автоотладка: Наличие кнопки «Fix Issues» в консоли холста позволяет отправлять возникающие ошибки рендеринга обратно модели. ИИ эффективно оптимизирует код — например, проблему с перегрузкой шейдеров из-за обилия источников света в 3D-городе модель решила элегантной заменой точечных ламп (point lights) на самосветящиеся (emissive) материалы.
- ** Brain-dead simple контроль версий:** Максимально упрощенное переключение между версиями кода с помощью стрелок «назад» и «вперед» делает веб-разработку доступной для абсолютных новичков и детей.
- Бесшовная экосистема экспорта: Если холст Canvas не справляется со сложными вычислениями (например, при попытке запустить тяжелый скрипт на Python), платформа предлагает автоматический экспорт всего проекта в облачную интерактивную среду Google Colab.
- Доступность и открытость: Огромная часть функционала передовых моделей предоставляется компанией Google бесплатно, позволяя энтузиастам учиться кодить без необходимости оплачивать дорогие подписки.
По мнению Уэса Рота, за счет феноменального контекстного окна объемом в 1 миллион токенов Gemini удерживает лидерство по стабильности долгой итерационной разработки. Блогер резюмирует, что Google развернула агрессивное наступление по всем технологическим фронтам, оперативно копируя удачные интерфейсные находки OpenAI и Anthropic и успешно переигрывая их на поле веб-разработки.