Уэс Рот: «Google выиграла гонку ИИ-кодинга благодаря Gemini»

Wes Roth 51,7 тыс. 50 мин 9 мин 07.05.2025
Главное

Известный ИТ-исследователь и блогер Уэс Рот представил подробный разбор обновленной модели искусственного интеллекта Gemini 2.5 Pro от компании Google. В центре внимания оказалась новая интерактивная функция холста (Canvas), которая превращает обычный чат-бот в полноценную среду для веб-разработки и запуска приложений в реальном времени. По оценке автора, этот релиз кардинально меняет правила игры в сфере автоматической генерации кода, выводя технологические возможности ИТ-гиганта на лидирующие позиции.

🚀 Смена лидера на арене веб-разработки и запуск функции Canvas 0:00

Компания Google выпустила крупное обновление для своего флагманского ИИ-семейства — модель Gemini 2.5 Pro (в интерфейсе Google AI Studio она обозначается как сборка от 6 мая под кодом 0506, а в твиттере упоминается как «IO edition»). Уэс Рот отмечает, что эта версия, скорее всего, совпадает с секретными экспериментальными прототипами, которые незадолго до официального релиза тестировались сообществом под кодовыми именами Nighthawk и Dragon Tail.

Буквально за несколько часов до записи обзора обновленная нейросеть совершила сенсационный прорыв: она заняла первую строчку в авторитетном международном рейтинге Webdev Arena на платформе LM Arena. Модели от Google удалось сместить прежнего многолетнего лидера в дисциплине веб-разработки — модель Claude 3.7 Sonnet от Anthropic.

Главным интерфейсным нововведением для обычных пользователей стало появление интерактивного холста (Canvas) непосредственно на сайте gemini.google.com. Как напоминает ведущий, исторически первопроходцем в использовании подобного формата разделения экрана была компания Anthropic со своими «артефактами».

Суть технологии заключается в том, что чат-бот больше не просто выдает сплошной текст программного кода. Вместо этого в правой боковой панели открывается полноценная изолированная среда веб-браузера, которая автоматически компилирует, собирает и запускает интерактивные приложения или игры «на лету».

Помимо визуализации, интерфейс Canvas от Google получил несколько важных сопутствующих инструментов:

Ведущий подчеркивает, что подобный комплексный функционал интеграции интерактивного холста в экосистему Gemini демонстрируется широкой публике впервые.

🏙️ Создание 3D-симулятора города: от кубиков к текстурам и трафику 1:18

В качестве первого практического испытания Уэс Рот попросил экспериментальную модель создать трехмерное веб-приложение, симулирующее прогулку пешехода по мегаполису. С первой же попытки Gemini 2.5 Pro выдала рабочий трехмерный движок. Пользователь получил возможность перемещаться в пространстве с помощью классической раскладки клавиш WASD, осматриваться по сторонам мышью и созерцать текстурированные небоскребы с динамически просчитываемыми тенями. Единственным недочетом первой версии было отсутствие физических коллизий: камера могла беспрепятственно проходить сквозь стены сооружений.

Перед тем как продолжить масштабное усложнение кода, автор видео делится забавным бытовым наблюдением: прямо перед записью ролика он зашел в Starbucks, где бариста оставила на его стаканчике с кофе рисунок в виде сердечка. По мнению Уэса Рота, он либо смог произвести на сотрудника кофейни неизгладимое приятное впечатление, либо бренд использует данный милый жест в качестве массового маркетингового стандарта для абсолютно всех клиентов.

Возвращаясь к программированию, ведущий отправил ИИ запрос на добавление дорожной разметки, полноценных тротуаров и автомобильного трафика. Эта комплексная задача временно запутала нейросеть: в коде инвертировались клавиши горизонтального стрейфа, а коробки многоэтажных зданий сгенерировались хаотично, заблокировав проезжую часть.

Анализируя внутренние логи рассуждений ИИ (chain of thought), Уэс Рот обратил внимание, насколько глубоко модель погрузилась в геометрию сцены. Нейросеть начала пошагово вычислять координаты дорожного полотна по условной оси x=0, чтобы математически запретить объектам пересекаться и накладываться друг на друга.

Последующие патчи, сгенерированные Gemini, исправили баги и превратили проект в комплексную симуляцию городского трафика:

В финале итерационного процесса Уэс Рот выстроил вокруг мегаполиса живописную береговую линию с песчаными пляжами и бесконечным океаном. Хотя некоторые виртуальные машины из-за сбоев навигации все же уезжали штурмовать водную гладь, общая картина симулятора заслужила от блогера твердую оценку «А».

🌌 Задача трёх тел: визуализация космического хаоса 19:39

Вторым масштабным экспериментом стала попытка смоделировать знаменитую астрофизическую задачу трех тел. Идея пришла к ведущему во время просмотра одноименного научно-фантастического сериала на Netflix, который произвел на него сильное впечатление качеством режиссуры и масштабностью съемок. Уэс Рот отдельно попросил зрителей в комментариях избегать спойлеров, поскольку сам он успел посмотреть картину только до половины.

Основная сложность заключалась в том, чтобы заставить Gemini 2.5 Pro воспроизвести специфический визуальный прием из сериала — одновременный показ классической карты звездной системы и перспективы неба, какой её видит наблюдатель, находящийся непосредственно на поверхности планеты. ИИ успешно справился со структурированием интерфейса, разделив рабочую область холста Canvas на два независимых экрана:

  1. Левая панель: глобальный интерактивный вид на миниатюрную вселенную, где маленькая зеленая обитаемая планета вращается вокруг трех массивных солнц (красного, желтого и синего).
  2. Правая панель: трехмерная симуляция небосвода с поверхности этой планеты, на котором гигантские диски светил динамически меняют свои размеры и траектории.

Поскольку в задаче трех тел отсутствует стабильное аналитическое математическое решение, орбита планеты постоянно искажается под воздействием меняющихся векторов гравитационных сил со стороны массивных солнц.

В первой симуляции, когда Уэс Рот выставил ускорение времени на отметку 100x, гравитационный хаос привел к драматическому финалу: планету мощным импульсом выбросило за пределы звездной системы в открытый космос. Ведущий назвал этот сценарий крайне меланхоличным. По его словам, если бы гипотетические жители планеты смогли пережить такой катаклизм в глубоких подземных бункерах, они бы наблюдали в свои телескопы, как их родные три солнца безвозвратно тускнеют и уменьшаются, улетая в космическую пустоту.

Второй запуск симуляции выдал принципиально иную траекторию движения. Обитаемый мир сначала закрепился на орбите желтого солнца, затем попал в зону притяжения красного гиганта, совершил опасный гравитационный маневр возле синего светила и вновь вернулся к красному солнцу.

Чтобы добиться плавности визуализации, автору пришлось вручную просить ИИ расширить угол обзора виртуальной камеры (FOV) до 120 градусов. Это позволило избежать смазывания и размытия картинки, когда массивные космические тела пролетали на огромной скорости в опасной близости от экрана. Итоговый результат симулятора космоса получил от Рота восторженную оценку «А+».

🎮 Триумф визуального мышления ИИ: разбор deadlock-ошибки по скриншоту 25:00

Наиболее показательным тестом, продемонстрировавшим качественный скачок в развитии когнитивных способностей Gemini 2.5 Pro, стала разработка инкрементальной текстово-графической стратегии Idle Villager Empire. По изначальному текстовому запросу Рота нейросеть создала комплексный игровой экономический цикл: внедрила базовые ресурсы (крестьяне, дерево, железо, камень), запрограммировала распределение рабочих по профессиям (фермеры, дровосеки) и добавила функционал для ускорения хода времени в 10 или 100 раз. Модель самостоятельно, без дополнительных подсказок, внедрила продвинутые механики, включая систему голодания и гибели населения в случае дефицита еды на складах.

Однако в ходе игры Уэс Рот столкнулся с классической ошибкой проектирования игрового баланса (deadlock), которая полностью блокировала дальнейший прогресс. Сложилась следующая ситуация:

Вместо того чтобы описывать ИИ эту логическую дилемму текстом, автор пошел на эксперимент: он сделал обычный скриншот заблокированного игрового интерфейса, загрузил картинку в чат-бот и написал максимально лаконичную фразу: «Проблема, не могу продолжить».

Результат визуального анализа (visual reasoning) со стороны Gemini 2.5 Pro превзошел ожидания блогера. Нейросеть детально отсканировала изображение и в блоке внутренних рассуждений пошагово разложила ситуацию: она распознала точные числовые значения всех ресурсов, прочитала текстовые алерты в системных логах о переполнении продовольственного хранилища и безошибочно определила, что кнопка апгрейда Склада подсвечена серым цветом, то есть заблокирована.

В огромном массиве сгенерированного текста рассуждений ИИ выделил жирным шрифтом всего одно-единственное слово — warehouse. Модель выдала лаконичное человекоподобное резюме: «Главная критическая точка — это склад. У игрока сейчас ноль складов».

Поняв суть системного тупика, Gemini не просто увеличила лимит, а комплексно переписала математический баланс игры: она отрегулировала коэффициенты добычи ресурсов, добавила новые ступени апгрейдов и параллельно самостоятельно нашла и исправила мелкий визуальный баг с кнопками таймера, о котором Уэс Рот ей вообще не сообщал.

По мнению автора, скорость эволюции технологий поражает:

«Год назад подобный уровень взаимодействия был фантастикой. Два года назад большие языковые модели вообще с трудом генерировали простейшие скрипты. Сегодня мы дожили до момента, когда ИИ способен проводить глубокий визуальный аудит интерфейса, выявлять логические баги проектирования по скриншоту и самостоятельно их ликвидировать».

Блогер считает, что индустрия находится в шаге от создания полностью автономных замкнутых циклов разработки, когда нейросеть будет сама компилировать код, сама делать скриншоты экрана, находить ошибки и непрерывно улучшать продукт без какого-либо участия человека.

🗺️ Прототипирование 2D-симулятора жизни и выводы о потенциале модели 38:29

Последним и самым капризным в плане разработки проектом стал двухмерный симулятор жизни мегаполиса с видом сверху, концептуально напоминающий инди-игры в духе Schedule One (смесь стилистики сериала Breaking Bad и мультсериала Южный Парк). Идея заключалась в создании симуляции живого города, где каждый сгенерированный персонаж (NPC) обладает жестким индивидуальным расписанием дня. Утром фигурки человечков выходят из жилых зон, идут на работу в офисы и магазины, а в течение дня тратят заработанные средства в коммерческих заведениях.

Программирование этой механики шло сложнее всего. Даже несмотря на плоский 2D-формат, код регулярно выдавал критические ошибки, ломал отрисовку спрайтов и требовал долгого итерационного общения. В итоге Уэсу Роту все же удалось получить работоспособный прототип, где пользователь управляет главным героем с балансом в $1000. Игрок может подходить к коммерческим точкам (таким как Global Systems, United Core, Global Limited, Tech Grand или Ace Goods), выкупать их в собственность нажатием клавиши B и затем забирать накопленную кассу кнопкой E, увеличивая личный капитал.

Также была успешно реализована механика маркетингового интерактива: игрок может подбегать к случайным прохожим на улице и нажатием клавиши C раздавать им рекламные купоны, после чего алгоритм NPC пересчитывает приоритеты и направляет пешехода совершать покупки именно в магазин пользователя. За обилие багов в процессе создания данный проект удостоился от ведущего более сдержанной оценки B+.

Подводя итог многочасового тестирования Gemini 2.5 Pro, Уэс Рот сформировал список ключевых технологических преимуществ обновленной платформы от Google:

По мнению Уэса Рота, за счет феноменального контекстного окна объемом в 1 миллион токенов Gemini удерживает лидерство по стабильности долгой итерационной разработки. Блогер резюмирует, что Google развернула агрессивное наступление по всем технологическим фронтам, оперативно копируя удачные интерфейсные находки OpenAI и Anthropic и успешно переигрывая их на поле веб-разработки.

💬 Цитаты

«С первого взгляда это выглядит действительно впечатляюще.»

«Год назад это было невозможно. Два года назад ИИ вообще не умел кодить.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Canvas (Холст)
Интерактивная боковая панель в интерфейсе чат-бота, позволяющая запускать и тестировать сгенерированный код прямо на месте.
Deadlock (Тупик)
Ситуация в дизайне игры или программировании, когда дальнейший прогресс невозможен из-за взаимно блокирующих условий.
Vibe coding
Процесс создания программного обеспечения, при котором разработчик общается с ИИ на естественном языке, не вникая глубоко в написание строк кода.
Chain of thought (Цепочка рассуждений)
Метод работы языковой модели, при котором она пошагово разбирает логику задачи перед выдачей финального ответа.
📊 Цифры
🗓 Хронология
  1. 6 мая Официальная дата сборки протестированной версии модели Gemini 2.5 Pro (0506) в ИИ-студии.
⚖️ Другая сторона
Искусственный интеллект Google Gemini Wes Roth ИИ-кодинг Canvas