Уэс Рот: «Мир не был готов к выходу Gemini 3»

Мир оказался не готов к стремительному развитию технологий, продемонстрированному в последних обновлениях нейросетей. Популярный технологический блогер Уэс Рот (Wes Roth) в своём новом обзоре анализирует феномен «vibe coding» (программирование на уровне ощущений), захлестнувший сообщество после выхода Gemini 3. По мнению автора, эта модель стала своего рода «чёрной дырой», поглотившей всё внимание индустрии благодаря своей способности создавать сложные интерактивные миры по простым текстовым запросам.

🕹️ Эпоха «vibe coding»: от Doom до симуляторов парков 0:00

Понятие «vibe coding» стало центральным в обсуждении возможностей Gemini 3 . Этот термин описывает процесс создания программного обеспечения, при котором пользователь лишь задаёт общее настроение или концепцию, а нейросеть берет на себя всю техническую реализацию. Результаты, которые демонстрируют пользователи, варьируются от забавных модификаций до полноценных 3D-сред.

Среди наиболее ярких примеров, упомянутых в обзоре:

Корпоративный Doom: Версия легендарной игры, где вместо космического десантника действует инспектор по кадрам, а противниками выступают агрессивные овощи (турнепс) .
3D-редактор Lego: Полноценный инструмент для сборки моделей из конструктора .
Зоопарк бегемотов в Minecraft: Интерактивная среда, созданная по краткому описанию .
Персональные ассистенты: Интерфейсы в стиле Джарвиса из «Железного человека», обладающие высокой степенью интерактивности .

Особое внимание Уэс Рот уделяет личному опыту Демиса Хассабиса, сооснователя Google DeepMind . Хассабис сообщил, что с помощью Gemini 3 и Google AI Studio он за несколько часов воссоздал тестовую среду своей игры Theme Park, которую он программировал ещё в 90-е годы. Хассабис подчеркнул, что модель смогла реализовать даже такие специфические детали, как настройка количества соли на картофельных чипсах для управления жаждой посетителей . По мнению Уэса Рота, геймеры внесли неоценимый вклад в развитие ИИ, поскольку именно их запросы на качественную графику стимулировали развитие мощных GPU от Nvidia .

🔬 Визуализация данных и научные симуляции 2:01

Возможности Gemini 3 выходят далеко за пределы простых игр. Пользователи начали использовать модель для визуализации сложных концепций в области машинного обучения и физики.

В обзоре демонстрируются следующие проекты:

3D-репрезентация nanoGPT: Визуализация архитектуры малой языковой модели, созданной Андреем Карпати . На экране отображаются слои эмбеддингов и блоки нейросети. Уэс Рот отмечает, что хотя неясно, использует ли проект реальный код nanoGPT с GitHub, графическое исполнение выглядит феноменально .
Реалистичный кубик Рубика: Созданный с помощью библиотеки Three.js с экстремальным уровнем детализации и реализма на тёмном фоне .
«Black Hole: A Space Odyssey»: Научная визуализация от разработчика под ником Sohan . Это интерактивный туториал, имитирующий искривление света (эффект Доплера) при приближении к чёрной дыре. Проект включает в себя «тест на мудрость» (викторину) и режим свободного полёта с качественным музыкальным сопровождением .

🏙️ Прорыв в игровой физике: разрушаемые миры 6:08

Одним из самых впечатляющих достижений Уэс Рот считает создание игры с воксельной графикой и полностью разрушаемой средой . Блогер утверждает, что ранее не видел ничего подобного, созданного нейросетью по текстовому запросу.

Особенности этого проекта:

Динамическое разрушение: При попадании снарядов от зданий отлетают куски, что сопровождается звуковыми эффектами .
Арсенал оружия: В игре реализовано несколько типов вооружения, включая «сингулярность» (гравитационный коллапс) и тактический ядерный удар .
Сложность реализации: Рот полагает, что никакая другая существующая модель ИИ на данный момент не способна создать проект такой технической сложности . Хотя при масштабных взрывах частота кадров (FPS) заметно падает, сам факт реализации такой физики в браузере поражает автора .

🧠 Философия и «глубокое мышление» ИИ 9:00

Помимо графических достижений, Gemini 3 демонстрирует успехи в аналитических задачах. Сообщается, что модель стала первой большой языковой моделью (LLM), сумевшей победить профессиональных игроков в GeoGuessr . Уэс Рот предупреждает, что теперь любое фото из интернета десятилетней давности может быть использовано ИИ для точного определения местоположения пользователя .

Особый интерес вызвал ответ модели на запрос о «новом глубоком инсайте о человечестве» . Хотя Рот уточняет, что это не был официальный режим «Deep Think» (который на момент записи видео доступен лишь ранним тестерам), ответ ИИ оказался крайне философским.

Модель выдвинула тезис о том, что люди не эволюционировали для восприятия объективной реальности . Согласно аргументации ИИ:

Естественный отбор способствует выживанию тех видов, которые воспринимают мир через упрощенный «пользовательский интерфейс», оптимизированный для полезности, а не для истины .
Объективная реальность скрыта от нас биологическими механизмами.
Наш мозг фактически «галлюцинирует» окружающий мир, интерпретируя потоки фотонов с помощью протеинов в глазах .

🤟 Доступность и инклюзивность 11:00

В завершение обзора Уэс Рот демонстрирует проект Али К. Миллер под названием «Sign Lingo Live» . С помощью Gemini 3 она создала приложение, которое через веб-камеру в реальном времени распознаёт язык жестов. Система показывает уровень уверенности модели в распознанном знаке, что, по мнению автора, является отличным примером практического применения технологии для улучшения жизни людей с ограниченными возможностями .