Уэс Рот: «ИИ Canvas от OpenAI становится новой операционной системой»

Компания OpenAI представила инструмент Canvas для ChatGPT, который предлагает принципиально новый формат взаимодействия с искусственным интеллектом при написании текстов и программировании. Популярный технологический блогер Уэс Рот в своем подробном обзоре протестировал новые возможности интерфейса на примере создания браузерной игры и объяснил, почему Canvas знаменует переход к новой эре операционных систем на базе ИИ.

🖥️ OpenAI Canvas: Эволюция интерфейса чат-ботов 0:00

Инструмент Canvas представляет собой интерактивное рабочее пространство, которое открывается параллельно с привычным окном чата ChatGPT. Уэс Рот отмечает, что эта концепция очень похожа на интерфейс Artifacts от компании Anthropic, однако в реализации OpenAI она кажется ему более продуманной. Главная идея нововведения заключается в том, что пользователю больше не нужно начинать работу с «чистого листа».

По мнению автора канала, Canvas кардинально меняет процесс редактирования: если раньше для внесения малейших правок ChatGPT приходилось переписывать весь текст или код целиком, то теперь изменения вносятся в режиме реального времени в конкретные фрагменты. Уэс Рот подчеркивает, что это создает ощущение полноценной совместной работы с коллегой или ассистентом, который мгновенно адаптирует проект под ваши идеи. На текущий момент инструмент находится в стадии бета-тестирования, и для доступа к нему пользователям необходимо вручную выбрать модель GPT-4o с поддержкой Canvas в настройках.

🎮 Пошаговая разработка: Создание игры с нуля 1:18

В качестве практического теста Уэс Рот решил создать простую HTML-игру в жанре симулятора управления ресурсами. Техническое задание для ИИ состояло из нескольких базовых параметров:

Наличие трех видов ресурсов: еда, древесина и руда.
Стартовое количество рабочих: 10 жителей.
Возможность распределять жителей на добычу разных ресурсов.

После отправки промпта интерфейс ChatGPT мгновенно разделился, и в правой части экрана открылось окно Canvas с готовым кодом. На данном этапе запускать код напрямую в браузере ChatGPT нельзя, однако Уэс Рот прогнозирует, что в ближайшем будущем OpenAI добавит эту возможность, сделав инструмент похожим на Google Colab. Для проверки работоспособности блогер скопировал полученный код, сохранил его в файл game.html на рабочем столе и успешно запустил игру. Все базовые функции, включая ограничение на распределение доступных жителей, сработали корректно.

Далее последовал этап усложнения игрового процесса. Автор видео сформулировал новые требования: ввести лимиты на хранение ресурсов и добавить здания для расширения емкости складов. Для еды было предложено построить амбар (Granary), для дерева — сарай (Shed), а название для склада руды ChatGPT должен был придумать самостоятельно (в итоге ИИ выбрал плавильню — Foundry). При обработке запроса Canvas наглядно демонстрирует процесс модификации: нейросеть проходит по коду строчка за строчкой, подсвечивая и расширяя измененные фрагменты и оставляя нетронутыми остальные части программы.

🐛 От пауков к людям: Отладка логики и новые механики 13:00

Для дальнейшего развития проекта Уэс Рот решил интегрировать в игру более комплексную логику. Он добавил механику размножения жителей (двое рабочих производят нового жителя каждые 30 секунд) и систему квестов, в которых отправленные на задания персонажи могут случайным образом разблокировать продвинутые постройки второго и третьего уровней.

В процессе тестирования обновленного кода обнаружился забавный логический баг: при рождении нового жителя пара родителей бесследно исчезала из списка. Как иронично предположил Уэс Рот, ChatGPT, очевидно, посчитал, что игровая экосистема должна функционировать по принципу черных вдов, где самка съедает самца, а новорожденное потомство затем пожирает мать. Автор резюмировал, что такой исход «нельзя назвать бинго».

Чтобы исправить ситуацию, Уэс Рот отправил комплексный запрос на устранение ошибок, включающий три пункта:

Родительские пары должны оставаться в живых после рождения ребенка (с уточнением «представь, что это люди»).
Необходимо добавить кнопку для отзыва жителей с назначенных задач обратно в пул доступных рабочих.
Постройки третьего уровня не должны быть доступны для покупки до тех пор, пока игрок не разблокирует и не построит здания второго уровня.

ИИ успешно справился с первыми двумя задачами с первой попытки. Возможность отслеживать изменения и возвращаться к предыдущим версиям кода в Canvas, по мнению Уэса Рота, выполняет роль удобной системы контроля версий (Version Control), что критически важно для сложной разработки. С третьим пунктом возникла заминка: ИИ вывел кнопку здания третьего уровня до открытия второго, однако заблокировал саму возможность покупки до выполнения условий. В качестве финального штриха по запросу «добавить случайную интересную механику» ChatGPT самостоятельно интегрировал в игру торговый пост для обмена ресурсов по внутреннему курсу.

🛠️ Инструментарий Canvas: Панель автоматизации кода 6:46

Одной из ключевых особенностей Canvas является специализированное контекстное меню, расположенное в правом нижнем углу экрана. Набор функций динамически меняется в зависимости от типа контента. Для работы с кодом пользователю доступны пять специализированных инструментов:

Review code (Рецензирование кода): ИИ анализирует написанное и оставляет всплывающие подсказки с рекомендациями по оптимизации.
Port to a language (Перенос на другой язык): Быстрая трансляция кода на JavaScript, TypeScript, Python, Java, C++ или PHP.
Fix bugs (Исправление ошибок): Автоматический поиск и устранение багов в синтаксисе.
Add logs (Добавление логов): Вставка принтов и отладочных сообщений для упрощения мониторинга работы программы.
Add comments (Добавление комментариев): Документирование кода на понятном человеческом языке.

При активации функции рецензирования ИИ оставляет комментарии на полях холста, напоминая интерфейс заметок в Google Drive. В одном из тестов система порекомендовала оптимизировать повторяющиеся блоки кода с помощью циклов. Уэс Рот подчеркивает, что раньше программисту требовалось тратить значительный ментальный ресурс и время на реализацию масштабируемой архитектуры, тогда как сейчас ИИ делает это превентивно и автоматически, оставляя за человеком лишь финальное решение. Единственным минусом подробного комментирования автор назвал увеличение времени генерации кода, поскольку нейросети приходится прописывать текстовые пояснения к каждой строке.

🎓 Код для всех: История доктора Кавасара и доступность ИТ 9:18

Внедрение подобных инструментов, как считает Уэс Рот, полностью меняет правила игры в сфере ИТ-образования. Профессиональные разработчики с многолетним стажем могут скептически относиться к подобной автоматизации, но для новичков и детей порог входа снижается до минимума. Больше нет необходимости часами смотреть обучающие ролики на YouTube или просить о помощи знакомых специалистов — достаточно вести диалог с ИИ, который будет терпеливо объяснять логику работы каждой строки.

В качестве яркого примера ведущий приводит историю доктора Кайла Кавасара. Во время релиза модели o1 Кавасар ради эксперимента загрузил в нейросеть код, который он писал в течение целого года для своей докторской диссертации. Модель o1 переписала этот код за считанные секунды, сделав его гораздо более элегантным, лаконичным и оптимизированным. Позже Кавасар встретился с главой OpenAI Сэмом Альтманом на конференции Dev Day 2024 и поделился своими смешанными чувствами от того, что годовой труд его жизни был автоматизирован за миг.

Уэс Рот признается, что сам регулярно сталкивается с подобным чувством легкого разочарования в течение последнего десятилетия, когда навыки, на освоение которых уходили годы, внезапно становятся неактуальными из-за развития технологий генерации графики и автоматизации текстов. Тем не менее, ведущий уверен, что текущая статистика, согласно которой программировать умеет лишь малая доля процента населения Земли, начнет стремительно меняться в сторону увеличения благодаря доступности ИИ-инструментов.

📝 Текстовый холст: Исследования и шутки про грибы 23:48

Интерфейс Canvas адаптируется и под текстовые задачи. Чтобы продемонстрировать это, Уэс Рот поручил ChatGPT изучить тему роботов, управляемых грибами. Программа автоматически выполнила веб-поиск, проанализировала пять независимых источников (включая Science Daily, Verdict и Корнеллский университет) и сформировала структурированный список из наиболее интересных фактов с прямыми ссылками на первоисточники.

На основе собранных данных Canvas сформировал статью объемом около 750 слов. В текстовом режиме холст функционирует как продвинутый блокнот, где пользователь может дописывать предложения вручную или просить ИИ скорректировать стилистику. По ходу работы Уэс Рот дал команду убрать клише вроде «да, вы не ослышались» и сделать текст более лаконичным.

Не обошлось и без курьезов: при попытке добавить в статью три шутки про грибы система несколько раз выдавала ошибку генерации. Блогер пошутил, что, возможно, заготовленный юмор был настолько плох, что ИИ просто отказывался его писать. В конечном итоге Canvas справился с задачей, добавив в текст серию каламбуров, завязанных на игре слов с термином «fungi». Финальным штрихом стало успешное внедрение в материал упоминания робототехнических платформ компании Nvidia, логически увязанное с обработкой данных, поступающих от грибного мицелия.

🌐 Будущее интерфейсов: ИИ как новая операционная система 27:07

Текущая эволюция ИИ-инструментов наглядно подтверждает теорию, которую озвучивает известный исследователь Андрей Карпати: искусственный интеллект постепенно превращается из простого чат-бота в самостоятельную операционную систему. Пользователь больше не взаимодействует напрямую с текстовыми редакторами, поисковиками или средами разработки — между человеком и компьютером встает интеллектуальная прослойка в виде ИИ-ассистента.

По прогнозам Уэса Рота, в ближайшем будущем привычная рутина, состоящая из открытия почты, механического поиска писем, ручного заполнения календаря и отправки ответов, уйдет в прошлое. Всем этим будут управлять автономные агенты на основе простых голосовых команд. Агент, зная расписание и приоритеты пользователя, сможет сам согласовать встречу, внести ее в календарь и отправить подтверждение.

Для того чтобы ИИ стал полноценной операционной системой, на сегодняшний день не хватает лишь трех элементов:

Интеграции продвинутого голосового режима (Advanced Voice Mode) на десктопных устройствах.
Полноценной функции компьютерного зрения (Vision) для анализа происходящего на экране в реальном времени.
Агентских возможностей для прямого управления интерфейсом операционной системы.

Как напоминает ведущий, Сэм Альтман на Dev Day 2024 отдельно подчеркивал риски безопасности, связанные с предоставлением ИИ прямого контроля над ПК. Ошибки или галлюцинации модели в финансовых или рабочих вопросах могут нанести реальный ущерб пользователю. Из-за этого внедрение агентов, вероятнее всего, начнется с изолированных облачных сред (песочниц) вроде Google Colab или административных панелей WordPress, где любые критические сбои можно легко исправить с помощью отката к резервной копии.

В завершение Уэс Рот провел историческую аналогию с навыком письма курсивом: если старшие поколения помнят, как писать прописными буквами, то среди современных зумеров этот навык развит менее чем у 1% населения. По мнению автора, традиционные методы взаимодействия с компьютером с помощью слепого набора кода и ручного кликанья по иконкам приложений уйдут в прошлое — будущее полностью принадлежит гибким гибридным интерфейсам вроде Canvas.