Компания OpenAI выпустила масштабное обновление экосистемы ChatGPT, включающее долгожданное десктопное приложение, глубокую интеграцию с облачными хранилищами и расширение возможностей модели GPT-4o. Техноблогер Уэс Рот (Wes Roth) подробно разобрал, как получить доступ к новым функциям, продемонстрировал работу обновленного анализа данных и провел практический урок по использованию API новой флагманской модели для тех, кто никогда не занимался программированием.
🖥️ Десктопное приложение ChatGPT: запуск на Mac и ограничения 1:29
Главным событием релиза стал запуск официального приложения ChatGPT для настольных компьютеров. Уэс Рот подчеркивает, что на данный момент приложение доступно исключительно для пользователей macOS . Версия для Windows, по словам автора, находится в разработке, и пользователям этой ОС традиционно приходится ждать дольше. Рот иронично замечает, что в мире ИТ-релизов пользователи Windows часто ощущают себя «гражданами второго сорта» .
Ключевые особенности и требования приложения:
- Системные требования: для работы необходима macOS 14 или выше и компьютер на базе чипов Apple Silicon (серия M1, M2, M3) .
- Быстрый доступ: реализован лаунчер, вызываемый сочетанием клавиш
Option + Space, позволяющий мгновенно задать вопрос чат-боту, не переключаясь между окнами браузера . - Интеграция контента: приложение позволяет быстро загружать файлы, делать скриншоты экрана и напрямую обсуждать их с ИИ .
- Голосовое взаимодействие: в приложении доступна иконка наушников для аудиочата.
Уэс Рот отдельно предостерегает пользователей от поиска приложения в стандартных магазинах App Store или Google Play. По его мнению, эти площадки превратились в «выгребные ямы» (cesspits) из мошеннических приложений, которые мимикрируют под OpenAI или Anthropic (Claude 3), чтобы вымогать деньги у доверчивых пользователей . Настоящее приложение следует скачивать только с официального сайта chatgpt.com .
👁️ Возможности GPT-4o: зрение и «псевдо-видео» 4:42
В десктопном приложении по умолчанию установлена модель GPT-4o (Omni), которая обладает продвинутыми мультимодальными способностями. Рот демонстрирует, как модель анализирует скриншоты: ChatGPT смог не только распознать текст на экране, но и понять, что он видит «самого себя» — открытое окно приложения ChatGPT с предыдущим контекстом диалога .
Разбирая механизм работы зрения в GPT-4o, Уэс Рот ссылается на интервью Сэма Альтмана:
- Механика анализа: по словам Рота, это не является «чистым» видео-пониманием в реальном времени. Модель делает серию снимков (скриншотов) с интервалом в несколько секунд и анализирует их последовательность .
- Распознавание эмоций: благодаря этой частоте снимков GPT-4o может интерпретировать мимику пользователя и описывать его эмоциональное состояние .
- Будущие обновления: Рот отмечает, что полноценный «головокружительный» опыт (back-and-forth) с мгновенной реакцией и новым голосовым режимом станет доступен всем пользователям Plus-версии в течение ближайших недель (в режиме альфа-тестирования) .
📊 Продвинутый анализ данных и облачная интеграция 8:12
Функция, ранее известная как «Code Interpreter», а затем переименованная в «Advanced Data Analytics», получила значительное обновление интерфейса и функционала. Теперь ChatGPT может напрямую подключаться к корпоративным и личным облачным хранилищам.
Основные новшества в работе с данными:
- Прямое подключение: реализована нативная интеграция с Google Drive и Microsoft OneDrive . Больше не нужно скачивать файлы на компьютер для их последующей загрузки в чат.
- Интерактивные таблицы: при загрузке набора данных ChatGPT создает динамическую таблицу, которую можно развернуть на весь экран. Пользователь может кликать на конкретные области таблицы и задавать уточняющие вопросы .
- Контекстные подсказки: система предлагает варианты глубокого анализа на основе структуры загруженного файла .
🧠 Память ChatGPT: «скрытая» осведомленность 10:08
Уэс Рот обращает внимание на функцию «Memory», которая теперь включена по умолчанию. Она позволяет ChatGPT запоминать детали о пользователе в ходе разных диалогов для формирования более релевантных ответов.
Автор приводит примеры того, что ИИ успел запомнить о нем: использование Visual Studio Code на Windows и интерес к программированию на Python . Рот цитирует пост Ника Добоса, который назвал память ChatGPT «пугающе скрытной» (sneaky AF) . Добос заметил, что чат-бот запомнил его имя, просто проанализировав путь к файлу в ошибке терминала, которую Ник скопировал в чат .
В ходе теста Рот попросил ChatGPT запомнить название его компании — «Natural 20». После создания нового чистого диалога ИИ не только вспомнил название, но и успешно интегрировал его в запрос на создание логотипа .
🛠️ Практическое руководство: создание приложения на GPT-4o через API 13:20
Для тех, кто хочет выйти за рамки стандартного интерфейса чата, Уэс Рот представил пошаговый гайд по работе с API. По его мнению, сейчас наступил «момент уникальных возможностей», когда даже люди без навыков программирования могут начать создавать собственных ИИ-агентов .
Пошаговый алгоритм от Уэса Рота:
- Получение ключа: необходимо зайти на platform.openai.com и создать новый секретный API-ключ. Автор напоминает о критической важности сохранения ключа в секрете .
- Среда разработки: Рот рекомендует использовать Google Colab — бесплатный облачный инструмент, который не требует настройки окружения на локальном компьютере .
- Установка библиотеки: в блоке кода выполняется команда
pip install openai. - Запуск модели: автор демонстрирует простой скрипт, где указывается модель
gpt-4o. При подаче запроса через API модель работает быстрее и позволяет автоматизировать задачи .
В качестве финального примера Рот показал использование функции Vision через API. Он загрузил URL-адрес изображения из Википедии (вид на кампус университета Висконсин-Мэдисон) и попросил GPT-4o описать его. Модель успешно идентифицировала дорожку, береговую линию и детали пейзажа всего за несколько секунд .