# OpenAI против Google: релизы GPT-4 Turbo Vision и Gemini 1.5 Pro

Источник: https://www.youtube.com/watch?v=uPLMfpcI3iA
Канал: Wes Roth
Опубликовано: 09.04.2024

---

Битва технологических гигантов в сфере искусственного интеллекта вышла на новый уровень: Google и OpenAI практически одновременно представили масштабные обновления своих флагманских моделей. Ведущий канала Уэс Рот анализирует внезапный релиз Gemini 1.5 Pro с миллионным контекстным окном, выход GPT-4 Turbo с поддержкой компьютерного зрения в широкий доступ и обострение конкуренции в главном рейтинге нейросетей LMSYS Chatbot Arena.

## 🚀 Прорыв OpenAI: GPT-4 Turbo с Vision выходит из тени
[[JUMP:00:26]]

Компания OpenAI объявила о выходе модели **GPT-4 Turbo with Vision** из режима предварительного просмотра в статус общедоступного API (General Availability) [0:26]. Это обновление открывает разработчикам новые возможности для интеграции визуального восприятия в свои приложения.

Ключевые технические характеристики новой версии:

*   **Контекстное окно:** 128 000 токенов [0:53].
*   **Дата обучения:** база знаний обновлена по декабрь 2023 года [0:53].
*   **Новые функции:** поддержка режима JSON и вызова функций (function calling) для запросов, связанных с компьютерным зрением [0:40].

Уэс Рот отмечает, что OpenAI традиционно «подбрасывает» свои анонсы в моменты активности конкурентов, стараясь перехватить информационную повестку [0:26]. Среди примеров использования новой модели выделяется сервис **HealthifyMe**, который через функцию Snap распознает еду по фотографиям со всего мира и предоставляет пользователям информацию о питательной ценности [3:46].

## 💻 Противоречивый Devon и «открывашка для банок с червями»
[[JUMP:01:07]]

Особое внимание в контексте возможностей GPT-4 Turbo уделяется ИИ-разработчику **Devon** от компании Cognition. Хотя проект наделал много шума как «первый ИИ-программист», Уэс Рот указывает на растущий скептицизм в сообществе [1:20].

Позиции сторон относительно Devon:

*   **Критика:** Канал *Internet of Bugs* опубликовал подробное разоблачение, утверждая, что демонстрации Cognition могут содержать манипуляции [1:32]. Автор канала провел 30-минутный эксперимент без монтажа, пытаясь повторить задачи Devon, и обнаружил несоответствия в заявлениях компании [1:46].
*   **Поддержка:** Профессор Итан Моллик, напротив, успешно протестировал Devon, отправив его на Reddit для сбора заказов на создание сайтов. Агент смог решить множество проблем и даже пытался выставить счета за работу [2:00].

По мнению Итана Моллика, такие агенты — это «открывашки для банок с червями» [2:26]. Он считает, что их развитие ставит перед обществом сложные вопросы: как отличить человека от бота в сети, как изменятся экономика и удаленная работа, и как защититься от массовых атак (Sybil attacks) [2:39]. Уэс Рот добавляет: если скептики правы, то надежность агентов еще не достигнута, и программистам пока нечего бояться — ИИ останется лишь очень эффективным ассистентом [3:05].

## 🧠 Google наносит ответный удар: Gemini 1.5 Pro и живые фото
[[JUMP:00:00]]

Google DeepMind представила **Gemini 1.5 Pro** в публичном доступе на платформах Google Cloud и Vertex AI [0:00]. Главной особенностью модели стало гигантское контекстное окно в 1 миллион токенов [5:59].

Основные новшества от Google:

1.  **Мультимодальность:** Gemini 1.5 Pro теперь поддерживает обработку аудио (музыка, речь) и звуковых дорожек из видео, обеспечивая высококачественную транскрипцию и поиск по контенту [5:19].
2.  **Архитектура:** По словам Рота, значительный скачок в качестве между версиями 1.0 и 1.5 связан с переходом на архитектуру **Mixture of Experts (MoE)**, что во многом повторяет подход GPT-4 [6:39].
3.  **Imagen 2:** Обновленная модель генерации изображений теперь способна создавать 4-секундные «живые изображения» (live images) из одного текстового запроса [4:52].

Уэс Рот подчеркивает, что Gemini 1.5 Pro отлично справляется с задачей «иголка в стоге сена» (needle in a haystack), находя специфическую информацию в огромных массивах документов [6:12]. При тестировании модели на генерацию описания к картинке с «лысыми котами-агентами» результат оказался практически идеальным [7:04].

## 🎨 Интуитивный дизайн с tldraw: от наброска к коду
[[JUMP:03:52]]

Одной из самых впечатляющих реализаций возможностей GPT-4 Vision автор называет инструмент **tldraw** и его функцию «Make it Real» [3:52].

Процесс работы выглядит следующим образом:

*   Пользователь рисует интерфейс (кнопки, аннотации) на холсте, похожем на Microsoft Paint [4:00].
*   После нажатия кнопки «Make it Real» нейросеть за секунды превращает набросок в рабочий программный код [4:12].
*   Уэс Рот лично тестировал создание простых игр (например, погоня за цыплятами в загоне) и веб-форм, отмечая поразительную скорость итераций [4:25]. По его мнению, подобные инструменты станут будущим дизайна пользовательских интерфейсов [4:38].

## 🏆 Битва в «Гладиаторской арене»: Claude 3 против всех
[[JUMP:07:30]]

В рейтинге **LMSYS Chatbot Arena**, который считается «золотым стандартом» оценки нейросетей, произошли серьезные перестановки. На текущий момент корону удерживает **Claude 3 Opus**, недавно обошедший GPT-4 [9:15].

Текущая ситуация в таблице лидеров:

1.  **Claude 3 Opus** — 1-е место (рейтинг 1253).
2.  **GPT-4 Turbo** — 2-е место (отрыв от лидера всего в 2 балла, что может быть статистически незначимым) [10:22].
3.  **Gemini Pro (Bard)** — уверенное 3-е место [9:42].
4.  **Command R+** — новый сильный конкурент, стремительно набирающий популярность [9:55].

Уэс Рот провел собственный слепой тест между моделями, попросив их написать сценарий диалога между Уолтером Уайтом и Хэнком Шрейдером из сериала «Во все тяжкие» об использовании ИИ в работе [7:56]. Модель A (которой оказалась **OpenChat 3.5**) справилась значительно лучше, точнее передав манеру речи персонажей, чем модель B (**Claude 3 Haiku**), чьи ответы показались автору слишком базовыми и упрощенными [8:49].

В ближайшее время на арене ожидается появление новейшей версии GPT-4 Turbo (09-04-2024), и интрига заключается в том, сможет ли OpenAI вернуть себе первое место [10:08].