OpenAI против Google: релизы GPT-4 Turbo Vision и Gemini 1.5 Pro

Битва технологических гигантов в сфере искусственного интеллекта вышла на новый уровень: Google и OpenAI практически одновременно представили масштабные обновления своих флагманских моделей. Ведущий канала Уэс Рот анализирует внезапный релиз Gemini 1.5 Pro с миллионным контекстным окном, выход GPT-4 Turbo с поддержкой компьютерного зрения в широкий доступ и обострение конкуренции в главном рейтинге нейросетей LMSYS Chatbot Arena.

🚀 Прорыв OpenAI: GPT-4 Turbo с Vision выходит из тени 0:26

Компания OpenAI объявила о выходе модели GPT-4 Turbo with Vision из режима предварительного просмотра в статус общедоступного API (General Availability) . Это обновление открывает разработчикам новые возможности для интеграции визуального восприятия в свои приложения.

Ключевые технические характеристики новой версии:

Контекстное окно: 128 000 токенов .
Дата обучения: база знаний обновлена по декабрь 2023 года .
Новые функции: поддержка режима JSON и вызова функций (function calling) для запросов, связанных с компьютерным зрением .

Уэс Рот отмечает, что OpenAI традиционно «подбрасывает» свои анонсы в моменты активности конкурентов, стараясь перехватить информационную повестку . Среди примеров использования новой модели выделяется сервис HealthifyMe, который через функцию Snap распознает еду по фотографиям со всего мира и предоставляет пользователям информацию о питательной ценности .

💻 Противоречивый Devon и «открывашка для банок с червями» 1:07

Особое внимание в контексте возможностей GPT-4 Turbo уделяется ИИ-разработчику Devon от компании Cognition. Хотя проект наделал много шума как «первый ИИ-программист», Уэс Рот указывает на растущий скептицизм в сообществе .

Позиции сторон относительно Devon:

Критика: Канал Internet of Bugs опубликовал подробное разоблачение, утверждая, что демонстрации Cognition могут содержать манипуляции . Автор канала провел 30-минутный эксперимент без монтажа, пытаясь повторить задачи Devon, и обнаружил несоответствия в заявлениях компании .
Поддержка: Профессор Итан Моллик, напротив, успешно протестировал Devon, отправив его на Reddit для сбора заказов на создание сайтов. Агент смог решить множество проблем и даже пытался выставить счета за работу .

По мнению Итана Моллика, такие агенты — это «открывашки для банок с червями» . Он считает, что их развитие ставит перед обществом сложные вопросы: как отличить человека от бота в сети, как изменятся экономика и удаленная работа, и как защититься от массовых атак (Sybil attacks) . Уэс Рот добавляет: если скептики правы, то надежность агентов еще не достигнута, и программистам пока нечего бояться — ИИ останется лишь очень эффективным ассистентом .

🧠 Google наносит ответный удар: Gemini 1.5 Pro и живые фото 0:00

Google DeepMind представила Gemini 1.5 Pro в публичном доступе на платформах Google Cloud и Vertex AI . Главной особенностью модели стало гигантское контекстное окно в 1 миллион токенов .

Основные новшества от Google:

Мультимодальность: Gemini 1.5 Pro теперь поддерживает обработку аудио (музыка, речь) и звуковых дорожек из видео, обеспечивая высококачественную транскрипцию и поиск по контенту .
Архитектура: По словам Рота, значительный скачок в качестве между версиями 1.0 и 1.5 связан с переходом на архитектуру Mixture of Experts (MoE), что во многом повторяет подход GPT-4 .
Imagen 2: Обновленная модель генерации изображений теперь способна создавать 4-секундные «живые изображения» (live images) из одного текстового запроса .

Уэс Рот подчеркивает, что Gemini 1.5 Pro отлично справляется с задачей «иголка в стоге сена» (needle in a haystack), находя специфическую информацию в огромных массивах документов . При тестировании модели на генерацию описания к картинке с «лысыми котами-агентами» результат оказался практически идеальным .

🎨 Интуитивный дизайн с tldraw: от наброска к коду 3:52

Одной из самых впечатляющих реализаций возможностей GPT-4 Vision автор называет инструмент tldraw и его функцию «Make it Real» .

Процесс работы выглядит следующим образом:

Пользователь рисует интерфейс (кнопки, аннотации) на холсте, похожем на Microsoft Paint .
После нажатия кнопки «Make it Real» нейросеть за секунды превращает набросок в рабочий программный код .
Уэс Рот лично тестировал создание простых игр (например, погоня за цыплятами в загоне) и веб-форм, отмечая поразительную скорость итераций . По его мнению, подобные инструменты станут будущим дизайна пользовательских интерфейсов .

🏆 Битва в «Гладиаторской арене»: Claude 3 против всех 7:30

В рейтинге LMSYS Chatbot Arena, который считается «золотым стандартом» оценки нейросетей, произошли серьезные перестановки. На текущий момент корону удерживает Claude 3 Opus, недавно обошедший GPT-4 .

Текущая ситуация в таблице лидеров:

Claude 3 Opus — 1-е место (рейтинг 1253).
GPT-4 Turbo — 2-е место (отрыв от лидера всего в 2 балла, что может быть статистически незначимым) .
Gemini Pro (Bard) — уверенное 3-е место .
Command R+ — новый сильный конкурент, стремительно набирающий популярность .

Уэс Рот провел собственный слепой тест между моделями, попросив их написать сценарий диалога между Уолтером Уайтом и Хэнком Шрейдером из сериала «Во все тяжкие» об использовании ИИ в работе . Модель A (которой оказалась OpenChat 3.5) справилась значительно лучше, точнее передав манеру речи персонажей, чем модель B (Claude 3 Haiku), чьи ответы показались автору слишком базовыми и упрощенными .

В ближайшее время на арене ожидается появление новейшей версии GPT-4 Turbo (09-04-2024), и интрига заключается в том, сможет ли OpenAI вернуть себе первое место .