OpenAI против Google: релизы GPT-4 Turbo Vision и Gemini 1.5 Pro

Wes Roth 39,3 тыс. 10 мин 4 мин 09.04.2024
Главное

Битва технологических гигантов в сфере искусственного интеллекта вышла на новый уровень: Google и OpenAI практически одновременно представили масштабные обновления своих флагманских моделей. Ведущий канала Уэс Рот анализирует внезапный релиз Gemini 1.5 Pro с миллионным контекстным окном, выход GPT-4 Turbo с поддержкой компьютерного зрения в широкий доступ и обострение конкуренции в главном рейтинге нейросетей LMSYS Chatbot Arena.

🚀 Прорыв OpenAI: GPT-4 Turbo с Vision выходит из тени 0:26

Компания OpenAI объявила о выходе модели GPT-4 Turbo with Vision из режима предварительного просмотра в статус общедоступного API (General Availability) . Это обновление открывает разработчикам новые возможности для интеграции визуального восприятия в свои приложения.

Ключевые технические характеристики новой версии:

Уэс Рот отмечает, что OpenAI традиционно «подбрасывает» свои анонсы в моменты активности конкурентов, стараясь перехватить информационную повестку . Среди примеров использования новой модели выделяется сервис HealthifyMe, который через функцию Snap распознает еду по фотографиям со всего мира и предоставляет пользователям информацию о питательной ценности .

💻 Противоречивый Devon и «открывашка для банок с червями» 1:07

Особое внимание в контексте возможностей GPT-4 Turbo уделяется ИИ-разработчику Devon от компании Cognition. Хотя проект наделал много шума как «первый ИИ-программист», Уэс Рот указывает на растущий скептицизм в сообществе .

Позиции сторон относительно Devon:

По мнению Итана Моллика, такие агенты — это «открывашки для банок с червями» . Он считает, что их развитие ставит перед обществом сложные вопросы: как отличить человека от бота в сети, как изменятся экономика и удаленная работа, и как защититься от массовых атак (Sybil attacks) . Уэс Рот добавляет: если скептики правы, то надежность агентов еще не достигнута, и программистам пока нечего бояться — ИИ останется лишь очень эффективным ассистентом .

🧠 Google наносит ответный удар: Gemini 1.5 Pro и живые фото 0:00

Google DeepMind представила Gemini 1.5 Pro в публичном доступе на платформах Google Cloud и Vertex AI . Главной особенностью модели стало гигантское контекстное окно в 1 миллион токенов .

Основные новшества от Google:

  1. Мультимодальность: Gemini 1.5 Pro теперь поддерживает обработку аудио (музыка, речь) и звуковых дорожек из видео, обеспечивая высококачественную транскрипцию и поиск по контенту .
  2. Архитектура: По словам Рота, значительный скачок в качестве между версиями 1.0 и 1.5 связан с переходом на архитектуру Mixture of Experts (MoE), что во многом повторяет подход GPT-4 .
  3. Imagen 2: Обновленная модель генерации изображений теперь способна создавать 4-секундные «живые изображения» (live images) из одного текстового запроса .

Уэс Рот подчеркивает, что Gemini 1.5 Pro отлично справляется с задачей «иголка в стоге сена» (needle in a haystack), находя специфическую информацию в огромных массивах документов . При тестировании модели на генерацию описания к картинке с «лысыми котами-агентами» результат оказался практически идеальным .

🎨 Интуитивный дизайн с tldraw: от наброска к коду 3:52

Одной из самых впечатляющих реализаций возможностей GPT-4 Vision автор называет инструмент tldraw и его функцию «Make it Real» .

Процесс работы выглядит следующим образом:

🏆 Битва в «Гладиаторской арене»: Claude 3 против всех 7:30

В рейтинге LMSYS Chatbot Arena, который считается «золотым стандартом» оценки нейросетей, произошли серьезные перестановки. На текущий момент корону удерживает Claude 3 Opus, недавно обошедший GPT-4 .

Текущая ситуация в таблице лидеров:

  1. Claude 3 Opus — 1-е место (рейтинг 1253).
  2. GPT-4 Turbo — 2-е место (отрыв от лидера всего в 2 балла, что может быть статистически незначимым) .
  3. Gemini Pro (Bard) — уверенное 3-е место .
  4. Command R+ — новый сильный конкурент, стремительно набирающий популярность .

Уэс Рот провел собственный слепой тест между моделями, попросив их написать сценарий диалога между Уолтером Уайтом и Хэнком Шрейдером из сериала «Во все тяжкие» об использовании ИИ в работе . Модель A (которой оказалась OpenChat 3.5) справилась значительно лучше, точнее передав манеру речи персонажей, чем модель B (Claude 3 Haiku), чьи ответы показались автору слишком базовыми и упрощенными .

В ближайшее время на арене ожидается появление новейшей версии GPT-4 Turbo (09-04-2024), и интрига заключается в том, сможет ли OpenAI вернуть себе первое место .

💬 Цитаты

«Эти агенты — открывашки для банок с червями. И это не шутка, это то, что нас ждет.»

«Разница в два балла между GPT-4 и Claude 3 Opus может быть даже статистически незначимой.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Контекстное окно
Объем данных (текста, кода, аудио), который модель ИИ может удерживать в оперативной памяти одновременно для анализа.
Mixture of Experts (MoE)
Архитектура нейросети, состоящая из нескольких специализированных подсетей («экспертов»), из которых для каждого запроса активируются только нужные.
JSON mode
Режим ответа нейросети, гарантирующий выдачу данных в строгом структурированном формате, удобном для программной обработки.
📊 Цифры
🗓 Хронология
  1. 9 апреля 2024 Выход GPT-4 Turbo with Vision в общий доступ и запуск Gemini 1.5 Pro в публичное превью.
  2. Декабрь 2023 Дата последнего обновления обучающих данных для новой модели GPT-4 Turbo.
⚖️ Другая сторона
Искусственный интеллект OpenAI GPT-4 Turbo Gemini 1.5 Pro Google DeepMind LMSYS Arena