Янник Килхер: «Технические отчеты по Gemini стали рекламными брошюрами»

Yannic Kilcher 41,5 тыс. 15 мин 3 мин 11.12.2023
Главное

Искусственный интеллект или искусственная демонстрация: что скрывает Google за «фейковым» видео Gemini 0:02

Недавний анонс новой мультимодальной модели Gemini от компании Google вызвал волну обсуждений, охватившую как техническое сообщество, так и широкую общественность. Главным предметом споров стало демонстрационное видео, которое многие пользователи сочли «постановочным» или «фейковым». Янник Килхер (Yannic Kilcher), автор видеоразбора, отмечает, что, хотя дискуссия вокруг рекламного ролика получила большой резонанс, куда более серьезные вопросы вызывает прозрачность технической документации и маркетинговых материалов Google.

🎥 Споры вокруг демонстрации: монтаж или магия? 10:40

Центральным элементом скандала стал ролик, в котором Gemini якобы в режиме реального времени взаимодействует с пользователем: распознает рисунки, отвечает на загадки и даже понимает игру в «камень, ножницы, бумаги».

Согласно пояснениям самой Google, опубликованным в их блоге, процесс создания видео выглядел иначе, чем казалось зрителю:

По мнению Килхера, возмущение аудитории, ожидавшей «живого» интерактивного общения, было предсказуемым, однако сам он относится к этому спокойнее. Он утверждает, что не ожидал от современной системы мгновенной обработки видеопотока и воспринимал демонстрацию как типичный маркетинговый инструмент, созданный для показа возможностей модели. Автор полагает, что полезность систем, анализирующих последовательности кадров, от этого не становится меньше — это вполне рабочая архитектура для создания приложений.

📊 Маркетинговые манипуляции и «тихая» конкуренция 1:26

Килхер считает, что гораздо более тревожным сигналом является способ подачи данных на маркетинговой странице Gemini. В частности, компания сравнивает Gemini Ultra с GPT-4, используя разные методики промптинга для моделей:

Автор отмечает, что в отчетах при таких условиях Gemini Ultra действительно показывает более высокие результаты (90.0 против 86.4), но при уравнивании условий (использование five-shot для обеих моделей) Gemini Ultra проигрывает GPT-4. По словам Килхера, Google оказалась в затруднительном положении: они хотели показать преимущество своей модели в ключевом бенчмарке, но не могли честно сопоставить сопоставимые данные, так как в стандартных тестах их модель уступала конкуренту от OpenAI.

📝 Проблема научной прозрачности в эпоху ИИ 4:59

Главная претензия Килхера к Google касается качества их технического отчета. Автор утверждает, что современные «технические отчеты» перестали быть таковыми: в них практически отсутствует информация, позволяющая независимо воспроизвести результаты исследования.

Основные претензии к документу:

Килхер подчеркивает, что подобный подход противоречит академическим стандартам, где описание методологии является обязательным условием для научной публикации. В завершение он отмечает, что, несмотря на всю критику маркетинга, сами модели Gemini выглядят многообещающе и, вероятно, будут полезны для разработчиков, если компания начнет предоставлять больше технической прозрачности.

💬 Цитаты

«Papers aren't papers anymore. They're not technical reports because in a technical report you can write anything that you want and have to disclose nothing.»

Янник Килхер 04:59

«They're very actively trying not to do that.»

Янник Килхер 10:26
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Chain-of-Thought
Метод промптинга, при котором модель пошагово рассуждает перед ответом, что повышает точность сложных логических задач.
Five-shot
Метод промптинга, при котором в запрос включается пять примеров того, как нужно решить задачу.
Мультимодальная модель
Система ИИ, способная одновременно обрабатывать и генерировать разные типы данных: текст, изображения, аудио и видео.
Токенизатор
Инструмент для разбиения входного текста на мелкие фрагменты (токены), понятные нейросети.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Google Gemini GPT-4 Yannic Kilcher LLM