Янник Килхер: «Технические отчеты по Gemini стали рекламными брошюрами»

Искусственный интеллект или искусственная демонстрация: что скрывает Google за «фейковым» видео Gemini 0:02

Недавний анонс новой мультимодальной модели Gemini от компании Google вызвал волну обсуждений, охватившую как техническое сообщество, так и широкую общественность. Главным предметом споров стало демонстрационное видео, которое многие пользователи сочли «постановочным» или «фейковым». Янник Килхер (Yannic Kilcher), автор видеоразбора, отмечает, что, хотя дискуссия вокруг рекламного ролика получила большой резонанс, куда более серьезные вопросы вызывает прозрачность технической документации и маркетинговых материалов Google.

🎥 Споры вокруг демонстрации: монтаж или магия? 10:40

Центральным элементом скандала стал ролик, в котором Gemini якобы в режиме реального времени взаимодействует с пользователем: распознает рисунки, отвечает на загадки и даже понимает игру в «камень, ножницы, бумаги».

Согласно пояснениям самой Google, опубликованным в их блоге, процесс создания видео выглядел иначе, чем казалось зрителю:

Вместо непрерывного видеопотока разработчики подавали на вход модели отдельные кадры.
К кадрам добавлялись подробные текстовые промпты.
Результаты работы модели озвучивались с помощью технологии синтеза речи (text-to-speech).

По мнению Килхера, возмущение аудитории, ожидавшей «живого» интерактивного общения, было предсказуемым, однако сам он относится к этому спокойнее. Он утверждает, что не ожидал от современной системы мгновенной обработки видеопотока и воспринимал демонстрацию как типичный маркетинговый инструмент, созданный для показа возможностей модели. Автор полагает, что полезность систем, анализирующих последовательности кадров, от этого не становится меньше — это вполне рабочая архитектура для создания приложений.

📊 Маркетинговые манипуляции и «тихая» конкуренция 1:26

Килхер считает, что гораздо более тревожным сигналом является способ подачи данных на маркетинговой странице Gemini. В частности, компания сравнивает Gemini Ultra с GPT-4, используя разные методики промптинга для моделей:

Gemini Ultra тестировалась с применением Chain-of-Thought (техника цепочки рассуждений, дающая лучшие результаты в сложных задачах).
GPT-4 тестировалась с использованием более простого метода five-shot (пять примеров в запросе).

Автор отмечает, что в отчетах при таких условиях Gemini Ultra действительно показывает более высокие результаты (90.0 против 86.4), но при уравнивании условий (использование five-shot для обеих моделей) Gemini Ultra проигрывает GPT-4. По словам Килхера, Google оказалась в затруднительном положении: они хотели показать преимущество своей модели в ключевом бенчмарке, но не могли честно сопоставить сопоставимые данные, так как в стандартных тестах их модель уступала конкуренту от OpenAI.

📝 Проблема научной прозрачности в эпоху ИИ 4:59

Главная претензия Килхера к Google касается качества их технического отчета. Автор утверждает, что современные «технические отчеты» перестали быть таковыми: в них практически отсутствует информация, позволяющая независимо воспроизвести результаты исследования.

Основные претензии к документу:

Отсутствие параметров: Разработчики раскрыли размер только для модели Nano (1.8 млрд и 3.25 млрд параметров), проигнорировав вопросы о масштабах Pro и Ultra.
Бессодержательная архитектура: Схема архитектуры, представленная в отчете, не содержит никакой технической глубины, ограничиваясь демонстрацией входа, трансформатора и выхода.
Скрытая инфраструктура: Google крайне осторожно описывает процесс обучения и аппаратное обеспечение, избегая конкретики, которая позволила бы оценить объем затраченных вычислительных мощностей.

Килхер подчеркивает, что подобный подход противоречит академическим стандартам, где описание методологии является обязательным условием для научной публикации. В завершение он отмечает, что, несмотря на всю критику маркетинга, сами модели Gemini выглядят многообещающе и, вероятно, будут полезны для разработчиков, если компания начнет предоставлять больше технической прозрачности.