Почему стриминги советуют плохие фильмы и как ИИ это исправит?

The Vergecast 9,1 тыс. 35 мин 11 мин 28.07.2024
Главное

Стриминговые платформы буквально перегружены контентом, однако найти подходящий фильм для вечернего просмотра становится для пользователей все более сложной задачей. В финальном эпизоде серии материалов об искусственном интеллекте в реальной жизни ведущий подкаста The Vergecast Дэвид Пирс вместе с экспертами индустрии разбирается, способен ли ИИ решить проблему идеальных кинорекомендаций. Собеседники исследуют, почему традиционные алгоритмы крупных сервисов регулярно дают сбой и как новые большие языковые модели меняют наш подход к поиску кино.

📺 Проблема бесконечного скроллинга: почему стриминги нас не понимают 0:42

Каждому знакома ситуация, когда вместо просмотра фильма человек тратит от нескольких минут до бесконечности на простое пролистывание каталога. Дэвид Пирс делится личным опытом: при открытии приложения Netflix система первым делом предлагает ему документальную ленту «Мучо Мучо Амор: Легенда о Вальтере Меркадо», хотя он даже не знает, кто это такой. Персонализированные рекомендации на основе его реальных интересов оказываются погребены на глубине восьми рядов подборки.

Аналогичная ситуация повторяется и на других платформах. Интерфейс Hulu долго загружается и настойчиво предлагает проект «Dress My Tour», который ведущему совершенно не интересен, а также криминальные документальные фильмы, которые обычно смотрит его жена. Сервис Max оказывается ближе к интересам Дэвиса, предлагая спортивное шоу «Hard Knocks» с участием команды «Нью-Йорк Джайентс», а также «Игру престолов» и «Лигу справедливости». Однако даже здесь общая атмосфера напоминает скорее хаотичную выкладку доступного каталога («вот все, что у нас есть»), нежели точечный подбор контента под конкретного человека.

По мнению Дэвида Пирса, именно в этой сфере искусственный интеллект мог бы проявить себя наилучшим образом. Эта задача отличается низким уровнем ответственности: если нейросеть ошибется или даже выдумает несуществующий фильм, это не приведет к катастрофе, в отличие от ошибок ИИ в медицине или юриспруденции. Пользователю просто нужно иметь возможность человеческим языком объяснить чат-боту, чего именно он хочет в данный момент.

🤖 Чат-боты вместо рекомендательных движков: ИИ на практике 3:24

Использовать современные инструменты ИИ для поиска фильмов можно уже сегодня. Базовый запрос в Chat GPT с просьбой найти шпионский боевик в духе «Миссии невыполнима» или «Идентификации Борна» выдает вполне предсказуемый, но качественный результат — фильм «007: Координаты „Скайфолл“». На уточнение, что все фильмы о Джеймсе Бонде уже просмотрены, система предлагает стильный шпионский боевик Гая Ричи «Агенты А.Н.К.Л.».

Существуют и специализированные кастомные плагины, такие как Movies GPT, позиционирующий себя как полноценная киноэнциклопедия. На запрос в стиле «Мне очень понравился фильм „Эта дурацкая любовь“, посоветуй что-то похожее, чего я наверняка не видел» ИИ выдает рекомендацию:

«Вам может понравиться мелодрама „Немножко женаты“ режиссера Николаса Столлера с Джейсоном Сигелом и Эмили Блант в главных ролях».

Система Google Gemini на запрос о классических боевиках 1980-х годов послушно формирует список из общепризнанных шедевров: «Крепкий орешек», «Индиана Джонс: В поисках утраченного ковчега», «Терминатор», «Хищник» и «Полицейский из Беверли-Хиллз».

Главное преимущество больших языковых моделей заключается в том, что они понимают естественный язык. Пользователь может задать ИИ сложные комбинированные параметры, например: «Я хочу романтический фильм продолжительностью менее двух часов, который будет смешным, но не грустным». В ответ алгоритмы безошибочно предлагают «Эта дурацкая любовь» или «10 причин моей ненависти». Хотя эти рекомендации нельзя назвать революционными или редкими, сам формат взаимодействия указывает на тектонический сдвиг в технологиях поиска.

📊 Анатомия киноданных: почему традиционные алгоритмы зашли в тупик 6:26

Долгие годы рекомендательные системы строились по одному принципу, известному как коллаборативная фильтрация. Суть метода проста: если пользователю нравится определенный набор фильмов, алгоритм ищет других людей с похожими оценками и предлагает первому пользователю те картины из их списков, которые он еще не успел посмотреть. Это базовая математическая модель, которая долгое время оставалась стандартом индустрии.

Однако ИИ способен подойти к проблеме совершенно иначе. Диана Писку, разработчик и предприниматель, создавшая рекомендательный ИИ-сервис MovieVanders (название вдохновлено лавкой Олливандера из «Гарри Поттера», где волшебная палочка сама выбирает волшебника), выделяет два ключевых компонента эффективности ИИ:

Дэвид Пирс подчеркивает, что для качественной работы рекомендательной системы необходимы четыре типа информации, и с большинством из них у современных стримингов есть проблемы:

  1. Метаданные. Базовая информация о проекте (название, режиссер, актерский состав, постер), которую легко найти на IMDb.
  2. Данные о просмотрах. Важнейший сигнал о реальном отношении зрителя к контенту (досмотрел ли до конца, выключил ли на первых минутах, пересматривал ли несколько ночей подряд). Эти данные являются строжайшим коммерческим секретом; Netflix, Hulu, Max и Peacock никогда не делятся ими друг с другом или с общественностью.
  3. Объем библиотеки для рекомендации. Рекомендация хороша лишь тогда, когда у сервиса есть права на показ нужного контента. Библиотеки отдельных стримингов включают всего по несколько тысяч позиций. Для сравнения, вся база IMDb содержит около 685 000 фильмов и 265 000 сериалов, что ничтожно мало на фоне объемов ежедневных загрузок в TikTok или YouTube.
  4. Глубокие характеристики (Traits). Информация о внутреннем устройстве контента, выходящая далеко за рамки сухих тегов вроде «комедия» или «триллер». Это ответы на вопросы: быстрый это фильм или медленный, поднимете ли вы глаза от экрана телефона во время просмотра, хорош ли он для того, чтобы уснуть на диване, и качественный ли у него саундтрек.

🎵 Музыкальный прецедент: опыт машинного прослушивания Spotify 12:08

В сфере понимания внутренних характеристик контента музыкальная индустрия продвинулась значительно дальше кинематографа. В интервью 2021 года Густав Седерстрём (ныне сопрезидент Spotify) подробно описал, как его компания решала аналогичную проблему при запуске рекомендаций для подкастов.

По словам Седерстрёма, в музыке у Spotify было колоссальное преимущество в виде 4,5 миллиардов пользовательских плейлистов, где люди вручную скомпоновали 70 миллионов треков по настроению и контексту. Для подкастов такой готовой базы не существовало. Компании пришлось с нуля выстраивать «граф знаний» (Knowledge Graph), связывая авторов, темы и жанры, а затем накладывать на него статистику прослушиваний.

Со временем Spotify перешел к продвинутым технологиям машинного обучения и так называемому «машинному прослушиванию» (machine listening). ИИ-алгоритмы музыкального гиганта способны автоматически раскладывать любой аудиотрек на составляющие:

Нейросеть транскрибирует аудио, аннотирует содержание и помещает эти данные в так называемые векторные пространства эмбеддингов для поиска семантически похожих позиций. Киноиндустрия до недавнего времени не располагала инструментами аналогичной глубины для анализа видео, но технологический прорыв изменил правила игры.

🚀 Технологический прорыв: как Gemini 1.5 «смотрит» фильмы целиком 15:03

Важнейшей вехой в анализе видео стало появление ИИ-модели Gemini 1.5 от Google, главным новшеством которой стало гигантское контекстное окно, способное вмещать до 1 миллиона токенов информации за один запрос. Это позволило загружать в нейросеть не просто короткие тексты, а целые книги или полноценные видеофайлы.

Google продемонстрировала возможности модели на примере 45-минутного немого фильма Бастера Китона «Шерлок-младший», который целиком занял 69 647 токенов. Разработчики загрузили видео в Google AI Studio и ввели текстовый запрос: «Найди момент, когда из кармана человека достают клочок бумаги, и перескажи ключевую информацию на нем вместе с таймкодом».

Модели потребовалось ровно 1 минута и 57 секунд на обработку. В результате Gemini 1.5 выдала точный таймкод — 12:01, пояснив, что бумага является ломбардной квитанцией компании Goldman & Company Pawn Brokers с указанием даты и стоимости. Проверка подтвердила абсолютную точность распознавания текста и кадра.

В рамках другого теста модели предложили грубый схематичный рисунок человечка из палочек, стоящего под водонапорной башней (или НЛО), откуда на него льется вода. Без каких-либо текстовых пояснений ИИ выдал таймкод 15:34, где происходила именно эта сцена. Подобный уровень абстрактного мышления открывает колоссальные перспективы для анализа темпа, атмосферы и визуального стиля кино.

Важное замечание редакции: Стоит учитывать, что массовое внедрение подобных технологий неизбежно столкнется с жесткими юридическими ограничениями и исками о нарушении авторских прав со стороны киностудий, хотя в рамках данного анализа эти аспекты намеренно вынесены за скобки.

🤔 Загадка человеческого вкуса: психология, архетипы и настроение 18:25

Даже при наличии совершенного технического зрения перед разработчиками встает фундаментальный философский вопрос: почему люди любят то, что они любят, и как формализовать человеческий вкус? Дэвид Сандерсон, генеральный директор аналитической компании Reelgood, приводит в пример сериал «Корона». Ему безумно понравились первые два сезона этого проекта, после чего алгоритмы стриминга начали наводнять его ленту шоу о британской монархии, к которым он на самом деле не испытывает ни малейшего интереса. В «Короне» присутствовало нечто неосязаемое, что зацепило зрителя, но ускользнуло от математического алгоритма.

Человеческий вкус полон парадоксов, которые трудно поддаются прямолинейной логике тегов:

Компания Reelgood активно экспериментирует с ИИ, но использует его не для прямой выдачи рекомендаций, а для функции «Стоит ли мне это смотреть?» в своем приложении. ИИ анализирует профиль пользователя и сопоставляет его с выбранным фильмом.

Дэвид Пирс протестировал эту функцию на сериале «Эрик» с Бенедиктом Камбербэтчем. Система выдала детальный разбор: несмотря на то, что криминальный и драматический жанры соответствуют интересам Дэвида, невысокий пользовательский рейтинг IMDb (6.9) и наличие в сюжете элемента «монстра под кроватью» могут ему не понравиться. Вместо этого приложение предложило проверенные альтернативы: «Медведь», «Презумпция невиновности», «Санни» и «Дом Дракона».

Пабло Алесия, руководитель отдела инженерии и данных в Reelgood, выражает определенный скептицизм относительно способности больших языковых моделей (LLM) полностью разгадать психологию человеческого восприятия кино. По мнению Алесии, люди оценивают фильмы через глубокие психологические архетипы персонажей. Языковые модели заперты в рамках текстовых данных, они «живут в коробке» и лишены эмоционального, контекстуального и жизненного опыта, который определяет просмотр кино человеком (включая то, с кем именно вы сидите на диване).

Пабло Алесия считает, что вместо избыточного анализа микродеталей (вроде фиксации птицы, пролетевшей на четвертой минуте фильма), индустрии необходимо сосредоточиться на втором уровне параметров — настроении (mood). Настроение — это понятная и потенциально исчисляемая величина.

С этим тезисом соглашается и Дэвид Пирс, отмечая, что его собственный выбор критически зависит от дня недели и усталости. Будучи фанатом шпионских триллеров и исторических документов, в вечер вторника после тяжелого рабочего дня он предпочтет включить незамысловатое кулинарное шоу, чтобы просто уснуть на диване. Компьютер далеко не всегда может предугадать эти чисто человеческие биоритмы.

💡 Практические лайфхаки: как заставить алгоритмы работать на вас 26:28

Пока идеальный ИИ-рекомендатель будущего находится в разработке, пользователи находят собственные паттерны взаимодействия с нейросетями. Диана Писку отмечает, что в ее сервисе MovieVanders четко выделились две основные модели поведения аудитории:

  1. Функция «Найди мне» (Find me). Поиск конкретного фильма, название которого человек забыл, но помнит яркие детали сюжета. С этим ИИ справляется великолепно благодаря анализу тысяч синопсисов и тредов. Запрос вроде «фильм с Джимом Керри, где есть лодка и телешоу» моментально и безошибочно приводит к «Шоу Трумана».
  2. Поиск по синопсису (Recommender). Диана приводит личный пример: ее ребенку нравится сюжетная структура мультфильма «Тачки», но саму автомобильную тематику она не любит. Она попросила ИИ найти фильм с точно такой же историей, но где действуют обычные люди. Результат ИИ-анализа схожести сюжетных арок оказался на удивление точным, чего невозможно добиться через обычный поисковик Google.

Сам Дэвид Пирс за год активного тестирования выработал несколько эффективных лайфхаков для общения с ChatGPT и Gemini.

Если использовать стандартный промпт «Посоветуй фильмы, похожие на X, Y и Z», нейросеть начнет выдавать банальные поп-культурные ответы. Например, на связку из «Назад в будущее», «Всё везде и сразу» и «Я женился на убийце с топором» ИИ выдает очевидные варианты: «Невероятные приключения Билла и Теда», «Машина времени в джакузи» и «Скотт Пилигрим против всех».

Чтобы обойти это ограничение, Дэвид рекомендует добавлять к запросу жесткий фильтр: «...но предлагай только малоизвестные или недооцененные картины». При запросе похожих криминальных лент после просмотра «Одиннадцати друзей Оушена», «Джентльменов» и «Схватки» обычный поиск выдаст «Слоеный торт», «Не пойман — не вор» или «Город воров». Требование выдать глубокие «андерграундные» варианты заставляет ИИ предлагать более редкие и интересные картины, такие как «Простой план», «Ограбление на Бейкер-стрит» или «Путь оружия».

Еще один рабочий паттерн — запрос жестких бытовых ограничений и вайба: «Порекомендуй хорошую романтическую комедию строго до 90 минут, которая не требует работы мозга». В ответ ИИ выдает точное попадание — легкую комедию 2004 года «Свидание со звездой» (Win a Date with Tad Hamilton!) длительностью ровно 84 минуты с Тофером Грейсом и Кейт Босуорт.

Главный вывод, к которому приходят все эксперты подкаста: лучшим предсказателем того, что вы захотите посмотреть следующим, остается ваша собственная история просмотров. Именно поэтому алгоритмы YouTube и TikTok работают столь пугающе эффективно — пользователь поглощает контент с огромной плотностью внутри одного закрытого приложения, непрерывно подпитывая внутренний маховик данных.

Главный практический совет от редакции The Vergecast — стараться концентрировать свои просмотры на как можно меньшем количестве стриминговых сервисов, либо усердно вести и обновлять единый профиль на платформах-агрегаторах, таких как Reelgood, JustWatch или Letterboxd. Чем больше качественных сигналов (полные просмотры без перемоток, выставленные оценки) вы отдаете системе, тем лучше она будет работать. Настоящий глубокий ИИ-аналитик кинематографа появится еще нескоро, а пока самый надежный способ получать хорошие рекомендации — это просто досматривать хорошее кино до конца.

💬 Цитаты

«Вам может понравиться мелодрама „Немножко женаты“ режиссера Николаса Столлера с Джейсоном Сигелом и Эмили Блант в главных ролях»

Дэвид Пирс 04:30

«Я скептически отношусь к тому, что мы сможем научить LLM полностью и глубоко понимать фильмы и сериалы, а также то, почему они нравятся людям.»

Пабло Алесия 23:09
👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Коллаборативная фильтрация
Метод построения рекомендаций, основанный на математическом сопоставлении оценок схожих групп пользователей.
Контекстное окно
Максимальный объем данных (текста, аудио или видео), который ИИ-модель способна удерживать в оперативной памяти и обрабатывать за один запрос.
Токен
Базовая единица учета информации в языковых моделях, примерно равная нескольким символам или слогу текста.
Векторное пространство эмбеддингов
Математическая среда, где слова, тексты или объекты распределяются в виде координат на основе их смысловой схожести.
Машинное прослушивание (Machine listening)
Технология автоматизированного анализа звукового спектра ИИ для вычленения темпа, музыкальных инструментов и эмоционального тона произведения.
Граф знаний (Knowledge Graph)
База данных, в которой информация представлена в виде сети взаимосвязанных сущностей и их характеристик.
📊 Цифры
🗓 Хронология
  1. 2021 год Дэвид Пирс берет интервью у Густава Седерстрёма об устройстве рекомендательных систем в Spotify.
  2. Февраль 2024 года Google презентует нейросеть Gemini 1.5 со сверхбольшим контекстным окном, способную анализировать видеофайлы.
⚖️ Другая сторона
Технологии и IT The Vergecast Reelgood Gemini 1.5 MovieVanders алгоритмы рекомендаций