Почему стриминги советуют плохие фильмы и как ИИ это исправит?

Стриминговые платформы буквально перегружены контентом, однако найти подходящий фильм для вечернего просмотра становится для пользователей все более сложной задачей. В финальном эпизоде серии материалов об искусственном интеллекте в реальной жизни ведущий подкаста The Vergecast Дэвид Пирс вместе с экспертами индустрии разбирается, способен ли ИИ решить проблему идеальных кинорекомендаций. Собеседники исследуют, почему традиционные алгоритмы крупных сервисов регулярно дают сбой и как новые большие языковые модели меняют наш подход к поиску кино.

📺 Проблема бесконечного скроллинга: почему стриминги нас не понимают 0:42

Каждому знакома ситуация, когда вместо просмотра фильма человек тратит от нескольких минут до бесконечности на простое пролистывание каталога. Дэвид Пирс делится личным опытом: при открытии приложения Netflix система первым делом предлагает ему документальную ленту «Мучо Мучо Амор: Легенда о Вальтере Меркадо», хотя он даже не знает, кто это такой. Персонализированные рекомендации на основе его реальных интересов оказываются погребены на глубине восьми рядов подборки.

Аналогичная ситуация повторяется и на других платформах. Интерфейс Hulu долго загружается и настойчиво предлагает проект «Dress My Tour», который ведущему совершенно не интересен, а также криминальные документальные фильмы, которые обычно смотрит его жена. Сервис Max оказывается ближе к интересам Дэвиса, предлагая спортивное шоу «Hard Knocks» с участием команды «Нью-Йорк Джайентс», а также «Игру престолов» и «Лигу справедливости». Однако даже здесь общая атмосфера напоминает скорее хаотичную выкладку доступного каталога («вот все, что у нас есть»), нежели точечный подбор контента под конкретного человека.

По мнению Дэвида Пирса, именно в этой сфере искусственный интеллект мог бы проявить себя наилучшим образом. Эта задача отличается низким уровнем ответственности: если нейросеть ошибется или даже выдумает несуществующий фильм, это не приведет к катастрофе, в отличие от ошибок ИИ в медицине или юриспруденции. Пользователю просто нужно иметь возможность человеческим языком объяснить чат-боту, чего именно он хочет в данный момент.

🤖 Чат-боты вместо рекомендательных движков: ИИ на практике 3:24

Использовать современные инструменты ИИ для поиска фильмов можно уже сегодня. Базовый запрос в Chat GPT с просьбой найти шпионский боевик в духе «Миссии невыполнима» или «Идентификации Борна» выдает вполне предсказуемый, но качественный результат — фильм «007: Координаты „Скайфолл“». На уточнение, что все фильмы о Джеймсе Бонде уже просмотрены, система предлагает стильный шпионский боевик Гая Ричи «Агенты А.Н.К.Л.».

Существуют и специализированные кастомные плагины, такие как Movies GPT, позиционирующий себя как полноценная киноэнциклопедия. На запрос в стиле «Мне очень понравился фильм „Эта дурацкая любовь“, посоветуй что-то похожее, чего я наверняка не видел» ИИ выдает рекомендацию:

«Вам может понравиться мелодрама „Немножко женаты“ режиссера Николаса Столлера с Джейсоном Сигелом и Эмили Блант в главных ролях».

Система Google Gemini на запрос о классических боевиках 1980-х годов послушно формирует список из общепризнанных шедевров: «Крепкий орешек», «Индиана Джонс: В поисках утраченного ковчега», «Терминатор», «Хищник» и «Полицейский из Беверли-Хиллз».

Главное преимущество больших языковых моделей заключается в том, что они понимают естественный язык. Пользователь может задать ИИ сложные комбинированные параметры, например: «Я хочу романтический фильм продолжительностью менее двух часов, который будет смешным, но не грустным». В ответ алгоритмы безошибочно предлагают «Эта дурацкая любовь» или «10 причин моей ненависти». Хотя эти рекомендации нельзя назвать революционными или редкими, сам формат взаимодействия указывает на тектонический сдвиг в технологиях поиска.

📊 Анатомия киноданных: почему традиционные алгоритмы зашли в тупик 6:26

Долгие годы рекомендательные системы строились по одному принципу, известному как коллаборативная фильтрация. Суть метода проста: если пользователю нравится определенный набор фильмов, алгоритм ищет других людей с похожими оценками и предлагает первому пользователю те картины из их списков, которые он еще не успел посмотреть. Это базовая математическая модель, которая долгое время оставалась стандартом индустрии.

Однако ИИ способен подойти к проблеме совершенно иначе. Диана Писку, разработчик и предприниматель, создавшая рекомендательный ИИ-сервис MovieVanders (название вдохновлено лавкой Олливандера из «Гарри Поттера», где волшебная палочка сама выбирает волшебника), выделяет два ключевых компонента эффективности ИИ:

Способность поглощать и систематизировать колоссальные объемы разнородных данных — от жанров и имен актеров до отзывов на Reddit, в Twitter и Facebook.
Умение структурировать эту информацию, превращая разрозненные тексты интернета в единую базу данных, способную отвечать на сложные семантические запросы пользователей.

Дэвид Пирс подчеркивает, что для качественной работы рекомендательной системы необходимы четыре типа информации, и с большинством из них у современных стримингов есть проблемы:

Метаданные. Базовая информация о проекте (название, режиссер, актерский состав, постер), которую легко найти на IMDb.
Данные о просмотрах. Важнейший сигнал о реальном отношении зрителя к контенту (досмотрел ли до конца, выключил ли на первых минутах, пересматривал ли несколько ночей подряд). Эти данные являются строжайшим коммерческим секретом; Netflix, Hulu, Max и Peacock никогда не делятся ими друг с другом или с общественностью.
Объем библиотеки для рекомендации. Рекомендация хороша лишь тогда, когда у сервиса есть права на показ нужного контента. Библиотеки отдельных стримингов включают всего по несколько тысяч позиций. Для сравнения, вся база IMDb содержит около 685 000 фильмов и 265 000 сериалов, что ничтожно мало на фоне объемов ежедневных загрузок в TikTok или YouTube.
Глубокие характеристики (Traits). Информация о внутреннем устройстве контента, выходящая далеко за рамки сухих тегов вроде «комедия» или «триллер». Это ответы на вопросы: быстрый это фильм или медленный, поднимете ли вы глаза от экрана телефона во время просмотра, хорош ли он для того, чтобы уснуть на диване, и качественный ли у него саундтрек.

🎵 Музыкальный прецедент: опыт машинного прослушивания Spotify 12:08

В сфере понимания внутренних характеристик контента музыкальная индустрия продвинулась значительно дальше кинематографа. В интервью 2021 года Густав Седерстрём (ныне сопрезидент Spotify) подробно описал, как его компания решала аналогичную проблему при запуске рекомендаций для подкастов.

По словам Седерстрёма, в музыке у Spotify было колоссальное преимущество в виде 4,5 миллиардов пользовательских плейлистов, где люди вручную скомпоновали 70 миллионов треков по настроению и контексту. Для подкастов такой готовой базы не существовало. Компании пришлось с нуля выстраивать «граф знаний» (Knowledge Graph), связывая авторов, темы и жанры, а затем накладывать на него статистику прослушиваний.

Со временем Spotify перешел к продвинутым технологиям машинного обучения и так называемому «машинному прослушиванию» (machine listening). ИИ-алгоритмы музыкального гиганта способны автоматически раскладывать любой аудиотрек на составляющие:

Темп (например, ровно 110 ударов в минуту);
Инструментальный состав (наличие ведущей гитарной партии или скрипки);
Вокальные особенности (женский лид-вокал);
Психоэмоциональный окрас контента (например, «подростковая тревожность» / angsty vibes).

Нейросеть транскрибирует аудио, аннотирует содержание и помещает эти данные в так называемые векторные пространства эмбеддингов для поиска семантически похожих позиций. Киноиндустрия до недавнего времени не располагала инструментами аналогичной глубины для анализа видео, но технологический прорыв изменил правила игры.

🚀 Технологический прорыв: как Gemini 1.5 «смотрит» фильмы целиком 15:03

Важнейшей вехой в анализе видео стало появление ИИ-модели Gemini 1.5 от Google, главным новшеством которой стало гигантское контекстное окно, способное вмещать до 1 миллиона токенов информации за один запрос. Это позволило загружать в нейросеть не просто короткие тексты, а целые книги или полноценные видеофайлы.

Google продемонстрировала возможности модели на примере 45-минутного немого фильма Бастера Китона «Шерлок-младший», который целиком занял 69 647 токенов. Разработчики загрузили видео в Google AI Studio и ввели текстовый запрос: «Найди момент, когда из кармана человека достают клочок бумаги, и перескажи ключевую информацию на нем вместе с таймкодом».

Модели потребовалось ровно 1 минута и 57 секунд на обработку. В результате Gemini 1.5 выдала точный таймкод — 12:01, пояснив, что бумага является ломбардной квитанцией компании Goldman & Company Pawn Brokers с указанием даты и стоимости. Проверка подтвердила абсолютную точность распознавания текста и кадра.

В рамках другого теста модели предложили грубый схематичный рисунок человечка из палочек, стоящего под водонапорной башней (или НЛО), откуда на него льется вода. Без каких-либо текстовых пояснений ИИ выдал таймкод 15:34, где происходила именно эта сцена. Подобный уровень абстрактного мышления открывает колоссальные перспективы для анализа темпа, атмосферы и визуального стиля кино.

Важное замечание редакции: Стоит учитывать, что массовое внедрение подобных технологий неизбежно столкнется с жесткими юридическими ограничениями и исками о нарушении авторских прав со стороны киностудий, хотя в рамках данного анализа эти аспекты намеренно вынесены за скобки.

🤔 Загадка человеческого вкуса: психология, архетипы и настроение 18:25

Даже при наличии совершенного технического зрения перед разработчиками встает фундаментальный философский вопрос: почему люди любят то, что они любят, и как формализовать человеческий вкус? Дэвид Сандерсон, генеральный директор аналитической компании Reelgood, приводит в пример сериал «Корона». Ему безумно понравились первые два сезона этого проекта, после чего алгоритмы стриминга начали наводнять его ленту шоу о британской монархии, к которым он на самом деле не испытывает ни малейшего интереса. В «Короне» присутствовало нечто неосязаемое, что зацепило зрителя, но ускользнуло от математического алгоритма.

Человеческий вкус полон парадоксов, которые трудно поддаются прямолинейной логике тегов:

Человек может обожать сериал «Во все тяжкие», но при этом совершенно не воспринимать его спин-офф «Лучше звоните Солу».
Зритель может искренне любить первый сезон реалити-шоу «Selling Sunset», но полностью потерять интерес ко всем последующим.
Любовь к «Игре престолов» не гарантирует интерес к «Дому Дракона» — ведь одного зрителя могла привлекать дворцовая интрига, другого — обилие откровенных сцен, а третьего — конкретный актерский состав.

Компания Reelgood активно экспериментирует с ИИ, но использует его не для прямой выдачи рекомендаций, а для функции «Стоит ли мне это смотреть?» в своем приложении. ИИ анализирует профиль пользователя и сопоставляет его с выбранным фильмом.

Дэвид Пирс протестировал эту функцию на сериале «Эрик» с Бенедиктом Камбербэтчем. Система выдала детальный разбор: несмотря на то, что криминальный и драматический жанры соответствуют интересам Дэвида, невысокий пользовательский рейтинг IMDb (6.9) и наличие в сюжете элемента «монстра под кроватью» могут ему не понравиться. Вместо этого приложение предложило проверенные альтернативы: «Медведь», «Презумпция невиновности», «Санни» и «Дом Дракона».

Пабло Алесия, руководитель отдела инженерии и данных в Reelgood, выражает определенный скептицизм относительно способности больших языковых моделей (LLM) полностью разгадать психологию человеческого восприятия кино. По мнению Алесии, люди оценивают фильмы через глубокие психологические архетипы персонажей. Языковые модели заперты в рамках текстовых данных, они «живут в коробке» и лишены эмоционального, контекстуального и жизненного опыта, который определяет просмотр кино человеком (включая то, с кем именно вы сидите на диване).

Пабло Алесия считает, что вместо избыточного анализа микродеталей (вроде фиксации птицы, пролетевшей на четвертой минуте фильма), индустрии необходимо сосредоточиться на втором уровне параметров — настроении (mood). Настроение — это понятная и потенциально исчисляемая величина.

С этим тезисом соглашается и Дэвид Пирс, отмечая, что его собственный выбор критически зависит от дня недели и усталости. Будучи фанатом шпионских триллеров и исторических документов, в вечер вторника после тяжелого рабочего дня он предпочтет включить незамысловатое кулинарное шоу, чтобы просто уснуть на диване. Компьютер далеко не всегда может предугадать эти чисто человеческие биоритмы.

💡 Практические лайфхаки: как заставить алгоритмы работать на вас 26:28

Пока идеальный ИИ-рекомендатель будущего находится в разработке, пользователи находят собственные паттерны взаимодействия с нейросетями. Диана Писку отмечает, что в ее сервисе MovieVanders четко выделились две основные модели поведения аудитории:

Функция «Найди мне» (Find me). Поиск конкретного фильма, название которого человек забыл, но помнит яркие детали сюжета. С этим ИИ справляется великолепно благодаря анализу тысяч синопсисов и тредов. Запрос вроде «фильм с Джимом Керри, где есть лодка и телешоу» моментально и безошибочно приводит к «Шоу Трумана».
Поиск по синопсису (Recommender). Диана приводит личный пример: ее ребенку нравится сюжетная структура мультфильма «Тачки», но саму автомобильную тематику она не любит. Она попросила ИИ найти фильм с точно такой же историей, но где действуют обычные люди. Результат ИИ-анализа схожести сюжетных арок оказался на удивление точным, чего невозможно добиться через обычный поисковик Google.

Сам Дэвид Пирс за год активного тестирования выработал несколько эффективных лайфхаков для общения с ChatGPT и Gemini.

Если использовать стандартный промпт «Посоветуй фильмы, похожие на X, Y и Z», нейросеть начнет выдавать банальные поп-культурные ответы. Например, на связку из «Назад в будущее», «Всё везде и сразу» и «Я женился на убийце с топором» ИИ выдает очевидные варианты: «Невероятные приключения Билла и Теда», «Машина времени в джакузи» и «Скотт Пилигрим против всех».

Чтобы обойти это ограничение, Дэвид рекомендует добавлять к запросу жесткий фильтр: «...но предлагай только малоизвестные или недооцененные картины». При запросе похожих криминальных лент после просмотра «Одиннадцати друзей Оушена», «Джентльменов» и «Схватки» обычный поиск выдаст «Слоеный торт», «Не пойман — не вор» или «Город воров». Требование выдать глубокие «андерграундные» варианты заставляет ИИ предлагать более редкие и интересные картины, такие как «Простой план», «Ограбление на Бейкер-стрит» или «Путь оружия».

Еще один рабочий паттерн — запрос жестких бытовых ограничений и вайба: «Порекомендуй хорошую романтическую комедию строго до 90 минут, которая не требует работы мозга». В ответ ИИ выдает точное попадание — легкую комедию 2004 года «Свидание со звездой» (Win a Date with Tad Hamilton!) длительностью ровно 84 минуты с Тофером Грейсом и Кейт Босуорт.

Главный вывод, к которому приходят все эксперты подкаста: лучшим предсказателем того, что вы захотите посмотреть следующим, остается ваша собственная история просмотров. Именно поэтому алгоритмы YouTube и TikTok работают столь пугающе эффективно — пользователь поглощает контент с огромной плотностью внутри одного закрытого приложения, непрерывно подпитывая внутренний маховик данных.

Главный практический совет от редакции The Vergecast — стараться концентрировать свои просмотры на как можно меньшем количестве стриминговых сервисов, либо усердно вести и обновлять единый профиль на платформах-агрегаторах, таких как Reelgood, JustWatch или Letterboxd. Чем больше качественных сигналов (полные просмотры без перемоток, выставленные оценки) вы отдаете системе, тем лучше она будет работать. Настоящий глубокий ИИ-аналитик кинематографа появится еще нескоро, а пока самый надежный способ получать хорошие рекомендации — это просто досматривать хорошее кино до конца.