Стриминговые платформы буквально перегружены контентом, однако найти подходящий фильм для вечернего просмотра становится для пользователей все более сложной задачей. В финальном эпизоде серии материалов об искусственном интеллекте в реальной жизни ведущий подкаста The Vergecast Дэвид Пирс вместе с экспертами индустрии разбирается, способен ли ИИ решить проблему идеальных кинорекомендаций. Собеседники исследуют, почему традиционные алгоритмы крупных сервисов регулярно дают сбой и как новые большие языковые модели меняют наш подход к поиску кино.
📺 Проблема бесконечного скроллинга: почему стриминги нас не понимают 0:42
Каждому знакома ситуация, когда вместо просмотра фильма человек тратит от нескольких минут до бесконечности на простое пролистывание каталога. Дэвид Пирс делится личным опытом: при открытии приложения Netflix система первым делом предлагает ему документальную ленту «Мучо Мучо Амор: Легенда о Вальтере Меркадо», хотя он даже не знает, кто это такой. Персонализированные рекомендации на основе его реальных интересов оказываются погребены на глубине восьми рядов подборки.
Аналогичная ситуация повторяется и на других платформах. Интерфейс Hulu долго загружается и настойчиво предлагает проект «Dress My Tour», который ведущему совершенно не интересен, а также криминальные документальные фильмы, которые обычно смотрит его жена. Сервис Max оказывается ближе к интересам Дэвиса, предлагая спортивное шоу «Hard Knocks» с участием команды «Нью-Йорк Джайентс», а также «Игру престолов» и «Лигу справедливости». Однако даже здесь общая атмосфера напоминает скорее хаотичную выкладку доступного каталога («вот все, что у нас есть»), нежели точечный подбор контента под конкретного человека.
По мнению Дэвида Пирса, именно в этой сфере искусственный интеллект мог бы проявить себя наилучшим образом. Эта задача отличается низким уровнем ответственности: если нейросеть ошибется или даже выдумает несуществующий фильм, это не приведет к катастрофе, в отличие от ошибок ИИ в медицине или юриспруденции. Пользователю просто нужно иметь возможность человеческим языком объяснить чат-боту, чего именно он хочет в данный момент.
🤖 Чат-боты вместо рекомендательных движков: ИИ на практике 3:24
Использовать современные инструменты ИИ для поиска фильмов можно уже сегодня. Базовый запрос в Chat GPT с просьбой найти шпионский боевик в духе «Миссии невыполнима» или «Идентификации Борна» выдает вполне предсказуемый, но качественный результат — фильм «007: Координаты „Скайфолл“». На уточнение, что все фильмы о Джеймсе Бонде уже просмотрены, система предлагает стильный шпионский боевик Гая Ричи «Агенты А.Н.К.Л.».
Существуют и специализированные кастомные плагины, такие как Movies GPT, позиционирующий себя как полноценная киноэнциклопедия. На запрос в стиле «Мне очень понравился фильм „Эта дурацкая любовь“, посоветуй что-то похожее, чего я наверняка не видел» ИИ выдает рекомендацию:
«Вам может понравиться мелодрама „Немножко женаты“ режиссера Николаса Столлера с Джейсоном Сигелом и Эмили Блант в главных ролях».
Система Google Gemini на запрос о классических боевиках 1980-х годов послушно формирует список из общепризнанных шедевров: «Крепкий орешек», «Индиана Джонс: В поисках утраченного ковчега», «Терминатор», «Хищник» и «Полицейский из Беверли-Хиллз».
Главное преимущество больших языковых моделей заключается в том, что они понимают естественный язык. Пользователь может задать ИИ сложные комбинированные параметры, например: «Я хочу романтический фильм продолжительностью менее двух часов, который будет смешным, но не грустным». В ответ алгоритмы безошибочно предлагают «Эта дурацкая любовь» или «10 причин моей ненависти». Хотя эти рекомендации нельзя назвать революционными или редкими, сам формат взаимодействия указывает на тектонический сдвиг в технологиях поиска.
📊 Анатомия киноданных: почему традиционные алгоритмы зашли в тупик 6:26
Долгие годы рекомендательные системы строились по одному принципу, известному как коллаборативная фильтрация. Суть метода проста: если пользователю нравится определенный набор фильмов, алгоритм ищет других людей с похожими оценками и предлагает первому пользователю те картины из их списков, которые он еще не успел посмотреть. Это базовая математическая модель, которая долгое время оставалась стандартом индустрии.
Однако ИИ способен подойти к проблеме совершенно иначе. Диана Писку, разработчик и предприниматель, создавшая рекомендательный ИИ-сервис MovieVanders (название вдохновлено лавкой Олливандера из «Гарри Поттера», где волшебная палочка сама выбирает волшебника), выделяет два ключевых компонента эффективности ИИ:
- Способность поглощать и систематизировать колоссальные объемы разнородных данных — от жанров и имен актеров до отзывов на Reddit, в Twitter и Facebook.
- Умение структурировать эту информацию, превращая разрозненные тексты интернета в единую базу данных, способную отвечать на сложные семантические запросы пользователей.
Дэвид Пирс подчеркивает, что для качественной работы рекомендательной системы необходимы четыре типа информации, и с большинством из них у современных стримингов есть проблемы:
- Метаданные. Базовая информация о проекте (название, режиссер, актерский состав, постер), которую легко найти на IMDb.
- Данные о просмотрах. Важнейший сигнал о реальном отношении зрителя к контенту (досмотрел ли до конца, выключил ли на первых минутах, пересматривал ли несколько ночей подряд). Эти данные являются строжайшим коммерческим секретом; Netflix, Hulu, Max и Peacock никогда не делятся ими друг с другом или с общественностью.
- Объем библиотеки для рекомендации. Рекомендация хороша лишь тогда, когда у сервиса есть права на показ нужного контента. Библиотеки отдельных стримингов включают всего по несколько тысяч позиций. Для сравнения, вся база IMDb содержит около 685 000 фильмов и 265 000 сериалов, что ничтожно мало на фоне объемов ежедневных загрузок в TikTok или YouTube.
- Глубокие характеристики (Traits). Информация о внутреннем устройстве контента, выходящая далеко за рамки сухих тегов вроде «комедия» или «триллер». Это ответы на вопросы: быстрый это фильм или медленный, поднимете ли вы глаза от экрана телефона во время просмотра, хорош ли он для того, чтобы уснуть на диване, и качественный ли у него саундтрек.
🎵 Музыкальный прецедент: опыт машинного прослушивания Spotify 12:08
В сфере понимания внутренних характеристик контента музыкальная индустрия продвинулась значительно дальше кинематографа. В интервью 2021 года Густав Седерстрём (ныне сопрезидент Spotify) подробно описал, как его компания решала аналогичную проблему при запуске рекомендаций для подкастов.
По словам Седерстрёма, в музыке у Spotify было колоссальное преимущество в виде 4,5 миллиардов пользовательских плейлистов, где люди вручную скомпоновали 70 миллионов треков по настроению и контексту. Для подкастов такой готовой базы не существовало. Компании пришлось с нуля выстраивать «граф знаний» (Knowledge Graph), связывая авторов, темы и жанры, а затем накладывать на него статистику прослушиваний.
Со временем Spotify перешел к продвинутым технологиям машинного обучения и так называемому «машинному прослушиванию» (machine listening). ИИ-алгоритмы музыкального гиганта способны автоматически раскладывать любой аудиотрек на составляющие:
- Темп (например, ровно 110 ударов в минуту);
- Инструментальный состав (наличие ведущей гитарной партии или скрипки);
- Вокальные особенности (женский лид-вокал);
- Психоэмоциональный окрас контента (например, «подростковая тревожность» / angsty vibes).
Нейросеть транскрибирует аудио, аннотирует содержание и помещает эти данные в так называемые векторные пространства эмбеддингов для поиска семантически похожих позиций. Киноиндустрия до недавнего времени не располагала инструментами аналогичной глубины для анализа видео, но технологический прорыв изменил правила игры.
🚀 Технологический прорыв: как Gemini 1.5 «смотрит» фильмы целиком 15:03
Важнейшей вехой в анализе видео стало появление ИИ-модели Gemini 1.5 от Google, главным новшеством которой стало гигантское контекстное окно, способное вмещать до 1 миллиона токенов информации за один запрос. Это позволило загружать в нейросеть не просто короткие тексты, а целые книги или полноценные видеофайлы.
Google продемонстрировала возможности модели на примере 45-минутного немого фильма Бастера Китона «Шерлок-младший», который целиком занял 69 647 токенов. Разработчики загрузили видео в Google AI Studio и ввели текстовый запрос: «Найди момент, когда из кармана человека достают клочок бумаги, и перескажи ключевую информацию на нем вместе с таймкодом».
Модели потребовалось ровно 1 минута и 57 секунд на обработку. В результате Gemini 1.5 выдала точный таймкод — 12:01, пояснив, что бумага является ломбардной квитанцией компании Goldman & Company Pawn Brokers с указанием даты и стоимости. Проверка подтвердила абсолютную точность распознавания текста и кадра.
В рамках другого теста модели предложили грубый схематичный рисунок человечка из палочек, стоящего под водонапорной башней (или НЛО), откуда на него льется вода. Без каких-либо текстовых пояснений ИИ выдал таймкод 15:34, где происходила именно эта сцена. Подобный уровень абстрактного мышления открывает колоссальные перспективы для анализа темпа, атмосферы и визуального стиля кино.
Важное замечание редакции: Стоит учитывать, что массовое внедрение подобных технологий неизбежно столкнется с жесткими юридическими ограничениями и исками о нарушении авторских прав со стороны киностудий, хотя в рамках данного анализа эти аспекты намеренно вынесены за скобки.
🤔 Загадка человеческого вкуса: психология, архетипы и настроение 18:25
Даже при наличии совершенного технического зрения перед разработчиками встает фундаментальный философский вопрос: почему люди любят то, что они любят, и как формализовать человеческий вкус? Дэвид Сандерсон, генеральный директор аналитической компании Reelgood, приводит в пример сериал «Корона». Ему безумно понравились первые два сезона этого проекта, после чего алгоритмы стриминга начали наводнять его ленту шоу о британской монархии, к которым он на самом деле не испытывает ни малейшего интереса. В «Короне» присутствовало нечто неосязаемое, что зацепило зрителя, но ускользнуло от математического алгоритма.
Человеческий вкус полон парадоксов, которые трудно поддаются прямолинейной логике тегов:
- Человек может обожать сериал «Во все тяжкие», но при этом совершенно не воспринимать его спин-офф «Лучше звоните Солу».
- Зритель может искренне любить первый сезон реалити-шоу «Selling Sunset», но полностью потерять интерес ко всем последующим.
- Любовь к «Игре престолов» не гарантирует интерес к «Дому Дракона» — ведь одного зрителя могла привлекать дворцовая интрига, другого — обилие откровенных сцен, а третьего — конкретный актерский состав.
Компания Reelgood активно экспериментирует с ИИ, но использует его не для прямой выдачи рекомендаций, а для функции «Стоит ли мне это смотреть?» в своем приложении. ИИ анализирует профиль пользователя и сопоставляет его с выбранным фильмом.
Дэвид Пирс протестировал эту функцию на сериале «Эрик» с Бенедиктом Камбербэтчем. Система выдала детальный разбор: несмотря на то, что криминальный и драматический жанры соответствуют интересам Дэвида, невысокий пользовательский рейтинг IMDb (6.9) и наличие в сюжете элемента «монстра под кроватью» могут ему не понравиться. Вместо этого приложение предложило проверенные альтернативы: «Медведь», «Презумпция невиновности», «Санни» и «Дом Дракона».
Пабло Алесия, руководитель отдела инженерии и данных в Reelgood, выражает определенный скептицизм относительно способности больших языковых моделей (LLM) полностью разгадать психологию человеческого восприятия кино. По мнению Алесии, люди оценивают фильмы через глубокие психологические архетипы персонажей. Языковые модели заперты в рамках текстовых данных, они «живут в коробке» и лишены эмоционального, контекстуального и жизненного опыта, который определяет просмотр кино человеком (включая то, с кем именно вы сидите на диване).
Пабло Алесия считает, что вместо избыточного анализа микродеталей (вроде фиксации птицы, пролетевшей на четвертой минуте фильма), индустрии необходимо сосредоточиться на втором уровне параметров — настроении (mood). Настроение — это понятная и потенциально исчисляемая величина.
С этим тезисом соглашается и Дэвид Пирс, отмечая, что его собственный выбор критически зависит от дня недели и усталости. Будучи фанатом шпионских триллеров и исторических документов, в вечер вторника после тяжелого рабочего дня он предпочтет включить незамысловатое кулинарное шоу, чтобы просто уснуть на диване. Компьютер далеко не всегда может предугадать эти чисто человеческие биоритмы.
💡 Практические лайфхаки: как заставить алгоритмы работать на вас 26:28
Пока идеальный ИИ-рекомендатель будущего находится в разработке, пользователи находят собственные паттерны взаимодействия с нейросетями. Диана Писку отмечает, что в ее сервисе MovieVanders четко выделились две основные модели поведения аудитории:
- Функция «Найди мне» (Find me). Поиск конкретного фильма, название которого человек забыл, но помнит яркие детали сюжета. С этим ИИ справляется великолепно благодаря анализу тысяч синопсисов и тредов. Запрос вроде «фильм с Джимом Керри, где есть лодка и телешоу» моментально и безошибочно приводит к «Шоу Трумана».
- Поиск по синопсису (Recommender). Диана приводит личный пример: ее ребенку нравится сюжетная структура мультфильма «Тачки», но саму автомобильную тематику она не любит. Она попросила ИИ найти фильм с точно такой же историей, но где действуют обычные люди. Результат ИИ-анализа схожести сюжетных арок оказался на удивление точным, чего невозможно добиться через обычный поисковик Google.
Сам Дэвид Пирс за год активного тестирования выработал несколько эффективных лайфхаков для общения с ChatGPT и Gemini.
Если использовать стандартный промпт «Посоветуй фильмы, похожие на X, Y и Z», нейросеть начнет выдавать банальные поп-культурные ответы. Например, на связку из «Назад в будущее», «Всё везде и сразу» и «Я женился на убийце с топором» ИИ выдает очевидные варианты: «Невероятные приключения Билла и Теда», «Машина времени в джакузи» и «Скотт Пилигрим против всех».
Чтобы обойти это ограничение, Дэвид рекомендует добавлять к запросу жесткий фильтр: «...но предлагай только малоизвестные или недооцененные картины». При запросе похожих криминальных лент после просмотра «Одиннадцати друзей Оушена», «Джентльменов» и «Схватки» обычный поиск выдаст «Слоеный торт», «Не пойман — не вор» или «Город воров». Требование выдать глубокие «андерграундные» варианты заставляет ИИ предлагать более редкие и интересные картины, такие как «Простой план», «Ограбление на Бейкер-стрит» или «Путь оружия».
Еще один рабочий паттерн — запрос жестких бытовых ограничений и вайба: «Порекомендуй хорошую романтическую комедию строго до 90 минут, которая не требует работы мозга». В ответ ИИ выдает точное попадание — легкую комедию 2004 года «Свидание со звездой» (Win a Date with Tad Hamilton!) длительностью ровно 84 минуты с Тофером Грейсом и Кейт Босуорт.
Главный вывод, к которому приходят все эксперты подкаста: лучшим предсказателем того, что вы захотите посмотреть следующим, остается ваша собственная история просмотров. Именно поэтому алгоритмы YouTube и TikTok работают столь пугающе эффективно — пользователь поглощает контент с огромной плотностью внутри одного закрытого приложения, непрерывно подпитывая внутренний маховик данных.
Главный практический совет от редакции The Vergecast — стараться концентрировать свои просмотры на как можно меньшем количестве стриминговых сервисов, либо усердно вести и обновлять единый профиль на платформах-агрегаторах, таких как Reelgood, JustWatch или Letterboxd. Чем больше качественных сигналов (полные просмотры без перемоток, выставленные оценки) вы отдаете системе, тем лучше она будет работать. Настоящий глубокий ИИ-аналитик кинематографа появится еще нескоро, а пока самый надежный способ получать хорошие рекомендации — это просто досматривать хорошее кино до конца.