Интервью с Мохитом Бансалом: как объединить зрение, звук и текст в одной нейросети

Мультимодальные большие языковые модели стремительно меняют ландшафт искусственного интеллекта, выходя за рамки обработки исключительно текстовой информации. В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Черрингтон обсудил с профессором и директором merge Lab Университета Северной Каролины в Чапел-Хилл Мохитом Бансалом ключевые вызовы этой индустрии. Главными темами беседы стали технологическая унификация, повышение вычислительной эффективности алгоритмов и создание надежных метрик для оценки генеративного ИИ.

🌐 Путь в мультимодальность: от шуток в Беркли до больших моделей 0:00

Мохит Бансал начал свой путь в сфере искусственного интеллекта около 15 лет назад во время обучения в Индийском технологическом институте в Канпуре (IIT Kanpur). В то время мультимодальные системы еще не были мейнстримом. Позднее, во время учебы в аспирантуре Калифорнийского университета в Беркли, исследователи из групп компьютерного зрения (Vision) и обработки естественного языка (NLP) часто в шутку обсуждали, когда же стоит объединить их усилия. Однако тогда ученые сходились во мнении, что отдельные компоненты еще «недостаточно умны», чтобы эффективно взаимодействовать друг с другом.

Первый полноценный мультимодальный проект Бансала стартовал примерно 10 лет назад в Чикаго. Сегодня его лаборатория занимается широким спектром задач: от создания больших языковых моделей с поддержкой разных модальностей до сбора видеодатасетов, суммаризации видео, предсказания будущих кадров и ответов на вопросы по видео. По признанию исследователя, появление мультимодальной версии GPT-4 не стало для него сюрпризом — профильное сообщество ожидало этого шага. Тем не менее Бансал считает, что индустрии предстоит пройти долгий путь в развитии механизмов пошаговой генерации, объяснимости и оптимизации ресурсов.

🤝 Унификация моделей: от тысяч специалистов к единой системе 3:49

Одним из главных драйверов развития мультимодальных систем Бансал называет концепцию унификации. Исторически в сфере AI возникали тысячи специализированных моделей под узкие задачи: визуальные ответы на вопросы (VQA), локализация объектов (referring expression), сегментация или генерация изображений. Около четырех с половиной — пяти лет назад команда Бансала представила проект Lex mode, который стал одним из первых вариантов адаптации архитектуры BERT для объединения визуальных и языковых энкодеров. Унификация позволяет не просто экономить параметры, но и обеспечивает перенос знаний между модулями, что, по мнению гостя, критически важно для способности ИИ решать новые, ранее не встречавшиеся задачи.

Важным теоретическим вопросом остается концепция «заземления» (grounding) языка через визуальные образы. Черрингтон отметил, что успех чисто текстовых LLM заставил некоторых усомниться в обязательности визуального контекста для освоения языка. Бансал парирует это двумя аргументами.

Во-первых, по его мнению, существует огромный пласт физического, временного и динамического здравого смысла (common sense), который люди практически никогда не описывают текстом в явном виде. Во-вторых, мультимодальность критически важна для эффективности данных (data efficiency). По мнению исследователя, гораздо эффективнее обучать модель на небольшом объеме естественных разнородных данных (как это делают люди, задействуя все органы чувств), чем пытаться скормить ей сотни миллиардов токенов текста в надежде, что там случайно окажется описание нужной физической взаимосвязи.

📝 Рождение VL-T5: текст как универсальный интерфейс

В начале 2020 года (официальная публикация состоялась на ICML 2021) команда Бансала разработала модель VL-T5. Суть подхода заключалась в том, чтобы свести любую мультимодальную задачу к генерации текста.

Примеры трансформации задач в рамках VL-T5:

Визуальный ответ на вопросы (VQA): на вход подаются изображение и вопрос, на выходе генерируется текстовый ответ.
Сопоставление изображений и текста (Image-text matching): вместо классического классификатора модель генерирует текстовые токены «true» или «false».
Визуальное заземление (Visual grounding): если модель просят найти «третью лошадь слева», текстовый декодер должен сгенерировать точный идентификатор ограничивающей рамки, например «box number 31».

Такой подход позволил использовать предобученные параметры T5 для «визуального промптинга». В результате архитектура VL-T5 потребовала в 7 раз меньше параметров по сравнению с набором специализированных моделей, сохранив аналогичный уровень качества и продемонстрировав способность обрабатывать редкие категории ответов. В дальнейшем эти идеи развились в таких индустриальных проектах, как Flamingo от Google и Unified-IO.

🔇 Эксперимент TBLT: отказ от текста в пользу спектрограмм

Следующим шагом в унификации стал проект TBLT (Textless Vision Language Transformer), призванный решить проблему «шумных» текстовых данных в видео. Обычно для обучения видеомоделей используются автоматические субтитры (ASR), которые часто страдают от рассинхронизации и ошибок распознавания.

Разработчики TBLT полностью исключили текстовые модули и токенизаторы. Вместо этого они начали обрабатывать аудиоспектрограммы как обычные видеокадры, используя единый визуальный энкодер и общую задачу предварительного обучения — маскированное автокодирование (Masked Autoencoding, MAE). Модель случайным образом скрывала патчи на видеокадрах и аудиоспектрограммах, а затем реконструировала их.

По данным исследования, TBLT обеспечил:

Ускорение инференса в 30 раз.
Сокращение количества параметров до 1/3 от базового уровня.
Улучшение результатов в задачах, критичных к аудиофункциям (например, мультимодальный анализ тональности, где важны эмоции и питч голоса).

📑 Проект UDOP: геометрия и «физика» документов

В сотрудничестве с Microsoft команда Бансала создала модель UDOP (Universal Document Processing), представленную на CVPR 2023. Задача этого проекта — работа со сложными пространственными документами (финансовые отчеты, академические статьи, веб-сайты), где текст неотделим от верстки, таблиц и графики. UDOP заняла первое место на бенчмарке DUE (Document Understanding Evaluation).

Секрет успеха модели заключается в совместном обучении тексту, зрению и разметке (layout). UDOP объединяет текст и его пространственные координаты воедино, обучаясь реконструировать их совместно. Модель способна не просто читать, но и редактировать документы, меняя куски изображений или текста с сохранением почерка и форматирования.

Из этических соображений авторы решили не выпускать декодер этой модели в открытый доступ, ограничившись публикацией энкодера. Бансал проводит аналогию с робототехникой: учет разметки документа — это как учет законов физики реального мира. Модель учится понимать структуру не через жесткие правила, а через активное исследование и генеративное редактирование.

⚡ Борьба за эффективность: как обучать ИИ без миллиардных бюджетов 32:28

Поскольку размеры современных моделей растут по экспоненте, они становятся недоступными для академических лабораторий и независимых исследователей. Бансал отмечает, что большинство университетских команд до сих пор вынуждены работать на графических процессорах с 12 ГБ видеопамяти, так как ускорители с 48 ГБ и более стоят слишком дорого. Лаборатория merge Lab предложила несколько архитектурных решений для снижения вычислительной нагрузки.

🔌 Адаптеры против LoRA

В работе VL Adapters (CVPR 2022) исследователи предложили встраивать небольшие «узкие» модули-адаптеры между слоями крупной замороженной модели. При тонкой настройке обновляются параметры только этих адаптеров, что составляет всего от 1% до 5% от общего объема весов модели. Эксперименты показали, что этот метод обеспечивает качество на уровне полного fine-tuning, при этом базовая архитектура с общими адаптерами для разных задач оказалась эффективнее популярных методов вроде LoRA или prompt tuning.

🧗 Боковые сети Ladder Side Tuning и экономия видеопамяти

Простое сокращение обновляемых параметров не решает проблему потребления памяти при обратном распространении ошибки (backpropagation). Чтобы обойти это ограничение, в статье Ladder Side Tuning (NeurIPS 2022) была представлена концепция легкой «боковой» сети. Вместо того чтобы прогонять градиенты через весь гигантский базовый «бекбон», процесс обратного распространения изолируется внутри неглубокой боковой структуры, что радикально снижает требования к памяти GPU.

🎞️ Оптимизация видео: ключевые кадры и метод «просмотра фильма»

Для эффективной работы с видео исследователи разработали два подхода:

Выборка ключевых кадров (модель CLIPBERT): проект получил почетное упоминание на CVPR 2021. Вместо обработки терабайтов полных видеопотоков алгоритм обучается на случайно выбранных репрезентативных кадрах, что сохраняет точность при многократном снижении нагрузки.
Аудио-визуальная комплементарность: Бансал приводит жизненную аналогию — когда человек включает фильм на фоне во время работы, он большую часть времени ориентируется на звук и лишь изредка бросает взгляд на экран в ключевые моменты. Нейросеть научили действовать так же — отключать ресурсоемкую обработку видеокадров там, где для понимания контекста достаточно дешевой аудиодорожки.

📐 Кризис оценки: как измерить то, что генерирует ИИ 36:57

Оценка генеративных моделей — одна из самых сложных и субъективных областей в AI. Исторически индустрия полагается на ручные тесты людьми, но этот подход немасштабируем и предвзят. Популярные автоматические метрики вроде FID измеряют сходство распределений сгенерированных картинок с тренировочной выборкой, однако, по замечанию Бансала, они не способны оценить точность на уровне конкретного экземпляра и за пределами исходного распределения.

🤖 Метрика DALL-E Eval и борьба с предвзятостью

Для решения этой проблемы команда Бансала создала инструмент DALL-E Eval. Вместо абстрактного сравнения распределений система использует встроенные детекторы объектов для поштучной проверки выполнения условий промпта. Метрика способна математически рассчитать координаты bounding box'ов и верифицировать сложные пространственные или количественные запросы (например, «находится ли лошадь слева от астронавта»).

Кроме того, DALL-E Eval замеряет социальные перекосы (social biases). Исследователи зафиксировали сильную предвзятость современных генераторов по признаку пола и оттенка кожи (например, при генерации изображений по запросам «врач» или «медсестра»).

🕵️ Ложные корреляции и проект Viz Fizz

В работе Viz Fizz ученые подняли проблему «правильных ответов по неверным причинам». Часто модели VQA выдают верный результат из-за ложных корреляций в данных, а не из-за причинно-следственного понимания сцены. Исследователи показали, что даже внедрение карт человеческого внимания (attention maps) в качестве супервизии может приводить к ложным улучшениям. Для борьбы с этим команда разработала специальные целевые функции, опирающиеся на принципы каузальности и проверяющие цепочки рассуждений ИИ.

🔮 Будущее мультимодальности: невербальные сигналы и программная объяснимость 48:26

Заглядывая в будущее, Мохит Бансал подчеркивает, что понятие «мультимодальность» должно выйти далеко за рамки триады «текст-картинка-видео». Настоящий ИИ должен учиться через действие и интерактивное взаимодействие с миром (learning by interaction). Человек понимает, что нельзя трогать горячее, обжегшись об него — аналогичный опыт ИИ должен получать в симуляционных средах.

По мнению ученого, в модели критически важно внедрять новые типы модальностей: направление взгляда (gaze), жесты (gestures), позы (posture) и другие невербальные сигналы. Пока главным препятствием здесь остаются ограничения движков симуляции (таких как Unity), которые не могут обеспечить стопроцентный реализм и непрерывность физического мира.

Вторым ключевым вектором Бансал считает программную объяснимость (program-based explainability). Вместо выдачи готового (и потенциально галлюцинированного) ответа модель сначала генерирует код программы (например, на Python), описывающий алгоритм поиска решения, а затем выполняет его с помощью внешних инструментов или API.

В качестве примера ученый приводит сложный запрос: «Сколько собак находится рядом с белым зданием?». Вместо случайного угадывания ИИ генерирует программу:

Найти белое здание.
Выделить область слева от него.
Посчитать количество собак.

По прогнозу Бансала, этот подход, перекликающийся с концепцией инструментальных агентов (tools-based agents), откроет колоссальные возможности для решения разнородных задач в интернете за счет гибкого комбинирования различных API.