Масштабирование мультимодального ИИ, феномен «выхода в свет» скрытых способностей моделей и будущее открытой науки стали центральными темами беседы Сэма Чаррингтона с Люком Зеттлмайером. Зеттлмайер, совмещающий пост профессора в Вашингтонском университете с должностью менеджера по исследованиям в Meta, делится инсайдами о том, почему текст больше не является пределом для обучения и как «разговорить» нейросеть с помощью минимального объема данных.
🧠 От инженерии к естественным наукам: новая парадигма ИИ 0:00
Люк Зеттлмайер работает в области искусственного интеллекта более 15 лет, из которых 13 лет он посвятил преподаванию в Школе компьютерных наук и инженерии имени Пола Г. Аллена, а последние 5 лет — исследованиям в Meta . По его мнению, за несколько последних лет сама природа исследований в области ИИ претерпела фундаментальную трансформацию .
Если раньше создание моделей было преимущественно инженерной или алгоритмической дисциплиной, то теперь, по словам Зеттлмайера, оно напоминает изучение сложных систем или естественных наук, таких как метеорология . Мы понимаем математику отдельных «нейронов», но не можем предсказать эмерджентное (внезапно возникающее) поведение системы в целом .
В качестве примера такой непредсказуемости гость приводит мультиязычность. Даже если исследователи пытаются отфильтровать обучающую выборку, оставив только английский язык, классификаторы имеют погрешность около 1% . При объемах в сотни миллиардов токенов этого процента «шума» достаточно, чтобы модель в итоге стала мультиязычной .
🖼️ Мультимодальность как решение проблемы дефицита данных 4:30
Одной из самых обсуждаемых проблем в индустрии является сценарий «конца данных». Зеттлмайер утверждает, что запасы качественного текстового контента в интернете ограничены и могут быть исчерпаны в ближайшее время .
Основные тезисы Зеттлмайера о роли мультимодальности:
- Масштабирование: Переход к обучению на изображениях, аудио и видео — это единственный способ продолжать кривую масштабирования, когда текстовые данные закончатся .
- Проблема заземления (Grounding): Текст не дает модели полного понимания физического мира. По мнению Зеттлмайера, такие понятия, как разница между «осторожно поднять перо» и «осторожно поднять штангу», требуют визуального или физического опыта, который невозможно полностью передать словами .
- Спорт как аналогия: Навыки атлета заложены в мышцах; их нельзя выучить по книге, им можно научиться только через действие и наблюдение, что подводит нас к необходимости обучения на видео .
Зеттлмайер упоминает модель DALL-E 3 как пример глубокого понимания пространственных связей и композиции . Однако «Святым Граалем» для него является доказательство того, что добавление изображений может улучшить работу модели в чисто текстовых задачах — гипотеза, которую его команда сейчас активно проверяет .
🧩 Токенизация всего: проект Chameleon 11:05
В своих последних работах (включая статьи о масштабировании мультимодальных систем и проект Chameleon) Зеттлмайер и его коллеги отходят от популярного сейчас метода диффузии . Вместо этого они используют подход «токенизации» визуальных данных.
Техническая суть подхода:
- Использование VQ-GAN для превращения изображений в последовательности дискретных токенов .
- Создание словаря «визуальных слов» (от 1 000 до 20 000 символов), которые для модели выглядят так же, как обычные слова .
- Обучение единого трансформера на смеси текстовых и визуальных цепочек .
Такой подход позволяет применять к изображениям все наработанные годами приемы обработки естественного языка (NLP) . Например, это упрощает использование Retrieval Augmented Generation (RAG) для мультимодальных данных. Работа интерна Митчи (Mitchie) из Стэнфорда показала, что модель может значительно лучше генерировать специфические объекты (например, армянские церкви со сложной архитектурой), если ей предоставить визуальный образец в качестве контекста .
🪄 alignment: магия «раскрытия» способностей 20:23
Значительная часть дискуссии посвящена техникам выравнивания (alignment) моделей. Ранее считалось, что fine-tuning — это процесс дообучения новым знаниям. Однако Зеттлмайер и его соавторы в статье LIMA («Less Is More for Alignment») выдвигают другую гипотезу .
Ключевые выводы исследований группы Люка:
- Знания уже внутри: По мнению Зеттлмайера, почти все знания модель получает на этапе pre-training (предварительного обучения). Alignment лишь «раскрывает» эти способности, обучая модель формату взаимодействия с пользователем .
- Феноменальная эффективность малых данных: В работе LIMA было показано, что всего 1 000 тщательно отобранных примеров достаточно для того, чтобы модель стала «шокирующе хорошей» .
- Пример с поэзией: Модель Llama изначально плохо писала стихи. Добавление всего нескольких примеров в стиле «напиши поэму о...» открыло общую способность генерировать стихи в любых стилях, которым ее даже не учили .
Другой важный проект — «Self-alignment with instruction back translation» . Идея заимствована из машинного перевода: если у вас есть качественный текст (например, эссе), модели гораздо проще придумать к нему инструкцию («напиши эссе на тему...»), чем наоборот . Это позволяет генерировать синтетические данные для обучения в неограниченных масштабах .
🧪 Кризис оценки и будущее открытого ИИ 34:06
Зеттлмайер признается, что одной из главных проблем индустрии является отсутствие надежных метрик . «Мы на самом деле не знаем, как оценить модель убедительно», — утверждает он . Статические бенчмарки (вроде MMLU) плохо отражают то, как модель будет вести себя при долгосрочном общении с миллионами пользователей.
Обсуждая роль открытого исходного кода, Люк выделяет несколько причин своей приверженности Open Source:
- Воспроизводимость: Модели за API (как у OpenAI) постоянно меняются «под капотом». Это делает невозможным проведение качественных научных экспериментов, так как результат завтра может отличаться от сегодняшнего .
- Демократизация: Создание экосистемы стартапов вокруг моделей Llama доказывает, что открытый доступ порождает инновации .
- Безопасность через открытость: Хотя риск вреда существует, Зеттлмайер убежден, что открытый аудит и накопление коллективного опыта делают защиту более эффективной .
В конце беседы Люк делает прогноз: в ближайшие пару лет «чисто текстовые» модели отойдут на второй план, уступив место системам, обучающимся на видео (например, на всем массиве YouTube) . Он также ожидает прорыва в области «разреженных вычислений» (sparsity) и Mixture of Experts (MoE), так как бесконечное масштабирование плотных сетей упирается в законы физики и возможности памяти GPU .