Люк Зеттлмайер: «Alignment — это не обучение новому, а раскрытие того, что ИИ уже знает»

The TWIML AI Podcast 941 45 мин 4 мин 10.10.2023
Главное

Масштабирование мультимодального ИИ, феномен «выхода в свет» скрытых способностей моделей и будущее открытой науки стали центральными темами беседы Сэма Чаррингтона с Люком Зеттлмайером. Зеттлмайер, совмещающий пост профессора в Вашингтонском университете с должностью менеджера по исследованиям в Meta, делится инсайдами о том, почему текст больше не является пределом для обучения и как «разговорить» нейросеть с помощью минимального объема данных.

🧠 От инженерии к естественным наукам: новая парадигма ИИ 0:00

Люк Зеттлмайер работает в области искусственного интеллекта более 15 лет, из которых 13 лет он посвятил преподаванию в Школе компьютерных наук и инженерии имени Пола Г. Аллена, а последние 5 лет — исследованиям в Meta . По его мнению, за несколько последних лет сама природа исследований в области ИИ претерпела фундаментальную трансформацию .

Если раньше создание моделей было преимущественно инженерной или алгоритмической дисциплиной, то теперь, по словам Зеттлмайера, оно напоминает изучение сложных систем или естественных наук, таких как метеорология . Мы понимаем математику отдельных «нейронов», но не можем предсказать эмерджентное (внезапно возникающее) поведение системы в целом .

В качестве примера такой непредсказуемости гость приводит мультиязычность. Даже если исследователи пытаются отфильтровать обучающую выборку, оставив только английский язык, классификаторы имеют погрешность около 1% . При объемах в сотни миллиардов токенов этого процента «шума» достаточно, чтобы модель в итоге стала мультиязычной .

🖼️ Мультимодальность как решение проблемы дефицита данных 4:30

Одной из самых обсуждаемых проблем в индустрии является сценарий «конца данных». Зеттлмайер утверждает, что запасы качественного текстового контента в интернете ограничены и могут быть исчерпаны в ближайшее время .

Основные тезисы Зеттлмайера о роли мультимодальности:

Зеттлмайер упоминает модель DALL-E 3 как пример глубокого понимания пространственных связей и композиции . Однако «Святым Граалем» для него является доказательство того, что добавление изображений может улучшить работу модели в чисто текстовых задачах — гипотеза, которую его команда сейчас активно проверяет .

🧩 Токенизация всего: проект Chameleon 11:05

В своих последних работах (включая статьи о масштабировании мультимодальных систем и проект Chameleon) Зеттлмайер и его коллеги отходят от популярного сейчас метода диффузии . Вместо этого они используют подход «токенизации» визуальных данных.

Техническая суть подхода:

  1. Использование VQ-GAN для превращения изображений в последовательности дискретных токенов .
  2. Создание словаря «визуальных слов» (от 1 000 до 20 000 символов), которые для модели выглядят так же, как обычные слова .
  3. Обучение единого трансформера на смеси текстовых и визуальных цепочек .

Такой подход позволяет применять к изображениям все наработанные годами приемы обработки естественного языка (NLP) . Например, это упрощает использование Retrieval Augmented Generation (RAG) для мультимодальных данных. Работа интерна Митчи (Mitchie) из Стэнфорда показала, что модель может значительно лучше генерировать специфические объекты (например, армянские церкви со сложной архитектурой), если ей предоставить визуальный образец в качестве контекста .

🪄 alignment: магия «раскрытия» способностей 20:23

Значительная часть дискуссии посвящена техникам выравнивания (alignment) моделей. Ранее считалось, что fine-tuning — это процесс дообучения новым знаниям. Однако Зеттлмайер и его соавторы в статье LIMA («Less Is More for Alignment») выдвигают другую гипотезу .

Ключевые выводы исследований группы Люка:

Другой важный проект — «Self-alignment with instruction back translation» . Идея заимствована из машинного перевода: если у вас есть качественный текст (например, эссе), модели гораздо проще придумать к нему инструкцию («напиши эссе на тему...»), чем наоборот . Это позволяет генерировать синтетические данные для обучения в неограниченных масштабах .

🧪 Кризис оценки и будущее открытого ИИ 34:06

Зеттлмайер признается, что одной из главных проблем индустрии является отсутствие надежных метрик . «Мы на самом деле не знаем, как оценить модель убедительно», — утверждает он . Статические бенчмарки (вроде MMLU) плохо отражают то, как модель будет вести себя при долгосрочном общении с миллионами пользователей.

Обсуждая роль открытого исходного кода, Люк выделяет несколько причин своей приверженности Open Source:

  1. Воспроизводимость: Модели за API (как у OpenAI) постоянно меняются «под капотом». Это делает невозможным проведение качественных научных экспериментов, так как результат завтра может отличаться от сегодняшнего .
  2. Демократизация: Создание экосистемы стартапов вокруг моделей Llama доказывает, что открытый доступ порождает инновации .
  3. Безопасность через открытость: Хотя риск вреда существует, Зеттлмайер убежден, что открытый аудит и накопление коллективного опыта делают защиту более эффективной .

В конце беседы Люк делает прогноз: в ближайшие пару лет «чисто текстовые» модели отойдут на второй план, уступив место системам, обучающимся на видео (например, на всем массиве YouTube) . Он также ожидает прорыва в области «разреженных вычислений» (sparsity) и Mixture of Experts (MoE), так как бесконечное масштабирование плотных сетей упирается в законы физики и возможности памяти GPU .

💬 Цитаты

«Мы понимаем, как взаимодействуют отдельные нейроны, в математике нет сюрпризов, но мы не понимаем эмерджентное поведение.»

Люк Зеттлмайер 02:42

«Картинка стоит тысячи токенов — я всегда неудачно шучу на эту тему, но это правда.»

Люк Зеттлмайер 19:21

«Большинство того, что делает модель после выравнивания, уже было заложено в нее во время предварительного обучения.»

Люк Зеттлмайер 32:36
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Alignment (Выравнивание)
Процесс настройки модели ИИ, чтобы её поведение и ответы соответствовали ожиданиям и ценностям пользователей.
Grounding (Заземление)
Связывание абстрактных концепций (текста) с реальным физическим или визуальным миром.
Back translation
Метод генерации обучающих данных, при котором модель придумывает вопрос или инструкцию к уже имеющемуся качественному ответу.
Sparsity (Разреженность)
Подход в архитектуре нейросетей, где в каждый момент времени активна лишь часть параметров, что экономит вычислительные ресурсы.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект multimodal AI Meta Llama LIMA tokenization