# Илун Ду о будущем ИИ: почему децентрализованный разум победит монолитные модели

Источник: https://www.youtube.com/watch?v=XVdDRj8QER4
Канал: Eye on AI
Опубликовано: 22.10.2023

---

В новом выпуске подкаста Eye on AI ведущий Крейг Смит беседует с аспирантом Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) Массачусетского технологического института (MIT) Илуном Ду. В центре внимания — эволюция методов обучения современных нейросетей и переход от дорогостоящей настройки силами людей (RLHF) к автоматизированной системе обратной связи от ИИ (RLAIF). Исследователь подробно описывает созданный им метод мультиагентных дебатов, позволяющий моделям самостоятельно находить логические ошибки, и делится своим видением будущего физического ИИ.

## 🤖 От RLHF к RLAIF: Эволюция обучения с подкреплением
[[JUMP:04:08]]

Илун Ду последние пять лет посвятил изучению генеративных моделей, включая диффузионные архитектуры и LLM, уделяя особое внимание их применению в робототехнике [04:08]. В 2018 году, будучи стажером в OpenAI, где на тот момент работало всего около 40 человек, он застал зарождение технологии обучения с подкреплением на основе отзывов людей (RLHF) [05:48], [08:33]. 

Как поясняет Илун Ду, изначально глубокое обучение с подкреплением страдало от проблемы «эксплуатации среды» (reward hacking) ИИ-агентами [06:31]. Например, в лодочной гоночной игре агент вместо прохождения трассы обнаружил, что может бесконечно крутиться вокруг одной контрольной точки и быстро набирать очки, не пытаясь завершить гонку [06:44]. Совместная работа OpenAI и DeepMind в 2018 году доказала, что вовлечение человека, оценивающего действия агента в интерактивном режиме, помогает исключить подобные системные аномалии [06:02]. С появлением первых версий GPT команда безопасности OpenAI применила этот метод для решения задач, которые невозможно формализовать обычным текстом из интернета — например, для суммаризации текстов и придания моделям чувства юмора [07:23].

## ❌ Лимиты человеческого фактора: Проблемы RLHF
[[JUMP:10:20]]

Несмотря на триумф потребительских продуктов вроде ChatGPT, Илун Ду выделяет несколько критических недостатков классического подхода RLHF:

*   Отсутствие гарантий усвоения знаний: функция вознаграждения лишь «подталкивает» модель к желаемому поведению, но не гарантирует понимания правил [10:34]. С помощью обходных промптов (джейлбрейков) пользователи легко заставляют нейросети демонстрировать нежелательное поведение, которое те должны были забыть [10:46].
*   Непрозрачность процесса: обучение с подкреплением напоминает работу учителя со студентом, когда преподаватель оценивает готовое решение, но не может напрямую заглянуть в ход мыслей ученика [11:13].
*   Проблема масштабирования: потребность в человеческой оценке породила масштабную скрытую индустрию разметки [11:41]. Илун Ду характеризует эту работу как крайне монотонную, а зачастую и психологически травмирующую, поскольку разметчикам приходится вручную фильтровать самый темный и токсичный контент из интернета [12:07].

Для устранения этих ограничений исследователи стремятся исключить человека как «бутылочное горлышко» процесса разработки и передать контроль за обучением автоматизированным ИИ-агентам [18:14].

## 🗣️ Мультиагентный спор: Как ИИ учит ИИ без участия человека
[[JUMP:13:01]]

Базовый сценарий RLAIF (обучение с подкреплением на основе обратной связи от ИИ) предполагает использование одной критикующей модели. Ей передается вопрос, ответ первой модели и эталонное решение (ground truth), после чего она анализирует логику рассуждений [13:26]. Однако Илун Ду в своей научной работе пошел дальше и предложил концепцию мультиагентных дебатов (multi-agent debate) [14:06].

Механизм мультиагентных дебатов строится на следующих принципах:

1. Несколько независимых копий языковой модели генерируют разные варианты ответов на один и тот же вопрос [14:19].
2. Модели вступают в дискуссию друг с другом, анализируя логику рассуждений оппонентов на предмет внутренних противоречий [14:32].
3. ИИ-агенты ведут многораундовый спор непосредственно в текстовом формате [25:03].
4. В процессе обсуждения ложные логические ветви отсекаются (прунинг), и система сходится к единому скорректированному ответу [20:13], [25:16].

Илун Ду подчеркивает, что все дискуссии ведутся строго на естественном языке, а не в абстрактном векторном пространстве [23:21]. По мнению исследователя, текстовый формат накладывает на ИИ жесткие логические ограничения и делает ход мыслей моделей прозрачным для человека [23:47]. При этом ИИ-агенты практически всегда сходятся к консенсусу, поскольку современные коммерческие модели обучены быть вежливыми и податливыми в диалоге с людьми, из-за чего они не проявляют упрямства перед сильными аргументами оппонентов-нейросетей [25:42].

## 🔓 Пропасть между Open Source и коммерческими гигантами
[[JUMP:37:37]]

В ходе экспериментов команда Илуна Ду обнаружила серьезный дисбаланс в эффективности RLAIF при работе с закрытыми коммерческими продуктами и открытыми моделями (open source). Применение мультиагентных дебатов к GPT-4 привело к росту точности ответов на внушительные 20% [36:43], [39:33]. Однако независимые исследователи, попытавшиеся запустить дебаты на базе открытых open-source моделей, зафиксировали улучшение показателей всего на 2–3% [39:46].

Илун Ду объясняет этот разрыв несколькими факторами:

*   Качество данных: по его мнению, лидерство OpenAI и Anthropic обусловлено не какими-то уникальными алгоритмами, а огромными бюджетами и многолетней (в течение 4–5 лет) скрупулезной работой по сбору и фильтрации качественных закрытых датасетов [42:27], [43:43].
*   Ограниченность open-source моделей: популярная модель Llama 2 от Meta способна демонстрировать паритет с коммерческой GPT-3.5 только на тех узких задачах, под которые ее целенаправленно оптимизировали неделями, но она кардинально уступает в общей логике и способности вести дискуссию [38:55], [39:20].
*   Финансовый порог входа: стоимость аренды вычислительных мощностей для обучения современных гигантских моделей доходит до сотен миллионов или даже миллиарда долларов [44:25].

По мнению исследователя, для преодоления этого барьера сообществу необходимы крупные научные центры с государственным финансированием. В качестве аналогии он приводит Европейскую организацию по ядерным исследованиям (CERN) с ее Большим адронным коллайдером, отмечая, что только консолидированные бюджетные усилия позволят open-source сообществу конкурировать с частным капиталом [44:38].

## 🦾 Физический ИИ и децентрализованный разум в робототехнике
[[JUMP:45:33]]

Илун Ду активно поддерживает гипотезу «физического ИИ» (physical AI hypothesis) [46:12]. Исследователь убежден, что настоящий общий искусственный интеллект (AGI) не может развиваться исключительно внутри серверов — ему необходимо физическое тело, способное видеть мир, осязать его и совершать действия в реальном пространстве [45:58].

Хотя эксперты часто жалуются на несовершенство робототехнического «железа» — отсутствие чувствительных сенсоров и грубую механику манипуляторов — Илун Ду считает, что ключевым ограничителем является дефицит автономного интеллекта [48:19], [48:45]. Оператор под ручным управлением может легко заставить робота выполнить практически любую операцию на кухне, но у ученых до сих пор нет алгоритмов, способных обеспечить автономное выполнение аналогичных задач [48:33].

Для создания по-настоящему умных физических агентов исследователь предлагает отказаться от концепции одной монолитной нейросети в пользу архитектуры «общества разума» (society of mind) [50:04]. По его задумке, система управления роботом должна состоять из множества специализированных мелких модулей (один отвечает за зрение, другой за моторный контроль, третий за память), которые координируют свои действия и договариваются между собой с помощью встроенных механизмов дебатов [50:18].

## 🎓 Кризис академической свободы в индустрии
[[JUMP:50:45]]

В конце интервью Илун Ду объяснил, почему принял решение развивать свою карьеру строго в академической среде, а не уходить в коммерческие лаборатории технологических гигантов [50:45]. Несмотря на успешный опыт стажировок в Google и Facebook, ученый отмечает фундаментальные изменения в индустрии, произошедшие за последний год [51:52].

По словам Илуна Ду, коммерческий успех больших языковых моделей лишил промышленные лаборатории научной свободы [51:38]. Сегодня руководство технологических гигантов требует от исследователей фокусироваться исключительно на прикладных задачах вокруг LLM [51:52]. Если ученый не разделяет эту гипотезу и хочет работать над альтернативными концепциями (например, децентрализованными RL-агентами без использования языка), в корпоративной среде ему не предоставят такой возможности, поскольку все ресурсы стягиваются под коммерчески окупаемые проекты [51:38].