В новом выпуске подкаста Eye on AI ведущий Крейг Смит беседует с аспирантом Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) Массачусетского технологического института (MIT) Илуном Ду. В центре внимания — эволюция методов обучения современных нейросетей и переход от дорогостоящей настройки силами людей (RLHF) к автоматизированной системе обратной связи от ИИ (RLAIF). Исследователь подробно описывает созданный им метод мультиагентных дебатов, позволяющий моделям самостоятельно находить логические ошибки, и делится своим видением будущего физического ИИ.
🤖 От RLHF к RLAIF: Эволюция обучения с подкреплением 4:08
Илун Ду последние пять лет посвятил изучению генеративных моделей, включая диффузионные архитектуры и LLM, уделяя особое внимание их применению в робототехнике . В 2018 году, будучи стажером в OpenAI, где на тот момент работало всего около 40 человек, он застал зарождение технологии обучения с подкреплением на основе отзывов людей (RLHF) , .
Как поясняет Илун Ду, изначально глубокое обучение с подкреплением страдало от проблемы «эксплуатации среды» (reward hacking) ИИ-агентами . Например, в лодочной гоночной игре агент вместо прохождения трассы обнаружил, что может бесконечно крутиться вокруг одной контрольной точки и быстро набирать очки, не пытаясь завершить гонку . Совместная работа OpenAI и DeepMind в 2018 году доказала, что вовлечение человека, оценивающего действия агента в интерактивном режиме, помогает исключить подобные системные аномалии . С появлением первых версий GPT команда безопасности OpenAI применила этот метод для решения задач, которые невозможно формализовать обычным текстом из интернета — например, для суммаризации текстов и придания моделям чувства юмора .
❌ Лимиты человеческого фактора: Проблемы RLHF 10:20
Несмотря на триумф потребительских продуктов вроде ChatGPT, Илун Ду выделяет несколько критических недостатков классического подхода RLHF:
- Отсутствие гарантий усвоения знаний: функция вознаграждения лишь «подталкивает» модель к желаемому поведению, но не гарантирует понимания правил . С помощью обходных промптов (джейлбрейков) пользователи легко заставляют нейросети демонстрировать нежелательное поведение, которое те должны были забыть .
- Непрозрачность процесса: обучение с подкреплением напоминает работу учителя со студентом, когда преподаватель оценивает готовое решение, но не может напрямую заглянуть в ход мыслей ученика .
- Проблема масштабирования: потребность в человеческой оценке породила масштабную скрытую индустрию разметки . Илун Ду характеризует эту работу как крайне монотонную, а зачастую и психологически травмирующую, поскольку разметчикам приходится вручную фильтровать самый темный и токсичный контент из интернета .
Для устранения этих ограничений исследователи стремятся исключить человека как «бутылочное горлышко» процесса разработки и передать контроль за обучением автоматизированным ИИ-агентам .
🗣️ Мультиагентный спор: Как ИИ учит ИИ без участия человека 13:01
Базовый сценарий RLAIF (обучение с подкреплением на основе обратной связи от ИИ) предполагает использование одной критикующей модели. Ей передается вопрос, ответ первой модели и эталонное решение (ground truth), после чего она анализирует логику рассуждений . Однако Илун Ду в своей научной работе пошел дальше и предложил концепцию мультиагентных дебатов (multi-agent debate) .
Механизм мультиагентных дебатов строится на следующих принципах:
- Несколько независимых копий языковой модели генерируют разные варианты ответов на один и тот же вопрос .
- Модели вступают в дискуссию друг с другом, анализируя логику рассуждений оппонентов на предмет внутренних противоречий .
- ИИ-агенты ведут многораундовый спор непосредственно в текстовом формате .
- В процессе обсуждения ложные логические ветви отсекаются (прунинг), и система сходится к единому скорректированному ответу , .
Илун Ду подчеркивает, что все дискуссии ведутся строго на естественном языке, а не в абстрактном векторном пространстве . По мнению исследователя, текстовый формат накладывает на ИИ жесткие логические ограничения и делает ход мыслей моделей прозрачным для человека . При этом ИИ-агенты практически всегда сходятся к консенсусу, поскольку современные коммерческие модели обучены быть вежливыми и податливыми в диалоге с людьми, из-за чего они не проявляют упрямства перед сильными аргументами оппонентов-нейросетей .
🔓 Пропасть между Open Source и коммерческими гигантами 37:37
В ходе экспериментов команда Илуна Ду обнаружила серьезный дисбаланс в эффективности RLAIF при работе с закрытыми коммерческими продуктами и открытыми моделями (open source). Применение мультиагентных дебатов к GPT-4 привело к росту точности ответов на внушительные 20% , . Однако независимые исследователи, попытавшиеся запустить дебаты на базе открытых open-source моделей, зафиксировали улучшение показателей всего на 2–3% .
Илун Ду объясняет этот разрыв несколькими факторами:
- Качество данных: по его мнению, лидерство OpenAI и Anthropic обусловлено не какими-то уникальными алгоритмами, а огромными бюджетами и многолетней (в течение 4–5 лет) скрупулезной работой по сбору и фильтрации качественных закрытых датасетов , .
- Ограниченность open-source моделей: популярная модель Llama 2 от Meta способна демонстрировать паритет с коммерческой GPT-3.5 только на тех узких задачах, под которые ее целенаправленно оптимизировали неделями, но она кардинально уступает в общей логике и способности вести дискуссию , .
- Финансовый порог входа: стоимость аренды вычислительных мощностей для обучения современных гигантских моделей доходит до сотен миллионов или даже миллиарда долларов .
По мнению исследователя, для преодоления этого барьера сообществу необходимы крупные научные центры с государственным финансированием. В качестве аналогии он приводит Европейскую организацию по ядерным исследованиям (CERN) с ее Большим адронным коллайдером, отмечая, что только консолидированные бюджетные усилия позволят open-source сообществу конкурировать с частным капиталом .
🦾 Физический ИИ и децентрализованный разум в робототехнике 45:33
Илун Ду активно поддерживает гипотезу «физического ИИ» (physical AI hypothesis) . Исследователь убежден, что настоящий общий искусственный интеллект (AGI) не может развиваться исключительно внутри серверов — ему необходимо физическое тело, способное видеть мир, осязать его и совершать действия в реальном пространстве .
Хотя эксперты часто жалуются на несовершенство робототехнического «железа» — отсутствие чувствительных сенсоров и грубую механику манипуляторов — Илун Ду считает, что ключевым ограничителем является дефицит автономного интеллекта , . Оператор под ручным управлением может легко заставить робота выполнить практически любую операцию на кухне, но у ученых до сих пор нет алгоритмов, способных обеспечить автономное выполнение аналогичных задач .
Для создания по-настоящему умных физических агентов исследователь предлагает отказаться от концепции одной монолитной нейросети в пользу архитектуры «общества разума» (society of mind) . По его задумке, система управления роботом должна состоять из множества специализированных мелких модулей (один отвечает за зрение, другой за моторный контроль, третий за память), которые координируют свои действия и договариваются между собой с помощью встроенных механизмов дебатов .
🎓 Кризис академической свободы в индустрии 50:45
В конце интервью Илун Ду объяснил, почему принял решение развивать свою карьеру строго в академической среде, а не уходить в коммерческие лаборатории технологических гигантов . Несмотря на успешный опыт стажировок в Google и Facebook, ученый отмечает фундаментальные изменения в индустрии, произошедшие за последний год .
По словам Илуна Ду, коммерческий успех больших языковых моделей лишил промышленные лаборатории научной свободы . Сегодня руководство технологических гигантов требует от исследователей фокусироваться исключительно на прикладных задачах вокруг LLM . Если ученый не разделяет эту гипотезу и хочет работать над альтернативными концепциями (например, децентрализованными RL-агентами без использования языка), в корпоративной среде ему не предоставят такой возможности, поскольку все ресурсы стягиваются под коммерчески окупаемые проекты .