Тим Рокташель: «Для понимания человеческого интеллекта необходимо изучить креативность»

В новом выпуске подкаста Machine Learning Street Talk ведущий Тим Скарф обсуждает с профессором Университетского колледжа Лондона и руководителем команды Open Ends в Google DeepMind Тимом Рокташелем концепцию открытых систем (open-endedness) в искусственном интеллекте. Исследователи анализируют, почему традиционное обучение на статических датасетах зашло в тупик и как синергия больших языковых моделей с эволюционными алгоритмами способна привести к созданию универсального суперинтеллекта. В центре дискуссии — механизмы самосовершенствования ИИ, субъективность научного поиска и важность ИИ-дебатов для безопасности человечества.

🧩 Лаборатория DARK и новые горизонты Google DeepMind 1:26

Тим Рокташель совмещает академическую деятельность на посту профессора Университетского колледжа Лондона (UCL) с позицией руководителя направления открытых систем (Open Ends) в Google DeepMind. Одним из главных достижений в своей карьере ученый считает создание знаменитой лаборатории UCL DARK lab, которую он основал совместно с Эдвардом Грифенштеттом в 2018 году. Данное подразделение стало кузницей высококлассных кадров для индустрии ИИ, подготовив целую плеяду выдающихся исследователей.

Сегодня Тим Рокташель и Эдвард Грифенштетт продолжают совместную работу уже в составе Google DeepMind. На текущий момент их команда сфокусирована на двух ключевых научно-исследовательских треках:

Создание базовых моделей мира (foundational world models) на основе видеоданных — в рамках этого направления на конференции ICML была представлена модель Genie (Generative Interactive Environments).
Исследование механизмов самосовершенствования больших языковых моделей — флагманским проектом здесь выступает алгоритм Prompt Breeder, реализующий концепцию самореференциального развития систем.

По словам спикера, главная цель этих изысканий — заставить базовые модели ИИ функционировать в качестве автономных агентов, способных находить разнообразные и нетривиальные решения сложных задач.

🔄 Отказ от функций награды: почему ИИ нужна концепция Open-Endedness 3:41

Долгое время Тим Рокташель занимался классическим обучением с подкреплением (Reinforcement Learning, RL). Однако со временем внутри его исследовательской группы назрело понимание фундаментального ограничения популярной парадигмы «награды достаточно» (reward is enough). В искусственных игровых средах вроде шахмат, го или StarCraft у разработчиков всегда есть четкая функция награды или колоссальный массив человеческих демонстраций. Но для большинства комплексных проблем реального мира никакой готовой функции награды просто не существует.

С целью преодоления этого барьера в 2020 году команда Рокташеля выпустила NetHack Learning Environment — обучающую среду на базе культовой процедурно генерируемой игры 1980-х годов. Особенность NetHack заключается в ее текстовом ASCII-интерфейсе и запредельной сложности, где агенту не предоставляется никаких подсказок. Чтобы выжить, ИИ вынужден полагаться на механизмы внутренней мотивации, метод проб и ошибок и автономное исследование динамики среды.

Как утверждает гость, истинный открытый поиск (open-endedness) не оптимизирует конкретную целевую функцию, а генерирует бесконечное разнообразие решений, каждое из которых становится «промежуточным шагом» (stepping stone) для последующих открытий. По мнению Рокташеля, современные ИИ-системы, включая ChatGPT и Gemini, принципиально ограничены: их обучают на фиксированных датасетах в течение нескольких месяцев, после чего процесс завершается. Открытые же системы призваны беспрестанно совершенствоваться и совершать открытия, которые удивят само человечество.

👁️ Формальное определение открытости: взгляд Наблюдателя 6:28

Попытки дать строгое математическое описание открытым системам предпринимались неоднократно. В недавней теоретической работе команда Тима Рокташеля предложила дефиницию, свободную от антропоцентризма и жесткой привязки к биологической эволюции. Согласно их позиции, система является открытой тогда и только тогда, когда последовательность создаваемых ею артефактов является одновременно новыми (novel) и познаваемыми (learnable) для внешнего наблюдателя.

Для объяснения этой концепции ученый приводит две важные аналогии:

Сломанный телевизор с «белым шумом»: каждый новый кадр на экране технически уникален и никогда не повторялся ранее, что гарантирует абсолютную новизну. Однако для любого разумного наблюдателя в этом шуме нет структуры, ее невозможно изучить. Из-за отсутствия познаваемости «белый шум» не является открытой системой.
Монеты еврозоны: наблюдатель может детально изучить дизайн монет всех стран ЕС, выявив закономерности. Но как только он увидит все существующие варианты, фактор новизны исчезнет. Система перестанет генерировать новое знание и выйдет из категории открытых.

Таким образом, открытость всегда субъективна и жестко привязана к вычислительным лимитам самого наблюдателя. В качестве примера спикер приводит алгоритм AlphaGo. На этапе, когда нейросеть обучалась через самонаведение и демонстрировала ходы, недоступные экспертам-людям, она выступала для нас как открытая система. Но когда уровень ее игры ушел в недосягаемый суперчеловеческий диапазон ELO, разница между версиями стала для человеческого восприятия неразличимой, и AlphaGo потеряла статус открытой системы для человеческого наблюдателя.

🎯 Парадокс «интересности» и границы человеческого восприятия 10:39

В классических трудах Кеннета Стенли важную роль играет понятие «интересности» (interestingness), которое крайне трудно формализовать. Тим Рокташель объясняет, что в их математическом аппарате этот параметр не заявляется прямо, а неявно выражается через выбор функции потерь $L$ конкретным наблюдателем. Интересы исследователей субъективны: один человек может бесконечно изучать средневековые монеты, видя в них глубокую структуру, в то время как для другого они покажутся монотонными, а его мозг попросту «отключится», как при просмотре мыльных опер.

Границы познаваемости наглядно иллюстрируются мысленным экспериментом с тремя типами гипотетических наблюдателей, оценивающих поток научных публикаций с портала arXiv:

Лабораторная мышь: для нее каждый препринт обладает физической новизной, но структура текста абсолютно непознаваема, поэтому arXiv для мыши открытой системой не является.
Сверхразвитый инопланетный разум: цивилизация, опережающая Землю на 10 миллионов лет, уже открыла все законы физики, описанные в статьях. Для инопланетянина в публикациях ученых нет никакой новизны, система для него закрыта.
Человек-исследователь: находится в идеальной «зоне златовласки», где публикуемые материалы одновременно понятны и несут в себе новое знание.

В качестве практического примера создания контролируемой открытой среды Рокташель упоминает работу своей команды под названием Human Timescale Adaptation. В рамках исследования агента с подкреплением поместили в гигантское пространство из 25 миллиардов процедурно генерируемых задач для проведения автономного тестирования гипотез. Агент продемонстрировал феноменальную способность к обобщению данных за рамками обучающего распределения, однако ученые зафиксировали, что после трех месяцев непрерывной работы уровень генерации новизны в системе все же начал деградировать. Подобное затухание происходило даже в передовых эволюционных алгоритмах вроде POET Кеннета Стенли.

🥊 Игры разума: креативность, устойчивость и безопасность ИИ 17:21

Тим Скарф задается вопросом: могут ли люди, используя свою гибкую креативность, найти скрытые уязвимости в стратегиях AlphaGo и вернуть себе лидерство? Тим Рокташель соглашается, что теоретически это возможно через организацию изощренных состязательных атак (adversarial attacks). Человеческий разум невероятно пластичен и устойчив к аномалиям, в то время как глубокие нейросети уязвимы к выходу за пределы их репрезентативного пространства. Исследователь из DeepMind Майкл Дэниелс уже доказывал жизнеспособность состязательных атак на ИИ-системы. Тем не менее, Рокташель уверен, что любые найденные человеком бреши будут быстро закрыты путем интеграции этих кейсов обратно в симуляционный цикл обучения ИИ.

Сегодня аналогичные процессы происходят в сфере безопасности текстовых моделей, где пользователи пытаются обойти ограничения с помощью джейлбрейков, ролевых игр или умышленных опечаток. Аспирант Рокташеля Михаил Салман разработал фреймворк Rainbow Teaming, который задействует принципы открытых эволюционных систем для автоматического поиска уязвимостей в ИИ.

Механика Rainbow Teaming базируется на следующих этапах:

Большая языковая модель генерирует состязательные промпты против самой себя в режиме самоисполняющегося цикла.
Алгоритм мутирует ранее успешные текстовые атаки, используя их как промежуточные шаги для создания более изощренных комбинаций.
Специальные фильтры, вдохновленные методами поддержания качественного разнообразия (quality diversity), следят за тем, чтобы ИИ генерировал атаки в совершенно полярных стилях.

В результате нейросеть за считанные часы находит тысячи способов взлома собственных фильтров, а накопленный массив синтетических данных используется для радикального повышения безопасности и устойчивости модели.

🧭 Философия промежуточных шагов: как организовать научный поиск 26:14

Опираясь на книгу Кеннета Стенли «Почему величие нельзя спланировать», Тим Рокташель перенес парадоксальные выводы эволюционной теории на управление своей научной командой. Согласно Стенли, попытка жестко следовать критериям успеха работает как «ложный компас». Если вы хотите стать миллиардером, прямая стратегия получения стабильной зарплаты может оказаться худшим выбором.

Исходя из этого, в UCL DARK lab и Google DeepMind сознательно отказались от планирования работы ради формального выполнения дедлайнов научных конференций. Команда формулирует долгосрочный «Полярную звезду» (North Star) на 1–2 года вперед, разбивает путь на гибкие вехи, но оставляет за собой право полностью менять траекторию под влиянием новых эмпирических данных. По утверждению Рокташеля, именно этот подход позволил их проектам Genie и AI Debate завоевать высшие награды Best Paper Award на престижной конференции ICML, хотя авторы изначально не преследовали цель выиграть призы.

В повседневной аналитической работе профессор использует метод ведения заметок Zettelkasten, описанный в книге Зёнке Аренса «Как делать умные заметки». Вместо жестких иерархических интеллект-карт создается гибкий децентрализованный граф мыслей. Новые идеи и тезисы из прочитанных статей связываются перекрестными ссылками со старыми записями. Такая сетевая структура позволяет обнаруживать неожиданные концептуальные пересечения, превращая хаотичные заметки в жизнеспособные промежуточные шаги на пути к научным открытиям.

🧠 Языковые модели как двигатель эволюции ИИ 32:48

Долгое время концепция открытых систем оставалась нишевой дисциплиной в ИИ-сообществе. Ситуация кардинально изменилась за последние два года благодаря триумфу больших языковых моделей (LLM). Исследователи осознали, что простое экстенсивное масштабирование вычислений на неизменных текстах из интернета уперлось в технологический потолок и не способно породить полноценных автономных агентов. Ограниченность статического обучения наглядно доказывает необходимость внедрения петель самосовершенствования, ярким примером чего выступает проект Voyager от Nvidia, управляющий агентом в Minecraft через вызовы LLM.

Главной проблемой открытого поиска всегда оставалась навигация в астрономических по объему пространствах возможных вариантов. В биологической эволюции этот вопрос решался за счет того, что сама жизнь выступает как «цепная реакция размножения вычислений во Вселенной»: появление новых организмов и экологических ниш автоматически масштабирует доступный биокомпьютинг. В кремниевом же ИИ инженеры жестко ограничены физическим числом графических и тензорных процессоров (GPU/TPU).

Прорыв произошел с публикацией работ OMNI и EPI_O из лаборатории Джеффа Клуна. Ученые доказали, что поскольку LLM обучались на гигантских корпусах человеческих текстов, они переняли наше имплицитное понимание «интересности» — ведь люди пишут преимущественно о том, что считают важным. В результате современная языковая модель способна выступать одновременно в двух эволюционных ролях:

В качестве эффективного оператора мутации, генерирующего осмысленные вариации кода или текстовых инструкций.
В роли естественного селектора (судьи), отбирающего наиболее многообещающие и структурированные артефакты, отсекая вычислительный мусор.

🗣️ Протокол дебатов и суперинтеллект: как контролировать ASI 38:07

Следующим фронтом развития ИИ Тим Рокташель называет переход от систем, обученных на человеческих демонстрациях (как ранние AlphaGo и AlphaStar), к полностью автономному поиску принципиально нового знания. Этому способствует взрывной рост контекстных окон современных нейросетей, способных теперь вмещать миллионы токенов — целые библиотеки книг и массивы научных статей.

Однако создание искусственного суперинтеллекта (Artificial Superhuman Intelligence, ASI) порождает острую проблему контроля и интерпретируемости результатов: как человеку доверять выводам ИИ, если логика его рассуждений выходит за рамки человеческого понимания? Решение этой дилеммы предложено в докладе Рокташеля об ИИ-дебатах (AI Debate).

Исследователи выяснили, что стандартный интерфейс чата с моделью ненадежен. Гораздо более эффективным протоколом является клонирование сверхмощной ИИ-системы и запуск жестких структурированных дебатов между копиями, отстаивающими противоположные точки зрения на проблему. Эмпирические тесты показывают, что по мере роста когнитивных способностей моделей этот процесс становится все более эффективным инструментом поиска объективной истины. Как отмечает ученый, в состязательном пространстве агентам математически легче аргументировать истинные факты, нежели конструировать непротиворечивую ложь.

Кроме того, Тим Рокташель разделяет позицию физика Дэвида Дойча, изложенную в книге «Начало бесконечности»: двигателем прогресса является поиск хороших, «устойчивых к изменениям» (hard to vary) объяснений мира. Если суперинтеллект будет целенаправленно оптимизироваться на генерацию фундаментальных причинно-следственных объяснений, они останутся доступными для человеческого понимания и верификации на протяжении очень долгого времени.

🪞 Проблема «модельного коллапса» и агентность будущего 43:05

В научной периодике, включая недавние публикации в журнале Nature, активно обсуждается угроза «модельного коллапса», согласно которой нейросети, обучаясь на контенте, созданном другими ИИ в интернете, стремительно деградируют и начинают генерировать бессмысленный мусор. Тим Рокташель согласен с математической справедливостью этой угрозы, но подчеркивает, что данный сценарий применим лишь к пассивному поглощению статических веб-данных.

Настоящие открытые архитектуры будущего должны функционировать иначе. Вместо пассивного скачивания интернет-свалок ИИ перейдет в активную агентную фазу развития. Настоящая агентность, по мнению руководителя из DeepMind, требует соблюдения трех базовых условий:

Полноценное интерактивное взаимодействие с динамической средой — будь то симуляторы, робототехнические платформы или открытый веб-интерфейс.
Способность системы к целеполаганию — автономия в декомпозиции глобальной задачи на цепочки подцелей без подсказок инженера.
Опора на эмпирические свидетельства — непрерывное извлечение опыта из собственных практических действий и оперативная корректировка внутренних гипотез о мире.

🧬 От Picbreeder к Prompt Breeder: самореференциальное развитие 46:31

Разработанный командой Рокташеля алгоритм Prompt Breeder идейно восходит к знаменитому веб-проекту Picbreeder, созданному командой Кеннета Стенли в середине 2000-х годов. На сайте Picbreeder пользователям демонстрировались абстрактные фрактальные изображения, сгенерированные нейросетью. Человек кликал на наиболее привлекательную мутацию, запуская новый цикл скрещивания и отбора. В результате такой селекции обычные люди смогли «вывести» детализированные изображения бабочек, автомобилей и черепов. Самое примечательное, что промежуточные изображения на пути эволюции визуального кода ни капли не походили на финальный результат, подтверждая тезис о невозможности прямого планирования сложных артефактов.

Prompt Breeder переносит эту логику в пространство текстовых подсказок для языковых моделей. Известно, что добавление в промпт триггеров вроде «думай шаг за шагом» (let's think step by step) радикально улучшает логические способности LLM. В 1990-х годах Юрген Шмидхубер постулировал: если программа нейросети — это ее веса, то для самосовершенствования ей нужна самореференциальная матрица весов, меняющая саму себя. Рокташель адаптировал эту формулу к современности: поскольку LLM управляются естественным языком, их программированием фактически является промпт. Следовательно, для самосовершенствования ИИ должен сам эволюционно изменять свои промпты.

Фреймворк Prompt Breeder работает по следующему циклу:

В систему загружается стартовая популяция базовых промптов для решения тестов на логику и математику.
ИИ-мутатор генерирует текстовые вариации этих подсказок (например, перефразирует требование поэтапного разбора задачи в команду декомпозиции скрытых условий).
Полученные промпты тестируются на цепочке бенчмарков, вычисляя численный показатель их эффективности (fitness).
Прошедшие отбор наиболее эффективные стратегии рассуждений скрещиваются и дают начало новому поколению промптов.

Уникальность Prompt Breeder заключается в его полной самореференциальности: алгоритм использует языковые инструкции не только для изменения промптов целевой задачи, но и для одновременного улучшения самих промптов-мутаторов, оптимизируя сам процесс эволюции. В долгосрочной перспективе Тим Рокташель делает ставку на синергию подобных самореференциальных циклов с возможностями сверхточных генеративных сред вроде Genie, что откроет принципиально новые горизонты для индустрии развлечений и адаптивной робототехники.