Ловушка целей: почему погоня за результатом убивает прогресс

Machine Learning Street Talk 152 тыс. 2 ч 46 мин 22 мин 20.01.2021
Главное

Следование жесткой цели — лучший способ её никогда не достичь. В мире, одержимом метриками и KPI, подлинные прорывы случаются не благодаря попыткам оптимизировать путь из точки А в точку Б, а через хаотичный, «бесцельный» поиск новизны, который превращает ошибки и случайные шоколадные пятна на одежде в великие изобретения.

🧭 Иллюзия прямого пути: почему амбициозные цели ведут в тупик 13:39

Ранее в разговоре ведущий и Кеннет Стэнли (Kenneth Stanley) уже касались тирании целей в культуре и науке, а также концепции промежуточных этапов поиска, однако истинный масштаб проблемы раскрывается через фундаментальное свойство сложных систем — феномен обмана (deception) в целевой оптимизации. Когда система пытается двигаться строго по градиенту улучшения заданной метрики, этот прямолинейный подход парадоксальным образом заводит её в тупик или локальный оптимум, фактически отдаляя от реального решения амбициозной задачи.

Парадокс миллиардера и ловушка ложной корреляции 13:39

Представьте себе первокурсника, который ставит перед собой амбициозную задачу: стать миллиардером к 30 годам. Если он начнет оценивать каждое свое текущее решение по метрике максимизации зарплаты, это почти наверняка приведет его к фиаско. Градиент, которому ему действительно нужно следовать для достижения этой сверхцели, скорее всего, ортогонален его текущему доходу. Удвоение скромной зарплаты клерка никак не приближает его к созданию масштабного технологического прорыва.

С этой парадоксальной ловушкой человечество сталкивается постоянно. Она лежит в основе целевых функций машинного обучения, но также определяет глобальные ошибки в поиске искусственного общего интеллекта (AGI). Интеллект — настолько далекая цель, что траектория к ней абсолютно неочевидна. Попытка оптимизировать систему под сиюминутные суррогатные показатели лишь ослепляет исследователей.

Китайский капкан и кобры: социальные метафоры децепции 14:32

Прекрасной метафорой этого феномена служит китайский палец-ловушка (китайский капкан) — бамбуковый цилиндр, в который жертва вставляет указательные пальцы. Естественная интуиция заставляет человека потянуть пальцы в стороны, чтобы освободиться, но именно это движение сужает цилиндр и затягивает ловушку еще сильнее. Чтобы выбраться, необходимо совершить контринтуитивное действие — толкнуть пальцы навстречу друг другу, внутрь капкана.

В социальных науках этот обман описывается законом Кэмпбелла: чем чаще количественный индикатор используется для принятия решений, тем сильнее он подвержен искажению и тем сильнее он коррумпирует процессы, которые призван отражать. Яркие примеры децепции можно найти повсюду:

Ошибочность целеполагания кроется в ложном допущении, что траектория развития должна быть монотонной. Культура требует, чтобы прибыль, образовательные или научные достижения росли каждый год, но реальный прогресс часто требует временного ухудшения показателей ради качественного скачка в будущем.

Когда компас врет: обман в машинном обучении и эволюции 18:16

В контексте поиска и ИИ децепция означает, что алгоритм следует по пути, где метрика эффективности растет, но само направление движения является ложным. Это неизбежно приводит к стагнации в локальных оптимумах. Проблема в том, что промежуточные «ступеньки» (stepping stones) на пути к великим открытиям внешне вообще не похожи на финальный результат.

История науки полна таких примеров: вакуумные лампы создавались не для компьютеров, но привели к их появлению; микроволновые печи родились случайно, когда в 1946 году Перси Спенсер заметил, что магнетрон радиолокационной установки расплавил шоколадный батончик в его кармане; а двигатель внутреннего сгорания проложил дорогу к самолетам. Сами цели блокируют открытие, ослепляя нас перед лицом неочевидных возможностей.

Если бы биологическая эволюция работала как алгоритм с жесткой целевой оптимизацией, человечество никогда бы не появилось. Представьте, что миллиарды лет назад, начав с одноклеточного организма, эволюция поставила бы цель «создать человека» и начала бы проводить IQ-тесты. Одноклеточная колония мгновенно погибла бы под давлением такого критерия. Нашим предком был плоский червь, не отличавшийся умом, но его главным эволюционным достижением стала двусторонняя симметрия — важнейшая ступенька, вообще не напоминающая конечный человеческий мозг [21:36–21:49].

Математика лабиринта: почему децепцию нельзя вылечить простым поиском 22:15

Современные методы машинного обучения фатально страдают от этого «ложного компаса». Обычный градиентный спуск берет вектор локального улучшения и движется туда. Стоит отметить, что ранее в беседе упоминались открытые эволюционные процессы, алгоритм NEAT и генерация сред (темы глав 2 и 3), которые пытаются обойти эти ограничения, равно как и экспертная интуиция (тема главы 5). В рамках классического reinforcement learning проблему пытаются решить через баланс исследования и эксплуатации (exploration vs exploitation), однако Кеннет Стэнли (Kenneth Stanley) считает такой случайный поиск неэффективной тратой времени, так как он не направляется градиентом интересности. Похожий сбой происходит при жадном поиске (greedy search) в больших языковых моделях вроде GPT-3, где выбор токена с наивысшей сиюминутной вероятностью без долгосрочного видения сквозь «туман» может зациклить модель или увести её в абсурд [22:54–23:07].

Рассмотрим классический пример децепции:

Истинное пространство поиска — это не сам лабиринт, а лежащая под ним сложная топология нейронных сетей. И пока наука пытается формализовать любопытство или превратить его в очередную суррогатную метрику, системы остаются заложниками децепции. Любопытство ребенка, переключающегося с бревна на дверную ручку, ведомо не жесткой целевой функцией, а тонким, сугубо индивидуальным восприятием интересности, которое нам еще только предстоит понять [25:00–25:13].

🚀 Открытая эволюция и парадигма бесконечного усложнения 26:47

В основе современной компьютерной науки долгое время лежала идея целевой оптимизации — стремление к достижению конкретной метрики или решению четко определенной задачи. Однако Кеннет Стэнли предлагает пересмотреть этот подход, обратив внимание на процессы, лишенные финальной цели, но демонстрирующие поразительную способность к бесконечному наращиванию сложности. Природная эволюция и история человеческих изобретений являются ярчайшими примерами таких открытых (open-ended) процессов.

В отличие от стандартных алгоритмов, которые стремятся к конвергенции (сходимости к оптимуму или минимизации функции потерь), открытые системы опираются на дивергенцию. Если классические методы «застревают» в локальных минимумах, как только задача считается решенной, открытые процессы продолжают создавать новые структуры и возможности. В такой системе нет одного «правильного» направления; скорее, это непрекращающаяся череда сюрпризов, где каждый достигнутый этап становится лишь фундаментом для следующего, более сложного уровня.

Этот подход требует от исследователей признания субъективности: мы должны научиться определять «интересность» как критерий развития, поскольку объектная метрика здесь не работает. В природе это проявляется через взаимозависимость: организмы сами создают «проблемы» и «возможности» друг для друга. Появление деревьев дало возможность эволюционировать жирафам, которые начали решать задачу доступа к высоко расположенным листьям. Этот цикл самогенерации задач и решений позволяет процессу творчества длиться миллиарды лет, не теряя потенциала к новизне.

🛠 Алгоритм POET: прорыв в генерации сред 34:30

Важнейшим инструментом в изучении открытых процессов стал алгоритм POET (Paired Open-Ended Trailblazer), разработанный для одновременного изобретения новых задач и генерации агентов, способных их решать. Суть POET заключается в уходе от фиксированной тренировочной среды к динамической системе, где среда и агент развиваются в тандеме.

Ранее в разговоре Кеннет Стэнли затрагивал тему тирании целей в науке, объясняя, почему жесткое следование метрикам часто мешает прогрессу. Алгоритм POET демонстрирует практическую реализацию этого принципа: вместо того чтобы напрямую пытаться решить сложную задачу, агент проходит через цепочку «ступенек» (обучающих сред), которые он сам генерирует или адаптирует.

Для достижения уровня человеческого интеллекта, который глубоко связан с нашей творческой способностью, исследователям, вероятно, придется внедрять механизмы, подобные POET. Без процесса, который генерирует собственный интеллект через бесконечное разнообразие задач, мы рискуем остаться в рамках ограниченных инженерных решений, неспособных к спонтанному прорыву.

🧪 Кризис воображения в машинном обучении 50:35

Современные исследования в области искусственного интеллекта переживают период стагнации, вызванный одержимостью метриками SOTA (State-of-the-Art). Кеннет Стэнли указывает на то, что академическая и индустриальная среда превратила талантливых исследователей в «безрисковых инженеров». Вместо поиска принципиально новых путей, научное сообщество сосредоточилось на инкрементальных улучшениях: увеличении вычислительных мощностей и параллелизации задач между огромным количеством аспирантов, чья единственная цель — выжать еще пару процентов точности.

Такой подход напоминает средневековую практику, где престиж и карьерный рост привязаны к жестким KPI, а не к реальным научным прорывам. Аспирантов сегодня сравнивают с инвестиционными аналитиками, чья работа заключается в поиске «опциональности» — публикации статей в статусных лабораториях, подтверждающих их причастность к мейнстриму.

Символом этой эпохи стали трансформеры. Иронично, но бесконечное тиражирование архитектур — «трансформеры для белков, для молекул, для графов» — превратило современный ML в своего рода «девопс-индустрию». Исследователи тратят всё время на настройку окружения (Bash-скрипты, ожидание новых моделей с Hugging Face), превращая научный поиск в рутину, где интерпретируемость весов или эффективность выборки данных приносятся в жертву погоне за престижем. Как отмечается, самые интересные идеи сегодня часто приходят от «чудаков-аутсайдеров» вне академической системы, так как сама структура peer-review и грантового финансирования блокирует риск, необходимый для инноваций.

🧬 Уроки истории: Каталин Карико и сила интуиции 54:30

История разработки mRNA-вакцин служит наглядным примером того, как институциональное «групповое мышление» может подавить жизненно важное открытие. Каталин Карико, биохимик из Пенсильванского университета, десятилетиями работала над фундаментальными принципами mRNA, сталкиваясь с систематическими отказами в финансировании и даже понижением в должности.

Проблема заключалась в том, что её исследования не вписывались в краткосрочные академические цели. Боссы Карико, ориентированные на привычные показатели продуктивности, не видели ценности в её «тупиковом» поиске. Однако именно её личная настойчивость и вера в интуицию, вопреки внешнему давлению, позволили совершить прорыв, который спустя годы стал критически важным для глобальной медицины. Этот кейс — прямое опровержение веры в то, что институты (университеты или корпорации) способны эффективно «управлять» инновациями через директивные цели.

🖼️ Pick Breeder: Эволюция через интерес 56:14

Проект Pick Breeder стал ключевым доказательством того, что сложные структуры могут возникать без заранее заданного «целевого образа». Платформа позволяла пользователям эволюционировать изображения: люди выбирали понравившиеся варианты, которые затем подвергались мутациям и давали потомство.

Ключевая инновация заключалась в возможности ветвления: любой пользователь мог взять чужое изображение и продолжить эволюцию от этой точки. Это создало гигантское дерево «филогенеза» изображений, где случайные пользователи, стоя на плечах предшественников, обнаруживали невероятные объекты — черепа, бабочек, автомобили. Примечательно, что для нахождения столь редких результатов требовались десятки, а не миллионы итераций.

Сила системы кроется в субъективности человеческого интереса. Пользователи не пытались «нарисовать череп» — они просто следовали за паттернами, которые казались им любопытными в моменте. Этот процесс позволяет находить «stepping stones» (промежуточные ступени), которые совершенно неочевидны с точки зрения жесткой целевой оптимизации.

🧠 Алгоритм NEAT: Инновации в геноме 1:05:33

В основе Pick Breeder лежал алгоритм NEAT (NeuroEvolution of Augmenting Topologies), разработанный Кеннетом Стэнли для эволюции самих топологий нейронных сетей, а не только их весов. Основная сложность при эволюции нейросетей — это проблема «конкурирующих соглашений»: две сети могут иметь идентичную функциональность, но разную структуру, что делает их скрещивание деструктивным.

NEAT решает это с помощью исторической маркировки генома:

Это позволяет системе эволюционировать сложные архитектуры с нуля. NEAT остается мощным альтернативным подходом к обучению агентов, способным решать задачи — от генерации визуального искусства до управления игровыми агентами — без использования стандартного обучения с подкреплением.

🚫 Тирания целей: когда метрики подавляют инновации 1:16:36

Кеннет Стэнли (Kenneth Stanley) утверждает, что современная культура, наука и даже алгоритмы находятся в плену «тирании целей». По мнению исследователя, одержимость метриками и жестким планированием, пронизывающая наши институты — от системы образования до грантовой политики — глубоко патологична. Вместо того чтобы способствовать прогрессу, эта монотонная приверженность целям создает «конвергентное мышление» и заставляет исследователей концентрироваться на предсказуемых результатах, которые лишь имитируют развитие.

Стэнли проводит параллель с тем, как работают научные гранты и академическая среда: экспертные комитеты и рецензенты требуют от ученых четко сформулировать конечный результат и показать метрики его достижения еще до начала работы. Это превращает научный процесс в наивную задачу локальной оптимизации, где любой отход от «правильного» пути наказывается отсутствием финансирования. Как отмечает ученый, это не просто научная проблема, а социальная болезнь, лишающая людей возможности реализовать свой потенциал, так как gatekeepers (привратники) системы не вознаграждают за настоящий риск или случайные открытия.

Стэнли признает, что статус-кво сопротивляется переменам, так как идея «измерять прогресс» кажется интуитивно понятной и эффективной 99% людей. Однако он подчеркивает, что эта уверенность — иллюзия. Мы ведем себя так, будто обладаем знаниями для управления сложнейшими системами, но на деле лишь загоняем себя в тупики, которые он называет «обманом» (deception), где кажется, что движение идет в правильном направлении, но в итоге мы упираемся в кирпичную стену.

Ранее в разговоре участники касались темы феномена обмана в целевой оптимизации (глава 1), однако Стэнли развивает эту мысль, настаивая, что ситуация достигла абсурда, когда мы пытаемся решать самые комплексные проблемы человечества, применяя к ним примитивные методы линейной оптимизации.

👣 Ступеньки к великому: поиск без конечного пункта 1:27:13

Центральным аргументом в защиту подхода Кеннета Стэнли является концепция промежуточных этапов или «ступенек» (stepping stones). Истинные прорывы в истории человечества редко планировались заранее в их финальном виде; они всегда состояли из этапов, которые внешне могли совершенно не походить на итоговое достижение.

Стэнли приводит в пример исторические изобретения, где промежуточные шаги были лишь необходимыми ступеньками, а не целью:

Проблема планирования заключается в том, что оно ослепляет нас: когда мы фиксируемся на конкретной цели, мы игнорируем «ступеньки», которые могли бы привести нас к более значимым открытиям. Стэнли предлагает рассматривать творчество как задачу поиска в пространстве возможностей. При таком подходе конечная цель не важна — важно максимизировать вероятность обнаружения новых «ступенек», которые в будущем сделают возможными новые, еще более интересные достижения.

В этой модели, если мы накопим достаточное количество разнообразных «ступенек», мы кратно расширим горизонт того, чего может достичь общество. Это радикальный отказ от идеи «планирования великого». Стэнли считает, что если человек находится всего в одной «ступеньке» от решения, использование целей оправдано, но когда речь идет о настоящих инновациях и «blue sky»-исследованиях, необходимо отбросить попытки знать конечный результат заранее.

🧭 Доверие к интуиции и книга как оружие: почему наука стагнирует под властью комитетов 1:40:46

🔬 Экспертная интуиция против диктатуры метрик 1:45:58

Современная академическая и корпоративная система страдает от глубокого внутреннего противоречия. Общество тратит колоссальные ресурсы на подготовку специалистов — путь до получения степени PhD занимает около 30 лет и требует огромных инвестиций. Однако, когда эти люди наконец достигают пика своей квалификации, система запрещает им доверять собственной научной интуиции. Вместо этого от ученых требуют подтверждения каждого шага с помощью тестов на статистическую значимость и строгих количественных метрик.

Как отмечает Кеннет Стэнли (Kenneth Stanley), для того чтобы просто посмотреть на график и заявить, что алгоритм X работает эффективнее алгоритма Y, ученая степень не нужна. Истинная ценность многолетнего образования заключается именно в формировании тонкого чутья — способности видеть перспективные направления поиска там, где метрики еще ничего не показывают. Отказываясь доверять интуиции экспертов, институты фактически обесценивают собственные долгосрочные инвестиции. В индустрии это приводит к «трагедии конвергентного мышления», когда команды не способны даже концептуализировать прорывные идеи из-за жестких рамок годового планирования и требований немедленной финансовой отдачи.

🎨 Субъективность как легитимный научный инструмент 1:47:41

Главный маркер, которым руководствуется интуиция исследователя — это понятие «интересности». Однако категория интересного принципиально субъективна, что заставляет традиционное научное сообщество в страхе избегать этого термина. Ученые стремятся спрятаться за безопасные гистограммы и расчеты значимости, боясь обвинений в предвзятости. Кеннет Стэнли убежден: науке жизненно необходимо легитимизировать субъективный выбор экспертов, поскольку все величайшие открытия человечества в своей основе опирались именно на субъективное чутье, которое впоследствии лишь маскировалось объективными отчетами.

Способность распознавать «сигналы интересности» — это уникальное человеческое качество, в котором люди тотально превосходят любые вычислительные системы. Наш «нюх на интересное» обеспечил развитие цивилизации и тысячи лет инноваций. Обсуждение того, почему та или иная идея заслуживает внимания, должно стать легитимной частью научной дискуссии между равными экспертами — будь то ученые, шеф-повара или атлеты. При этом важно разделять слепую дивергенцию (хаотичное создание новизны ради новизны) и движение по градиенту интересности. Субъективное суждение эксперта — это не случайный каприз, а высокоточный инструмент навигации.

👥 Разрушительный эффект комитетов и тирания консенсуса 1:48:44

Когда распределение грантов и оценка исследований переходят в руки комитетов, запускаются механизмы усреднения, уничтожающие радикальные экстремальные идеи. Комитеты по своей природе требуют консенсуса и мажоритарного голосования, что в корне противоречит логике открытого поиска. Если промежуточный этап кажется невероятно многообещающим лишь одному исследователю, большинство никогда не проголосует за него, и уникальный путь будет отрезан. Автономия исследователя — ключевой элемент инноваций, но она полностью уничтожается коллегиальным управлением.

В качестве иллюстрации деструктивного влияния комитетов Кеннет Стэнли приводит два полярных примера:

Чтобы преодолеть этот кризис, Кеннет Стэнли предлагает радикально реформировать систему финансирования: заменить узкие комитеты из пяти человек на условные 5000 независимых рецензентов. При этом грант должен выделяться не тогда, когда достигнут консенсус большинства, а в случае, если хотя бы двое экспертов настолько поверили в идею, что готовы поставить на кон собственные ресурсы или репутацию. Как показывает практика (и как ранее упоминалось при разборе алгоритма POET), прорывные среды и решения рождаются только там, где есть пространство для дивергентного риска.

🛡️ Книга Кеннета Стэнли как оружие защиты бесцельного поиска 2:02:51

Финальная часть дискуссии проливает свет на истинное предназначение книги Кеннета Стэнли «Why Greatness Cannot Be Planned». Многие читатели и литературные агенты критиковали работу за странное стилистическое смешение, предлагая «разбавить» текст для лучшего восприятия широкой публикой. Однако автор сознательно пошел на этот шаг, создав своеобразный гибрид академического исследования и манифеста в стиле селф-хелп.

Книга изначально задумывалась автором не как коммерческий продукт для массового чтения, а как настоящее «оружие» для ученых и инноваторов. Ее цель — дать исследователям, вынужденным защищать свои проекты перед жестко ориентированными на конкретные цели грантодателями («гейткиперами»), максимально полный арсенал аргументов. Именно поэтому в тексте соседствуют разные концептуальные углы атаки на целевую оптимизацию: от теории накопления информации до градиента интересности. Этот манифест дает ученым инструмент защиты своего права на свободный, открытый и бесцельный научный поиск перед лицом бюрократии.

🧭 Поиск новизны, феномен девиантного поиска и скрытые структуры вселенной 2:05:56

Поиск новизны как альтернативный градиент 2:05:56

Кеннет Стэнли отмечает важную закономерность: хотя далеко не всё новое обязательно является интересным, практически всё интересное принципиально ново. Это делает стремление к новизне отличной грубой эвристикой, способной приблизить исследователей к результатам подлинного интеллектуального поиска. Главная сложность заключается в том, что «интересность» — глубоко субъективное понятие, которое невозможно формализовать объективным математическим путём. Поэтому в области искусственного интеллекта учёные вынуждены использовать прокси-метрики и мириться с определённой долей субъективности при проектировании дивергентных систем.

Основная цель состоит в создании расходящихся процессов, богатых информацией и защищённых от так называемого целевого обмана и «извращённых стимулов». В качестве классических примеров таких ловушек оптимизации Кеннет Стэнли приводит исторические прецеденты:

Любая открытая эволюционная система неизбежно сталкивается с ограничением физических ресурсов и времени. Обладай мы бесконечными вычислительными мощностями, алгоритмы могли бы безболезненно накапливать абсолютно все ветви развития, и среди колоссального объёма мусора рано или поздно проявилось бы всё великое. В реальности же нам необходимы фильтры. Вместо попыток описать то, что нам нравится, гораздо эффективнее отсекать то, чего мы точно не хотим видеть. Однако даже нежелательные ветви могут оказаться ключевыми промежуточными этапами к прорывным открытиям, поэтому избыточный контроль способен полностью разрушить поиск.

Биологическая природа доказывает, что критерий отбора не обязан быть безупречным. Фундаментальный принцип «выжить и размножиться» устроен достаточно свободно, но за счёт мощнейшей силы дивергенции он успешно отсекает явный эволюционный брак и порождает феноменальное природное разнообразие. Эти идеи легли в основу классической научной работы Джоэла Лемана и Кеннета Стэнли 2011 года «Отказ от целей: эволюция исключительно через поиск новизны». Эксперименты с поиском путей в лабиринтах наглядно продемонстрировали, что метрика новизны может быть крайне неточной (например, грубое разбиение лабиринта на сетку 4х4), но всё равно оставаться минимально эффективной для нахождения неочевидных решений.

Влияние троллей на эволюционные системы 2:09:21

Рассматривая динамику интерактивных платформ, собеседники поднимают неожиданный вопрос о роли интернет-троллей в эволюции сложных систем. Ранее в разговоре они уже детально касались интерактивного поиска в проекте Pick Breeder, а также алгоритма NEAT и кодирования топологий. Вопреки стереотипам о сугубо деструктивной природе троллинга, Кеннет Стэнли обнаруживает в действиях таких пользователей уникальное интуитивное чутьё на интересное. Безусловно, если целая скоординированная «армия» из тысяч троллей начнёт целенаправленно продвигать откровенный визуальный мусор или подделывать теги, она способна полностью разрушить экосистему. Однако единичные пользователи с нестандартными и упрямыми интересами приносят колоссальную пользу.

Живой иллюстрацией этого тезиса стал участник платформы под ником Роберт (Robert). В то время как большинство людей создавали плавные, округлые и похожие на органические кляксы изображения, сформировавшие привычный «стиль Pick Breeder», Роберт проявил маниакальную одержимость строгой геометрией. Он провёл тысячи сложнейших итераций, пытаясь получить абсолютно прямые линии и чёткие углы в 90 градусов, что невероятно трудно реализовать из-за математической природы активационных функций в сетях CPPN. Этот пользователь фактически выступил в роли созидательного «тролля»: он взломал устоявшиеся ограничения пространства поиска, открыл принципиально новое стилистическое измерение и в корне изменил представления исследователей о возможностях нейросетевых архитектур. Именно такие девиантные ветви позволяют эволюционному древу прорастать в неизведанные области.

Мысленный эксперимент «Мягкая Земля» 2:16:27

Для иллюстрации механизмов развития Кеннет Стэнли приводит в своей книге мысленный эксперимент, названный «Мягкая Земля» (The Gentle Earth). Представим гипотетический мир, где полностью устранено любое давление естественного отбора: каждый рождённый организм гарантированно выживает и оставляет потомство независимо от своей приспособленности. На первый взгляд, избавление от борьбы за выживание должно привести к расцвету видов, однако ведущие подчеркивают, что в реальности такая экосистема мгновенно деградировала бы в колоссальную «серую слизь» (grey goo), состоящую из простейших бактерий, размножающихся с максимально возможной скоростью. Отсутствие даже минимального отбора превращает биологический мир в аналог неинформативного белого шума.

Тем не менее, Кеннет Стэнли делает из этого парадоксальный и воодушевляющий вывод. Если распределение случайных мутаций в условиях «Мягкой Земли» останется идентичным нашему миру, то в этой бесконечной массе бактериальной слизи рано или поздно всё равно возникнут все сложнейшие организмы, включая человека. Тот факт, что человечество гипотетически развилось бы даже при нулевом давлении отбора (пусть и составляя ничтожные доли процента среди миллиардов тонн инертных биомасс), доказывает важнейшую истину. Наше появление на свет нельзя целиком и полностью объяснить одним лишь естественным отбором. Огромная роль принадлежит изначальной, априорной структуре самого пространства поиска, которую законы нашей вселенной определили заранее, а эволюционные процессы лишь поэтапно эксплуатируют.

Алгоритм Go-Explore и скрытые знания 2:20:58

В завершение дискуссии авторы переходят к обсуждению алгоритма Go-Explore, совершившего грандиозный прорыв в прохождении видеоигр со сверхсложной структурой и разреженным вознаграждением, таких как Montezuma's Revenge. В своей основе Go-Explore частично опирается на принципы алгоритма MAP-Elites, который принудительно разделяет пространство поиска на ячейки и удерживает в каждой из них наиболее перспективных агентов для сохранения разнообразия (при этом Стэнли уточняет, что не участвовал напрямую в создании MAP-Elites, но считает его выдающимся образцом в классе алгоритмов качественного разнообразия).

Триумф Go-Explore, однако, ставит перед научным сообществом глубокий методологический и этический вопрос: насколько честно со стороны человека скрыто закладывать знания о предметной области (domain knowledge) в метрики разбиения пространства? Конструируя сетку ячеек и определяя параметры схожести состояний, авторы алгоритма уподобляются гипотетическим «путешественникам во времени», которые заранее знают правильные промежуточные этапы и негласно встраивают это понимание в код.

С позиций чистого машинного обучения подобная зависимость от ручного проектирования признаков выглядит как компромисс. Сегодня исследователи активно ищут универсальные, независимые от контекста метрики новизны. (Ранее в разговоре упоминался алгоритм POET и генерация сред, а в его новой версии Enhanced POET предпринимаются попытки оценивать новизну через то, как изменённая среда перестраивает внутренние рейтинги качества агентов). Тем не менее, Кеннет Стэнли убеждён, что использование человеческой экспертизы не является пороком. Если привлечение интуиции создателей в конечном счёте позволит алгоритмам вырастить условного искусственного Эйнштейна, академическая чистота методов отойдёт на второй план перед лицом великого результата.

🚀 Переворот парадигмы: от оптимизации к поиску 2:30:48

В современном научном и инженерном сообществе доминирует убеждение, что прогресс неразрывно связан с постановкой целей и их жесткой оптимизацией. Кеннет Стэнли предлагает радикально иной взгляд, переворачивающий привычную иерархию ценностей. Он утверждает, что истинный интеллект проявляется не в способности эффективно «решать задачи» или достигать заранее определенных показателей, а в способности исследовать неизвестное.

Проблема «тирании целей» (о которой участники беседы упоминали ранее) заключается в том, что целевая оптимизация по своей сути является тривиальной и предсказуемой задачей для компьютеров. Когда мы знаем конечный результат, процесс превращается в обычную эксплуатацию уже накопленного знания. Однако, когда речь заходит о действительно инновационных прорывах — например, создании лекарства от рака, — мы оказываемся в ситуации, где «камни» (промежуточные шаги) не видны, и попытки следовать кратчайшим путем к цели ведут в тупик из-за феномена обмана.

Стэнли настаивает, что научному сообществу следует пересмотреть свою одержимость метриками улучшения. Часто принятие научных работ основывается исключительно на объективном росте показателей на пару процентов, что лишь имитирует прогресс, но не ведет к фундаментальным открытиям.

По мнению Кеннета Стэнли, настоящие провидцы — это не те, кто лучше всех оптимизирует текущий процесс, а те, кто осознает момент, когда нужно переключиться с чистого исследования на фокусированную оптимизацию, увидев новую перспективу, недоступную остальным.

🤖 ИИ-генерирующие алгоритмы (AIGA) 2:43:40

В поисках пути к сильному искусственному интеллекту (AGI) Стэнли предлагает уйти от попыток ручного проектирования архитектур нейронных сетей. Его подход базируется на концепции ИИ-генерирующих алгоритмов (AI-Generating Algorithms, или AIGAs). Вместо того чтобы «строить» интеллект, ученые должны создавать внешние эволюционные циклы — алгоритмы, которые самостоятельно порождают, тестируют и усложняют архитектуры «мозга».

Этот процесс глубоко вдохновлен биологией. Человеческий интеллект — это продукт эволюции, процесса, который не был «запрограммирован» на создание разума, а просто является открытым алгоритмом, порождающим невероятную сложность: от фотосинтеза до полета птиц. Использование подобного «внешнего цикла» позволяет системе преодолевать обман, заложенный в ландшафте поиска, и находить решения, которые были бы недостижимы для прямолинейного проектирования.

Стэнли подчеркивает, что развитие ИИ не должно восприниматься как выбор между конкурирующими «лагерями». Скорее, это попытка объединить разные траектории — подобно тому, как история двигателей и история аэродинамики когда-то слились воедино, позволив создать космические корабли. ИИ-генерирующие алгоритмы представляют собой важный элемент этого синтеза, где фокус сменяется с инженерного конструирования на создание условий для возникновения интеллекта.

💬 Цитаты

«Следование цели может быть препятствием для её достижения.»

«Самая умная часть — это исследование, а глупая — это объективная оптимизация, потому что она чертовски проста.»

«The power of creation is the power of open-endedness.»

Кеннет Стэнли 32:49

«not everything that's novel is interesting but just about everything that's interesting is novel»

Кеннет Стэнли 2:05:56

«Самые интересные идеи сегодня приходят от «чудаков-аутсайдеров» вне академической системы.»

Кеннет Стэнли 54:03
👥 Спикеры
📚 Упомянутые книги
📖 Термины
Эффект кобры
Ситуация, когда способ борьбы с проблемой усугубляет её из-за неверной системы стимулов.
Алгоритм POET
Система, одновременно генерирующая сложные среды и агентов для их решения.
AIGA
ИИ-генерирующие алгоритмы, строящиеся на внешнем эволюционном цикле.
Искусственный интеллект Кеннет Стэнли алгоритм NEAT алгоритм POET целевая оптимизация поиск новизны