Шолле о машинном обучении: «Мы измеряем навыки, а не адаптивность»

Популяризатор науки Янник Кильхер представил подробный разбор фундаментальной работы инженера Google Франсуа Шолле «On the Measure of Intelligence». В этом материале рассматривается первая часть исследования, посвященная историческому контексту, критике существующих подходов к оценке ИИ и необходимости создания объективной метрики человеческого разума. Автор видео анализирует, почему современные нейросети демонстрируют лишь узкие навыки, а не подлинную способность к адаптации.

🧭 Введение: поиск объективного метра для разума 0:00

В современном ИТ-сообществе обсуждение искусственного интеллекта часто строится на субъективных ощущениях и красивых демонстрациях. Известный ИИ-исследователь Янник Кильхер подробно разобрал первую часть масштабной научной статьи Франсуа Шолле под названием «On the Measure of Intelligence». Как отмечает ведущий, оригинальный текст представляет собой монументальный труд, лишенный иллюстраций, из-за чего его самостоятельное изучение может быть затруднительным. По этой причине Кильхер разделил обзор на многосерийный цикл, где стартовый эпизод целиком посвящен фундаментальным основам и истории вопроса.

По мнению Франсуа Шолле, главной проблемой современной индустрии ИИ является отсутствие четкого, математически выраженного определения интеллекта. Без конкретных измеримых показателей невозможно объективно отделить интеллектуальную систему от неинтеллектуальной. До сих пор исследователи во многом полагаются на анекдотичные свидетельства и интуицию, что регулярно приводит к серьезным заблуждениям.

🤖 Тест Тьюринга и ловушка антропоморфизма 1:09

В качестве классического примера несовершенной метрики Франсуа Шолле приводит знаменитый тест Тьюринга. В рамках этого эксперимента человек ведет текстовый диалог через стену с невидимым собеседником, пытаясь определить, кто перед ним — машина или другой человек. Если компьютер заставляет судью сомневаться в пропорции 50 на 50, тест считается пройденным.

Однако, согласно анализу Шолле, тест Тьюринга не просто недостаточен для оценки реального разума, но и отвлекает научное сообщество от сути проблемы. Автор статьи утверждает, что данный подход фактически перекладывает задачу определения интеллекта на плечи конкретного человека-судьи. Человеческое восприятие шумно, подвержено ошибкам и когнитивным искажениям, а критерии оценки остаются размытыми.

Шолле подчеркивает, что большинство современных формулировок интеллекта являются имплицитными (скрытыми) и перегружены антропоцентрическими предубеждениями. Для реального прогресса в области искусственного общего интеллекта (AGI) эти скрытые искажения необходимо выявить и устранить. Исследователи часто цитируют компилятивное определение, согласно которому интеллект — это способность агента достигать целей в широком спектре сред. Франсуа Шолле выделяет в этой формуле два ключевых аспекта:

Способность достигать целей (что в обучении с подкреплением эквивалентно максимизации награды).
Способность действовать в широком спектре разнообразных сред.

По мнению автора, подлинный интеллект рождается на стыке конкретного навыка и адаптивности. Современное же машинное обучение совершает методологическую ошибку, измеряя исключительно финальное мастерство (skill) и полностью игнорируя способность к генерализации и быстрой адаптации. В концепции Шолле заложено важное скрытое допущение: любые навыки для новых задач должны приобретаться и осваиваться агентом самостоятельно в процессе взаимодействия со средой, а не закладываться разработчиком в готовом виде.

⚔️ Природа против воспитания: две крайности в истории ИИ 5:41

В поиске природы разума наука традиционно сталкивается с классической дилеммой «природы и воспитания» (nature versus nurture), которая в контексте ИИ трансформируется в противостояние кристаллизованного интеллекта и способности к обучению. Франсуа Шолле выделяет два экстремальных исторических взгляда на эту проблему.

Первый полюс — это эволюционный подход, сторонники которого считают интеллект статичным набором жестко запрограммированных функций. С этой точки зрения, человек способен решать логические задачи или ориентироваться в пространстве лишь потому, что эволюция заранее снабдила его мозг нужными алгоритмами для выживания предков. В рамках данной парадигмы Марвин Минский сформулировал знаменитый тезис: ИИ — это наука о создании машин, способных выполнять задачи, которые требовали бы интеллекта, если бы их выполнял человек. Сторонники эволюционного взгляда убеждены, что если алгоритм набирает в тесте больше условных баллов, чем человек, то он автоматически превосходит человеческий разум. При таком подходе процесс обучения сводится к банальному запоминанию ситуаций, а сама способность к запоминанию считается заранее предопределенной.

Второй полюс представляет собой концепцию «чистой доски» (tabula rasa), утверждающую, что живой организм или машина рождаются без какого-либо опыта, а все когнические способности приобретаются исключительно при жизни. Этот взгляд отражен в цитате Джона Маккарти и Натаниэля Фридберга, определявших ИИ как науку и инженерию создания машин, способных решать задачи, к которым их заранее не готовили. Фридберг отмечал, что для автоматизации сложной деятельности ученые должны либо детально описать алгоритм решения, либо создать машину, способную действовать без точных инструкций.

Янник Кильхер указывает, что подход «чистой доски» исторически гораздо ближе к современной парадигме машинного обучения. Его радикальные сторонники готовы признать интеллектуальной любую систему, которая успешно обрабатывает ситуации, отсутствующие в ее обучающей выборке. Тем не менее Франсуа Шолле утверждает, что истина лежит строго посередине между эволюционным программированием и концепцией tabula rasa, а определение интеллекта через любую из этих крайностей лишает метрики практической пользы.

📊 Критика навыков: «эффект ИИ» и проблема бенчмарков 11:50

Для наглядности Франсуа Шолле противопоставляет два подхода к тестированию систем: оценку на основе конкретных навыков (skill-based) и оценку на основе генерализации (generalization-based). К первому типу относятся классические методы: тест Тьюринга, математические доказательства оптимальности алгоритма, игровые соревнования (как в шахматах) и стандартные бенчмарки вроде датасета ImageNet.

Главный недостаток тестирования навыков, по мнению Шолле, заключается в чрезмерной сфокусированности на одной задаче. Ярким примером служат модели-победители на платформе Kaggle: они оказываются абсолютно бесполезными за пределами конкретного конкурсного датасета, поскольку авторы гипер-оптимизируют их ради сотых долей балла. Кильхер с иронией замечает, что постановка задачи на Kaggle стала отдельной наукой, ведь организаторам нужно изловчиться, чтобы выигравшую модель потом можно было применить в реальном бизнесе.

Кроме того, стандартные бенчмарки оценивают лишь финальный результат, полностью игнорируя то, каким путем система пришла к решению. Результату в ImageNet безразлично, как именно была обучена нейросеть, важен лишь процент верно классифицированных картинок. Подобная методология порождает так называемый «эффект ИИ» (AI effect): как только инженеры создают машину для решения очередной «интеллектуальной» задачи (например, шашек или шахмат), общество мгновенно заявляет, что это вовсе не интеллект, а просто эффективный перебор вариантов, и переносит маркеры истинного разума на следующую сложную задачу.

Шолле называет такой подход избыточно антропоцентричным. Ведущий объясняет это на примере человеческой психологии:

Мы считаем гроссмейстера Магнуса Карлсена умным, потому что подсознательно знаем о жестких биологических ограничениях человека.
Человеку требуется 20–30 лет на освоение игры, его мозг ограничен скоростью передачи импульсов, объемом памяти и потребностью в регулярном питании.
Успех человека в шахматах или го статистически коррелирует с его общей способностью решать самые разные жизненные проблемы.

Однако для машин эти правила не работают. Алгоритмы вроде AlphaGo или OpenAI Five могут тренироваться эквивалент тысяч лет человеческого опыта, используя колоссальные вычислительные мощности. Оценивать их интеллект по финальному навыку игры в Dota 2 или го — методологическая ошибка, ведь они не демонстрируют гибкости ума, а лишь аккумулируют гигантский объем вычислений.

📈 От локального к экстремальному: четыре уровня обобщения 18:34

В качестве альтернативы Шолле предлагает оценивать генерализацию — способность системы справляться с задачами, которые отличаются от ее прошлого опыта. Ученый разделяет генерализацию на два типа:

Системно-центричная (system-centric) — классический вариант машинного обучения, когда модель тренируется на одной выборке, а тестируется на ранее не виденных данных из того же распределения.
С учетом разработчика (developer-aware) — более строгий подход, оценивающий способность системы адаптироваться к ситуациям, которые не мог предвидеть даже сам создатель алгоритма. Если разработчик обучает модель для ImageNet, зная структуру теста, это системно-центричный подход, но не подлинное обобщение.

В своей работе Франсуа Шолле классифицирует четыре уровня генерализации алгоритмов:

Полное отсутствие обобщения. Сюда относятся жестко прописанные алгоритмы (например, математически доказанные функции сортировки чисел), где разработчик заранее предусмотрел абсолютно все сценарии развития событий.
Локальное обобщение (местная робастность). Текущий потолок машинного обучения. Модель устойчива к небольшим сдвигам в распределении данных, но работает в рамках концепции «известных неизвестных». Для этого требуется плотная выборка входного пространства: данных должно быть так много, чтобы любая тестовая точка оказывалась зажата между уже известными примерами. Кильхер добавляет, что в профессиональной среде существует аргумент, будто современные глубокие нейросети — это, по сути, просто гигантские классификаторы ближайших соседей.
Широкое обобщение (broad generalization). Способность системы сталкиваться с «неизвестными неизвестными» в рамках широкой категории задач. Шолле иллюстрирует это знаменитым примером Стива Возняка о роботе и чашке кофе: машина должна зайти в любую случайную человеческую кухню и успешно приготовить напиток, сориентировавшись в незнакомой планировке и управлении чужой кофеваркой. Янник Кильхер критически замечает, что данный тест можно усложнить до абсурда — например, заблокировать дверь кухни цифровым замком, требующим доказать гипотезу ABC, из-за чего концепция широкого обобщения все еще остается несколько интуитивной.
Экстремальное обобщение. Полностью открытая система, способная адаптироваться к совершенно новым категориям задач, связь между которыми носит максимально абстрактный характер.

Шолле подчеркивает, что экстремальное обобщение принципиально отличается от «универсального», способного решить вообще любую задачу во Вселенной. Последнее утопично и невозможно из-за математической теоремы «о бесплатном обеде» (No Free Lunch theorem). Целью науки должен быть человеческий уровень интеллекта, а человеческий разум ограничен рамками задач, которые потенциально полезны, понятны или могут быть сформулированы Homo sapiens. В психологии эта общая способность к абстрактному мышлению известна как g-фактор (генеральный фактор интеллекта).

🧠 Психометрия и будущее ИИ-тестирования 29:24

Разрабатывая свою математическую рамку, Франсуа Шолле во многом опирается на человеческую психометрию и структуру IQ-тестов. В психологии принято считать, что единый статистический g-фактор иерархически распределяется на широкие когнитивные способности, которые, в свою очередь, распадаются на конкретные прикладные навыки.

Главный парадокс психометрии, по словам Шолле, заключается в том, что мы стремимся измерить абстрактные широкие способности ума, но физически можем зафиксировать лишь выполнение конкретных тестов. Чтобы обойти это ограничение, в IQ-тестах применяется целая батарея разнородных задач: продолжение числовых рядов, мысленное вращение фигур, вербальный анализ.

Янник Кильхер разбирает популярное заблуждение о том, что современные ИИ-наборы тестов вроде Atari Suite (в обучении с подкреплением) или SuperGLUE (в обработке естественного языка) эквивалентны человеческим IQ-тестам. Шолле категорически не согласен с этим сравнением. Ключевое отличие в том, что состав задач в SuperGLUE или Atari заранее открыт для разработчиков ИИ. Инженеры могут бесконечно тренировать свои нейросети именно под эти тесты, закладывая в архитектуру свои собственные априорные знания.

В случае с людьми методология IQ-тестирования строго требует, чтобы конкретные задачи оставались тайной для испытуемого, исключая возможность предварительного натаскивания. Как отмечает ведущий, именно поэтому коммерческие приложения для «тренировки мозга» бесполезны: человек начинает виртуозно играть в конкретную мини-игру, но его общий уровень интеллекта не повышается ни на йоту.

Попытки заставить ИИ решать стандартные человеческие IQ-тесты Шолле называет тупиковым путем. Разработчики просто изучат базу исторических тестов, деконструируют их и запрограммируют готовые шаблоны решений внутрь нейросети, выдав это за прорыв. По мнению Шолле, индустрии необходимы принципиально новые бенчмарки, отвечающие четырем жестким критериям психометрии:

Надежность (reliable) — результаты тестирования должны быть строго воспроизводимыми.
Валидность (valid) — тест должен измерять именно интеллект и способность к адаптации, а не изолированный навык.
Стандартизация (standardized) — процедура должна быть единой и равной для всех участников.
Отсутствие побочных искажений (free from bias) — система не должна штрафовать или поощрять агента за ортогональные метрики. Например, человеческие тесты часто измеряют скорость реакции, но для машин этот параметр легко фальсифицировать, просто добавив больше вычислительных плат или мощных графических процессоров (GPU).

В завершение первой части обзора Янник Кильхер резюмирует: подлинная оценка искусственного интеллекта должна фокусироваться не на объеме накопленных знаний, а на эффективности процесса освоения совершенно новых навыков. В следующих главах своего исследования Франсуа Шолле переходит к строгому математическому описанию этой концепции и презентации своего собственного бенчмарка ARC, который призван перевернуть индустрию ИИ.