Франсуа Шолле против теста Тьюринга: как на самом деле измерить интеллект ИИ

В современной науке об искусственном интеллекте (ИИ) существует фундаментальная проблема: мы до сих пор не имеем четкого и математически обоснованного определения того, что именно мы измеряем. Янник Килчер в своем обзоре программной работы Франсуа Шолле (François Chollet), исследователя из Google и создателя библиотеки Keras, разбирает первую часть масштабного труда «On the Measure of Intelligence». В этом разделе авторы анализируют исторический контекст и ограничения текущих подходов к оценке ИИ, утверждая, что современная погоня за рекордами в конкретных задачах (бенчмарках) ведет индустрию в тупик.

🧭 Почему Тьюринг был неправ: Проблема определения интеллекта 1:23

Франсуа Шолле утверждает, что отсутствие эксплицитной цели и четкой системы мер делает разговоры об ИИ глубоко субъективными и антропоцентричными . В качестве примера он приводит классический тест Тьюринга, который долгое время считался «золотым стандартом» определения разумности машины.

Основная критика Шолле в адрес теста Тьюринга сводится к трем пунктам:

Аутсорсинг проблемы: Тест перекладывает определение интеллекта на человека-судью, который сам по себе является «шумным», субъективным и подверженным ошибкам .
Иллюзия разумности: Судью легко обмануть набором простых правил или анекдотическими реакциями, которые не имеют ничего общего с реальным мышлением.
Отсутствие чисел: Тест не дает количественной шкалы; он бинарен («прошел» или «не прошел») и не позволяет измерить прогресс .

Шолле предлагает рассматривать интеллект как способность агента достигать целей в широком диапазоне условий . Ключевым здесь является сочетание навыка (skill) и адаптивности (adaptivity).

🧠 Природа против воспитания: Два взгляда на ИИ 5:54

В истории ИИ сосуществуют два экстремальных взгляда на то, как должен быть устроен интеллект. Янник Килчер сравнивает их с классическим спором о «врожденном» и «приобретенном» .

Эволюционный взгляд (Статические программы): Согласно Марвину Минскому, ИИ — это наука о создании машин, способных выполнять задачи, требующие интеллекта от человека . В этой парадигме интеллект — это набор жестко заданных программ, отточенных эволюцией. Если машина превосходит человека в шахматах, она считается «умнее» в этой области, даже если её метод — это просто быстрый перебор вариантов . Обучение здесь сводится к простой меморизации (запоминанию ситуаций).
Tabula Rasa (Чистая доска): Джон Маккарти и другие сторонники этого подхода считают, что машина должна решать задачи, к которым её не готовили заранее . ИИ здесь понимается как система, способная действовать без точных инструкций от программиста . Это максимально близко к современной парадигме машинного обучения: умение работать с данными, не вошедшими в обучающую выборку.

Шолле уверен, что истина лежит посередине, и оба крайних подхода не учитывают эффективность процесса приобретения навыков .

📊 Тупик бенчмарков и «Эффект ИИ» 11:50

Янник Килчер подчеркивает критику Шолле в адрес современных систем оценки, таких как ImageNet или соревнования на Kaggle.

Узкая специализация: Системы, побеждающие на Kaggle, часто бесполезны вне конкретного набора данных, так как они гипер-оптимизированы под конкретный тест .
Игнорирование пути решения: При оценке по навыку (skill-based) никого не волнует, как система пришла к ответу. Если нейросеть классифицирует изображения правильно, она считается успешной .
Эффект ИИ: Как только машина решает задачу, которую считали «интеллектуальной» (крестики-нолики, шахматы, го), люди говорят: «Это не настоящий интеллект, это просто поиск по дереву» . Горизонт постоянно отодвигается.

Главное искажение здесь — человекоцентричность. Мы считаем чемпионов по шахматам умными, потому что знаем: человеку требуются десятилетия учебы и огромные усилия мозга, чтобы достичь такого уровня . Но для машины, обладающей бесконечной памятью и скоростью счета, достижение того же результата не требует «интеллекта» в человеческом понимании .

🔄 Уровни обобщения: От надежности к гибкости 18:34

Для Шолле ключевым показателем интеллекта является генерализация (обобщение) — способность справляться с задачами, которые отличаются от предыдущих . Он выделяет несколько уровней:

Отсутствие генерализации: Алгоритмы сортировки, работающие по строго заданным правилам .
Локальная генерализация (Робастность): Современное машинное обучение. Система справляется с новыми точками данных из того же распределения, на котором обучалась («известные неизвестные») .
Широкая генерализация: Способность адаптироваться к ситуациям, которые не предвидел даже разработчик. Пример — беспилотный автомобиль 5-го уровня или робот Возняка, который должен приготовить кофе в любой произвольной кухне мира .
Экстремальная генерализация: Способность человека решать совершенно новые типы задач, к которым не готовила биологическая эволюция .

Шолле критикует идею «Универсального интеллекта» (способного на всё во Вселенной), называя её бессмысленной из-за теоремы «О бесплатном обеде» (No Free Lunch Theorem) . Вместо этого нам нужен человеческий уровень интеллекта, ориентированный на спектр задач, потенциально полезных или понятных человеку.

📈 Психометрия как модель для ИИ 30:32

Франсуа Шолле предлагает заимствовать методы из человеческой психометрии (тестов IQ). В психологии существует понятие g-фактора (фактора общего интеллекта), который статистически объединяет различные когнитивные способности .

Проблема современных ИИ-тестов (таких как GLUE в обработке языка) в том, что они известны разработчикам . Если разработчик знает состав теста, он неизбежно «вкладывает» решение в систему. Настоящий тест IQ для ИИ должен соответствовать ряду критериев:

Неизвестность для тестируемого: Агент не должен практиковаться именно на этих задачах, иначе измеряется память, а не интеллект .
Валидность: Тест должен измерять именно интеллект, а не побочные факторы, например, скорость вычислений («электроны в кабеле») .
Стандартизация: Возможность сравнения разных систем в одинаковых условиях .

В завершение первого обзора Янник Килчер анонсирует, что в следующих частях Шолле перейдет к математическим формулам измерения интеллекта и представит свой собственный бенчмарк ARC, призванный исправить ошибки прошлого .