# Франсуа Шолле против теста Тьюринга: как на самом деле измерить интеллект ИИ

Источник: https://www.youtube.com/watch?v=3_qGrmD6iQY
Канал: Yannic Kilcher
Опубликовано: 02.06.2020

---

В современной науке об искусственном интеллекте (ИИ) существует фундаментальная проблема: мы до сих пор не имеем четкого и математически обоснованного определения того, что именно мы измеряем. Янник Килчер в своем обзоре программной работы Франсуа Шолле (François Chollet), исследователя из Google и создателя библиотеки Keras, разбирает первую часть масштабного труда «On the Measure of Intelligence». В этом разделе авторы анализируют исторический контекст и ограничения текущих подходов к оценке ИИ, утверждая, что современная погоня за рекордами в конкретных задачах (бенчмарках) ведет индустрию в тупик.

## 🧭 Почему Тьюринг был неправ: Проблема определения интеллекта
[[JUMP:01:23]]

Франсуа Шолле утверждает, что отсутствие эксплицитной цели и четкой системы мер делает разговоры об ИИ глубоко субъективными и антропоцентричными [01:23]. В качестве примера он приводит классический тест Тьюринга, который долгое время считался «золотым стандартом» определения разумности машины.

Основная критика Шолле в адрес теста Тьюринга сводится к трем пунктам:

*   **Аутсорсинг проблемы:** Тест перекладывает определение интеллекта на человека-судью, который сам по себе является «шумным», субъективным и подверженным ошибкам [02:38].
*   **Иллюзия разумности:** Судью легко обмануть набором простых правил или анекдотическими реакциями, которые не имеют ничего общего с реальным мышлением.
*   **Отсутствие чисел:** Тест не дает количественной шкалы; он бинарен («прошел» или «не прошел») и не позволяет измерить прогресс [01:35].

Шолле предлагает рассматривать интеллект как **способность агента достигать целей в широком диапазоне условий** [04:03]. Ключевым здесь является сочетание навыка (skill) и адаптивности (adaptivity).

## 🧠 Природа против воспитания: Два взгляда на ИИ
[[JUMP:05:54]]

В истории ИИ сосуществуют два экстремальных взгляда на то, как должен быть устроен интеллект. Янник Килчер сравнивает их с классическим спором о «врожденном» и «приобретенном» [05:54].

1.  **Эволюционный взгляд (Статические программы):**
    Согласно Марвину Минскому, ИИ — это наука о создании машин, способных выполнять задачи, требующие интеллекта от человека [07:02]. В этой парадигме интеллект — это набор жестко заданных программ, отточенных эволюцией. Если машина превосходит человека в шахматах, она считается «умнее» в этой области, даже если её метод — это просто быстрый перебор вариантов [07:46]. Обучение здесь сводится к простой меморизации (запоминанию ситуаций).

2.  **Tabula Rasa (Чистая доска):**
    Джон Маккарти и другие сторонники этого подхода считают, что машина должна решать задачи, к которым её **не готовили заранее** [09:06]. ИИ здесь понимается как система, способная действовать без точных инструкций от программиста [09:32]. Это максимально близко к современной парадигме машинного обучения: умение работать с данными, не вошедшими в обучающую выборку.

Шолле уверен, что истина лежит посередине, и оба крайних подхода не учитывают эффективность процесса приобретения навыков [11:33].

## 📊 Тупик бенчмарков и «Эффект ИИ»
[[JUMP:11:50]]

Янник Килчер подчеркивает критику Шолле в адрес современных систем оценки, таких как ImageNet или соревнования на Kaggle.

*   **Узкая специализация:** Системы, побеждающие на Kaggle, часто бесполезны вне конкретного набора данных, так как они гипер-оптимизированы под конкретный тест [13:52].
*   **Игнорирование пути решения:** При оценке по навыку (skill-based) никого не волнует, как система пришла к ответу. Если нейросеть классифицирует изображения правильно, она считается успешной [14:21].
*   **Эффект ИИ:** Как только машина решает задачу, которую считали «интеллектуальной» (крестики-нолики, шахматы, го), люди говорят: «Это не настоящий интеллект, это просто поиск по дереву» [15:13]. Горизонт постоянно отодвигается.

Главное искажение здесь — человекоцентричность. Мы считаем чемпионов по шахматам умными, потому что знаем: человеку требуются десятилетия учебы и огромные усилия мозга, чтобы достичь такого уровня [16:34]. Но для машины, обладающей бесконечной памятью и скоростью счета, достижение того же результата не требует «интеллекта» в человеческом понимании [17:41].

## 🔄 Уровни обобщения: От надежности к гибкости
[[JUMP:18:34]]

Для Шолле ключевым показателем интеллекта является **генерализация (обобщение)** — способность справляться с задачами, которые отличаются от предыдущих [18:47]. Он выделяет несколько уровней:

*   **Отсутствие генерализации:** Алгоритмы сортировки, работающие по строго заданным правилам [20:18].
*   **Локальная генерализация (Робастность):** Современное машинное обучение. Система справляется с новыми точками данных из того же распределения, на котором обучалась («известные неизвестные») [20:45].
*   **Широкая генерализация:** Способность адаптироваться к ситуациям, которые не предвидел даже разработчик. Пример — беспилотный автомобиль 5-го уровня или робот Возняка, который должен приготовить кофе в любой произвольной кухне мира [22:04].
*   **Экстремальная генерализация:** Способность человека решать совершенно новые типы задач, к которым не готовила биологическая эволюция [26:13].

Шолле критикует идею «Универсального интеллекта» (способного на всё во Вселенной), называя её бессмысленной из-за теоремы «О бесплатном обеде» (No Free Lunch Theorem) [25:59]. Вместо этого нам нужен **человеческий уровень интеллекта**, ориентированный на спектр задач, потенциально полезных или понятных человеку.

## 📈 Психометрия как модель для ИИ
[[JUMP:30:32]]

Франсуа Шолле предлагает заимствовать методы из человеческой психометрии (тестов IQ). В психологии существует понятие **g-фактора** (фактора общего интеллекта), который статистически объединяет различные когнитивные способности [29:38].

Проблема современных ИИ-тестов (таких как GLUE в обработке языка) в том, что они известны разработчикам [32:38]. Если разработчик знает состав теста, он неизбежно «вкладывает» решение в систему. Настоящий тест IQ для ИИ должен соответствовать ряду критериев:

1.  **Неизвестность для тестируемого:** Агент не должен практиковаться именно на этих задачах, иначе измеряется память, а не интеллект [33:16].
2.  **Валидность:** Тест должен измерять именно интеллект, а не побочные факторы, например, скорость вычислений («электроны в кабеле») [35:57].
3.  **Стандартизация:** Возможность сравнения разных систем в одинаковых условиях [35:30].

В завершение первого обзора Янник Килчер анонсирует, что в следующих частях Шолле перейдет к математическим формулам измерения интеллекта и представит свой собственный бенчмарк ARC, призванный исправить ошибки прошлого [36:38].