Франсуа Шолле против теста Тьюринга: как на самом деле измерить интеллект ИИ

Yannic Kilcher 16,2 тыс. 37 мин 4 мин 02.06.2020
Главное

В современной науке об искусственном интеллекте (ИИ) существует фундаментальная проблема: мы до сих пор не имеем четкого и математически обоснованного определения того, что именно мы измеряем. Янник Килчер в своем обзоре программной работы Франсуа Шолле (François Chollet), исследователя из Google и создателя библиотеки Keras, разбирает первую часть масштабного труда «On the Measure of Intelligence». В этом разделе авторы анализируют исторический контекст и ограничения текущих подходов к оценке ИИ, утверждая, что современная погоня за рекордами в конкретных задачах (бенчмарках) ведет индустрию в тупик.

🧭 Почему Тьюринг был неправ: Проблема определения интеллекта 1:23

Франсуа Шолле утверждает, что отсутствие эксплицитной цели и четкой системы мер делает разговоры об ИИ глубоко субъективными и антропоцентричными . В качестве примера он приводит классический тест Тьюринга, который долгое время считался «золотым стандартом» определения разумности машины.

Основная критика Шолле в адрес теста Тьюринга сводится к трем пунктам:

Шолле предлагает рассматривать интеллект как способность агента достигать целей в широком диапазоне условий . Ключевым здесь является сочетание навыка (skill) и адаптивности (adaptivity).

🧠 Природа против воспитания: Два взгляда на ИИ 5:54

В истории ИИ сосуществуют два экстремальных взгляда на то, как должен быть устроен интеллект. Янник Килчер сравнивает их с классическим спором о «врожденном» и «приобретенном» .

  1. Эволюционный взгляд (Статические программы): Согласно Марвину Минскому, ИИ — это наука о создании машин, способных выполнять задачи, требующие интеллекта от человека . В этой парадигме интеллект — это набор жестко заданных программ, отточенных эволюцией. Если машина превосходит человека в шахматах, она считается «умнее» в этой области, даже если её метод — это просто быстрый перебор вариантов . Обучение здесь сводится к простой меморизации (запоминанию ситуаций).

  2. Tabula Rasa (Чистая доска): Джон Маккарти и другие сторонники этого подхода считают, что машина должна решать задачи, к которым её не готовили заранее . ИИ здесь понимается как система, способная действовать без точных инструкций от программиста . Это максимально близко к современной парадигме машинного обучения: умение работать с данными, не вошедшими в обучающую выборку.

Шолле уверен, что истина лежит посередине, и оба крайних подхода не учитывают эффективность процесса приобретения навыков .

📊 Тупик бенчмарков и «Эффект ИИ» 11:50

Янник Килчер подчеркивает критику Шолле в адрес современных систем оценки, таких как ImageNet или соревнования на Kaggle.

Главное искажение здесь — человекоцентричность. Мы считаем чемпионов по шахматам умными, потому что знаем: человеку требуются десятилетия учебы и огромные усилия мозга, чтобы достичь такого уровня . Но для машины, обладающей бесконечной памятью и скоростью счета, достижение того же результата не требует «интеллекта» в человеческом понимании .

🔄 Уровни обобщения: От надежности к гибкости 18:34

Для Шолле ключевым показателем интеллекта является генерализация (обобщение) — способность справляться с задачами, которые отличаются от предыдущих . Он выделяет несколько уровней:

Шолле критикует идею «Универсального интеллекта» (способного на всё во Вселенной), называя её бессмысленной из-за теоремы «О бесплатном обеде» (No Free Lunch Theorem) . Вместо этого нам нужен человеческий уровень интеллекта, ориентированный на спектр задач, потенциально полезных или понятных человеку.

📈 Психометрия как модель для ИИ 30:32

Франсуа Шолле предлагает заимствовать методы из человеческой психометрии (тестов IQ). В психологии существует понятие g-фактора (фактора общего интеллекта), который статистически объединяет различные когнитивные способности .

Проблема современных ИИ-тестов (таких как GLUE в обработке языка) в том, что они известны разработчикам . Если разработчик знает состав теста, он неизбежно «вкладывает» решение в систему. Настоящий тест IQ для ИИ должен соответствовать ряду критериев:

  1. Неизвестность для тестируемого: Агент не должен практиковаться именно на этих задачах, иначе измеряется память, а не интеллект .
  2. Валидность: Тест должен измерять именно интеллект, а не побочные факторы, например, скорость вычислений («электроны в кабеле») .
  3. Стандартизация: Возможность сравнения разных систем в одинаковых условиях .

В завершение первого обзора Янник Килчер анонсирует, что в следующих частях Шолле перейдет к математическим формулам измерения интеллекта и представит свой собственный бенчмарк ARC, призванный исправить ошибки прошлого .

💬 Цитаты

«Интеллект измеряет способность агента достигать целей в широком диапазоне сред.»

Янник Килчер 03:41

«Цели постоянно сдвигаются: как только мы решаем задачу, нам говорят, что это не настоящий интеллект.»

Янник Килчер 15:42
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Генерализация (обобщение)
Способность модели применять знания, полученные на обучающей выборке, к новым, ранее не виденным данным.
g-фактор
Общий фактор интеллекта, статистический показатель, объединяющий результаты различных когнитивных тестов у человека.
Теорема о бесплатном обеде
Математическое утверждение, согласно которому ни один алгоритм оптимизации не превосходит любой другой на множестве всех возможных задач.
Tabula Rasa
Концепция «чистой доски», предполагающая, что система не имеет врожденных знаний и обучается всему с нуля.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект François Chollet Yannic Kilcher On the Measure of Intelligence тест Тьюринга бенчмарки ИИ