Франсуа Шолле против больших данных: почему ИИ не умнеет от гигабайтов

Обзор фундаментальной работы Франсуа Шолле (François Chollet) «О дефиниции и измерении интеллекта» продолжается глубоким погружением в природу человеческих априорных знаний. Ведущий YouTube-канала Yannic Kilcher, Янник Кильчер (Yannic Kilcher), разбирает, почему современные подходы к искусственному интеллекту подменяют реальные когнитивные способности огромными массивами данных. В центре дискуссии — концепция «покупки навыков» и эволюционные механизмы, определяющие границы человеческого и машинного разума.

🧠 Навыки против способностей: что мы на самом деле измеряем? 1:51

В первой части разбора статьи Франсуа Шолле ведущий Янник Кильчер напомнил о принципиальном разделении между понятиями «навык» (skill) и «способность» (ability). Навык определяет то, насколько успешно система справляется с конкретной, строго очерченной задачей, будь то шахматы, игра го или прохождение стандартного IQ-теста. Однако успешное выполнение одной сложной задачи само по себе не делает машину по-настоящему интеллектуальной.

По мнению Франсуа Шолле, истинный интеллект заключается в способности к генерализации — умении адаптироваться и эффективно решать абсолютно новые проблемы, к которым система не была подготовлена заранее. Для создания разумного агента разработчики должны оптимизировать архитектуру непосредственно под универсальность и гибкость, а не под производительность в отдельной задаче. Как считает Франсуа Шолле, если поставить перед обучающейся системой узкую цель, она неизбежно пойдет по пути наименьшего сопротивления, используя любые доступные лазейки и сокращения вместо развития мышления.

В качестве примера Янник Кильчер приводит классические чат-боты, работающие на жестко закодированных правилах и регулярных выражениях. Они могут казаться убедительными, пока диалог идет по сценарию, но мгновенно ломаются, как только пользователь выходит за рамки прописанных паттернов. По мнению Янника Кильчера, в данном сценарии интеллектуальным является исключительно инженер-разработчик, который перенес собственный разум в алгоритм, тогда как сам агент интеллектом не обладает. Интеллект процесса кодируется не финальной производительностью системы в одной среде, а возможностью применить один и тот же базовый процесс к совершенно разным задачам.

💰 Феномен «покупки навыков»: иллюзия интеллекта в эпоху больших данных 5:54

Современный мейнстрим в области машинного обучения часто совершает ту же ошибку, что и создатели жестко запрограммированных чат-ботов, но на новом технологическом уровне. Как утверждает Франсуа Шолле, простое добавление колоссальных объемов обучающих данных и вычислительных мощностей не приближает систему к настоящему интеллекту. Если обучить агента на сверхплотной выборке из тысяч похожих сред, он сможет успешно действовать в новой для себя локации просто за счет интерполяции между уже известными примерами. Однако эта способность к генерализации обманчива.

В своей работе Франсуа Шолле вводит важное понятие «покупки навыка» (buying a skill) за счет внешних ресурсов, что противопоставляется интеллектуальному решению задачи. С точки зрения автора статьи, существует два основных способа «купить» высокую производительность без создания реального интеллекта:

Жесткое кодирование (hard-coding) всех возможных правил и сценариев вручную инженером.
Скармливание системе гигантских объемов данных (data) для пассивного запоминания структуры среды.

Янник Кильчер иллюстрирует этот спектр, помещая на один полюс традиционные алгоритмы поиска вроде A* с обучаемой эвристикой, а на другой — сверхбольшие языковые модели, такие как GPT-3. В моделях типа GPT-3 практически отсутствуют встроенные архитектурные ограничения (априорные знания), и вся их сила базируется исключительно на поглощении терабайтов текста.

По воспоминаниям Янника Кильчера, после релиза GPT-3 множество зрителей писали ему в комментариях, утверждая, что эта модель интеллектуальна, так как она способна решать задачи, которым ее явно не обучали. Сам ведущий признается, что граница здесь остается размытой: GPT-3 действительно демонстрирует удивительные результаты, но при этом объемы данных, на которых она обучалась, колоссальны. На данный момент в научном сообществе нет четкого консенсуса, где именно проходит линия раздела между чистой статистической интерполяцией больших данных и реальным проблеском разума.

📐 Ортогональная ось: трехмерное пространство систем 9:47

Для прояснения ситуации Франсуа Шолле предлагает абстракцию, согласно которой интеллект представляет собой ось, абсолютно ортогональную (перпендикулярную) осям данных и ручного программирования. Эти сущности образуют своеобразный треугольник или трехмерное пространство, где высокая эффективность в задаче может быть достигнута за счет любой из трех вершин.

Жесткое кодирование отражает априорные знания (priors), которые разработчик закладывает в систему изначально, а обучение на данных формирует накопленный опыт (experience). Соответственно, чем больше у системы опыта или чем детальнее ее встроенные правила, тем лучше она справляется с новыми навыками, но это, по мнению Шолле, никак не увеличивает ее собственный интеллект. В качестве математического доказательства этого тезиса приводится знаменитая теорема о локально-чувствительном хэшировании (locality-sensitive hashing) и методе ближайших соседей, которая постулирует: при наличии бесконечного объема данных метод ближайших соседей способен идеально решить абсолютно любую задачу.

Именно поэтому при оценке интеллекта любого алгоритма необходимо строго учитывать объем затраченных данных и «вычитать» их вклад, равно как и вклад заложенных программистом правил, из финального результата. По мнению участников дискуссии, настоящую ценность для науки имеет лишь то, насколько тяжело далась системе генерация нового навыка в условиях дефицита опыта и жестких ограничений.

🏃‍♂️ Антропоцентричность разума: чему нас учит физическая культура? 12:28

Размышляя о природе интеллекта, Франсуа Шолле обращается к человеческому когнитивному опыту и задается вопросом: насколько универсален разум человека? Его вывод категоричен: человеческий интеллект вовсе не является универсальным. С фундаментальной математической точки зрения это подтверждается теоремой «о бесплатном обеде» (No Free Lunch theorem), согласно которой любые два алгоритма оптимизации показывают одинаковую среднюю эффективность, если интегрировать их производительность по абсолютно всем возможным математическим задачам.

Существование некоего «абсолютного» или «универсального» интеллекта в принципе находится под большим вопросом. По мнению Франсуа Шолле, даже знаменитый G-фактор (фактор общего интеллекта), используемый в современной психометрике для оценки людей, охватывает лишь ничтожно малую долю задач, которые способен воспринять и выполнить человеческий мозг. Янник Кильчер добавляет, что составители тестов на IQ специально подбирают вопросы так, чтобы они выявляли различия между людьми, укладываясь при этом в жесткие временные рамки (например, 40 минут). В эти тесты не включают задачи, которые понятны абсолютно всем или, наоборот, не под силу ни одному человеку, из-за чего вся шкала измерения оказывается жестко привязанной к сугубо человеческой системе ценностей.

Франсуа Шолле проводит аналогию между интеллектом и физической формой (physical fitness). Когда мы называем кого-то «физически развитым», мы имеем в виду абстрактный конструкт, складывающийся из множества коррелирующих между собой навыков: скорости бега, высоты прыжка, выносливости в плавании и грузоподъемности. Однако эта метрика глубоко антропоцентрична: мы измеряем атлетизм только в тех границах, которые доступны человеческому телу.

Специфику человеческих ограничений Янник Кильчер иллюстрирует примером из области теории графов:

Задача поиска кратчайшего пути (Shortest Path / Traveling Salesman Problem): люди с небольшим количеством узлов в графе решают ее интуитивно и невероятно эффективно, практически мгновенно находя оптимальный маршрут.
Задача поиска самого длинного пути (Longest Path Problem): с алгоритмической точки зрения она не намного сложнее, однако люди справляются с ней абсолютно ужасно.

По мнению ведущего, этот провал обусловлен эволюционными факторами: в процессе выживания нашим предкам жизненно необходим был встроенный навигационный модуль для экономии энергии при перемещениях, в то время как поиск самого длинного и неэффективного пути никогда не влиял на выживаемость. Таким образом, когда исследователи рассуждают об «общем искусственном интеллекте» (AGI), они на самом деле имеют в виду искусственный интеллект, ограниченный рамками и спецификой человеческого разума.

🧬 Три уровня человеческих априорных знаний 17:27

Для того чтобы корректно измерять и сравнивать интеллект человека и машины, необходимо детально разобраться в структуре того, что эволюция заложила в нас «из коробки». Франсуа Шолле выделяет три фундаментальных уровня человеческих априорных знаний (priors):

Низкоуровневые априорные знания (Low-level priors): базовые биологические рефлексы. Сюда относятся автоматическое отдергивание руки при щипке или закрытие глаз при яркой вспышке света. По мнению Шолле, этот уровень не представляет интереса для исследования интеллекта, так как данные реакции полностью автоматизированы.
Знания об устройстве мира (Knowledge priors): встроенные ментальные модели физической реальности. Это фундаментальное понимание того, что мир состоит из дискретных объектов, способность к интуитивной навигации в пространстве, а также социальная интуиция и базовое чувство числа (арифметика). Сюда же относится телеологическое восприятие: люди склонны интерпретировать любые динамические процессы через призму агентов, преследующих конкретные цели, поскольку такое упрощение помогало нашим предкам предсказывать поведение хищников и соплеменников. По утверждению Шолле, при тестировании человеческого интеллекта эти базовые знания должны быть полностью вынесены за скобки.
Априорные знания мета-обучения (Meta-learning priors): врожденная способность к самому процессу обучения, которую никто не должен нам преподавать. Человек обладает глубинным допущением, что окружающий мир устроен иерархически и причинно-следственно. Именно этот мета-навык — способность стремительно осваивать новые умения, опираясь на иерархию и каузальность, — и принято называют интеллектом в широком смысле слова.

По мнению Франсуа Шолле, корректный тест на интеллект должен оценивать именно скорость и качество приобретения новых навыков, строго контролируя и компенсируя влияние базовых физических и когнитивных факторов.

🧱 Теория ядра знаний и будущее ИИ 21:06

Франсуа Шолле настаивает на радикальном тезисе: если мы хотим построить ИИ, сопоставимый с человеком, и честно измерить его разум, мы обязаны жестко кодировать в архитектуру машины все базовые человеческие априорные знания. Агенту необходимо предоставить готовые программные модули, эквивалентные человеческим: встроенный калькулятор для арифметики, готовый навигационный блок и модель распознавания объектов. Требовать от нейросети выводить законы физики или правила счета с нуля из хаоса пикселей, как это происходит в современном обучении с подкреплением (RL), по мнению Шолле, в корне неверно и делает сравнение с человеком некорректным.

В основе этого подхода лежит психологическая теория «ядра знаний» (Core Knowledge Theory), выделяющая четыре ключевые категории врожденных человеческих когнитивных паттернов:

Объектность и элементарная физика: понимание целостности, непрерывности и постоянства существования объектов (object permanence). Янник Кильчер отмечает, что в детской психологии существует дискуссия: является ли понимание того, что спрятанная игрушка не исчезла навсегда, выученным опытом (из-за чего дети так бурно реагируют на игру в «ку-ку») или же это встроенный модуль, который просто активируется на определенном месяце развития. Сам ведущий склоняется к версии генетического переключателя, так как сроки активации этого навыка у младенцев поразительно идентичны.
Агентность и целенаправленность: восприятие объектов как активных сущностей, обладающих внутренними намерениями и волей.
Естественные числа и базовая арифметика: способность мгновенно оценивать, сравнивать и производить простейшие операции с небольшими множествами предметов.
Элементарная геометрия и топология: ориентация в пространстве, определение дистанций и взаимного расположения объектов (внутри/снаружи).

В качестве интересного отступления Янник Кильчер упоминает лингвистический феномен: существуют племена, в чьих языках полностью отсутствуют относительные понятия «лево» и «право», вместо которых используются исключительно абсолютные стороны света (север, юг, восток, запад). Представители этих культур обладают феноменальной встроенной ориентацией и способны безошибочно указать направление на север даже внутри незнакомого закрытого здания, что демонстрирует поразительную пластичность человеческого разума при взаимодействии с базовыми модулями.

В финале выпуска Янник Кильчер высказывает долю скепсиса относительно программы Франсуа Шолле. По мнению ведущего, идея составить исчерпывающий список всех человеческих априорных знаний выглядит несколько утопично, а задача чисто технически запрограммировать их в ИИ-агента так, чтобы он мог эффективно ими пользоваться, является едва ли не более сложным вызовом, чем создание самого интеллекта. Тем не менее Шолле попытался частично реализовать эту концепцию в своем знаменитом тесте ARC (Abstraction and Reasoning Corpus), подробный математический разбор которого авторы обещают представить в следующей серии.