Кевин Эллис и Зенна Таварес о будущем AI: почему имитации недостаточно для создания мировых моделей

В новом эпизоде подкаста Machine Learning Street Talk специалисты по синтезу программ Кевин Эллис и Зенна Таварес обсуждают фундаментальные ограничения современных нейросетей и объясняют, почему будущее искусственного интеллекта лежит в плоскости программного синтеза и построения «моделей мира». Основная идея дискуссии заключается в переходе от масштабного обучения на основе имитации (imitation learning) к системам, способным формировать гипотезы и строить абстракции из ограниченного набора данных, подобно тому, как это делает человек.

🧠 Проклятие композициональности и «бытовая наука» 0:00

Одной из центральных тем обсуждения стало понятие композициональности — способности строить сложные структуры из простых «атомарных» блоков знаний . По мнению Кевина Эллиса, это «обоюдоострый меч». С одной стороны, композициональность позволяет экстраполировать знания на новые ситуации, находящиеся далеко за пределами обучающей выборки . С другой стороны, она ведет к тому, что психолог Элизабет Спелке называет «проклятием композиционального разума» .

Суть этого проклятия заключается в следующем:

Комбинаторный взрыв: количество способов, которыми можно комбинировать базовые элементы, растет экспоненциально .
Отсутствие ориентиров: в бесконечном пространстве возможных идей системе трудно понять, какие из них имеют смысл в текущей ситуации .
Перегрузка возможностями: интеллект становится одновременно невероятно мощным и полностью подавленным обилием вариантов .

Зенна Таварес дополняет это концепцией «бытовой науки» (everyday science). Он утверждает, что принципы, по которым ребенок или взрослый разбирается с устройством новой микроволновки или кондиционера в отеле, идентичны принципам «настоящей» большой науки . Это процесс формирования гипотез, их проверки через взаимодействие с миром и коррекции убеждений на основе полученных данных .

💻 Индукция против Трансдукции: эксперименты с ARC 12:57

Собеседники подробно разобрали свою недавнюю работу, посвященную тесту ARC (Abstraction and Reasoning Corpus) Франсуа Шолле. В этом исследовании они сравнили два принципиально разных подхода к решению задач на логическое обобщение :

Индуктивный подход: система генерирует явный программный код (на Python), который описывает правило трансформации. Этот метод позволяет проверить правильность гипотезы на обучающих примерах перед применением к тестовым .
Трансдуктивный подход: нейросеть (в данном случае Llama 3 8B) напрямую выдает ответ в виде сетки пикселей, без промежуточного кода. Этот метод опирается на «интуицию» весов модели .

Кевин Эллис отмечает любопытный факт из когнитивной психологии: в некоторых задачах, если попросить человека «думать усерднее» и вербализировать решение, результаты становятся хуже . Аналогичный эффект наблюдается и у ИИ:

Для задач со сложными статистическими ассоциациями «интуитивная» трансдукция работает лучше .
Для задач, требующих точного соблюдения правил (например, симметрии или счета), индуктивный синтез программ оказывается вне конкуренции .

Итоговое решение исследователей представляло собой ансамбль: сначала система пытается найти программное решение (индукция), и только если оно не проходит проверку, «откатывается» к интуитивному ответу нейросети (трансдукция) .

🌙 Фаза сна и бодрствования: алгоритм DreamCoder 30:43

Кевин Эллис рассказал о философии своего известного алгоритма DreamCoder, который использует метафору «сна» и «бодрствования» для обучения систем программного синтеза :

Фаза сна (Sleep): Модель генерирует синтетические данные, запуская случайные программы из своей текущей библиотеки. Она «мечтает» о возможных решениях и учится на них, тренируя нейронную сеть-помощник (recognizer) быстро находить нужную программу по входным данным .
Фаза бодрствования (Wake): Система сталкивается с реальными задачами. Она использует накопленные «интуиции» для поиска решений. Если задача решена, программа добавляется в библиотеку знаний .
Сжатие и рефакторинг: DreamCoder постоянно пересматривает свою библиотеку, выделяя общие фрагменты кода в новые высокоуровневые абстракции (функции), тем самым совершенствуя свой собственный язык программирования (DSL) .

Зенна Таварес подчеркивает, что современные большие языковые модели позволяют реализовать этот процесс более гибко. Вместо жестко заданных библиотек можно использовать нейросетевые веса для хранения «мягких» абстракций, которые затем материализуются в код через контекстное обучение (in-context learning) .

🛠 Почему Python лучше лямбда-исчисления? 25:23

В ходе дискуссии был поднят вопрос о выборе языка для представления знаний. Ранее в академических работах по программному синтезу доминировало лямбда-исчисление. Однако Кевин Эллис утверждает, что Python оказался гораздо эффективнее .

Основные аргументы в пользу Python:

Прагматичность: современный дизайн языков программирования прошел длительную эволюцию, в ходе которой закрепились структуры, удобные для описания реального мира .
Обобщающая способность: высокоуровневые конструкции Python (циклы, словари, функции) работают как мощные регуляризаторы, не позволяя модели «переобучаться» на случайных деталях входных данных .
Экосистема: наличие библиотек и стандартных подходов делает Python идеальным «интерфейсом» между нейросетью и исполняемой средой .

Зенна Таварес видит будущее в создании «полиструктурных» систем, где сосуществуют несколько моделей реальности на разных уровнях абстракции: от низкоуровневой физики до высокоуровневых логических правил .

🚀 Проект MARA и будущее «бытовой науки» 1:11:41

В финале встречи гости анонсировали запуск проекта MARA (Modeling, Abstraction, Reasoning, Agency) на базе некоммерческой организации BASIS . Это трехлетняя исследовательская программа, целью которой является создание агентов, способных активно изучать мир.

Ключевые принципы MARA:

Активное обучение: агент не просто пассивно получает данные, а «тыкает» в объекты и нажимает на кнопки, чтобы понять реакцию среды .
Поиск абстракций «на лету»: система должна сама решать, какие детали мира игнорировать (например, цвет волос в модели распространения вируса), а какие считать критически важными .
Выход за пределы ARC: создание новых бенчмарков, которые требуют не просто статического решения задачи по картинке, а полноценного взаимодействия с интерактивной средой .

Кевин Эллис резюмирует, что этот путь сложен с вычислительной точки зрения, но он необходим для создания ИИ, который сможет ориентироваться в незнакомых ситуациях — будь то робот, впервые видящий новую модель посудомоечной машины, или цифровая система навигации по незнакомому веб-интерфейсу .