Язык как код интуиции: как Сриджан Кумар научил ИИ человеческому мышлению

На престижной научной конференции NeurIPS доклад исследователя Сриджана Кумара получил награду «Выдающаяся научная работа года» за прорывной подход к обучению искусственного интеллекта. В интервью каналу Machine Learning Street Talk учёный рассказал, как использование человеческого языка и программных абстракций помогает привить машинам интуитивные когнитивные искажения (inductive biases), свойственные людям. Это открытие способно в корне изменить принципы взаимодействия и совместной работы человека и ИИ.

🏆 Триумф на NeurIPS и загадка человеческой интуиции 0:00

На престижной конференции NeurIPS работа аспиранта Сриджана Кумара (Sreejan Kumar) под названием «Использование естественного языка и программных абстракций для привития человеческих индуктивных смещений машинам» завоевала одну из главных наград. Как отмечает ведущий подкаста Machine Learning Street Talk, эту награду получают всего 13 из более чем 10 000 поданных заявок, что подчеркивает её значимость для мирового ИИ-сообщества.

Сриджан Кумар, обучающийся на четвертом курсе аспирантуры Принстонского института нейронаук под руководством Тома Гриффитса и Джона Коэна, изучает механизмы абстракции у людей и нейросетей. Главная цель его работы — понять, почему люди способны мгновенно адаптироваться к новым задачам, и как перенести эту способность на искусственные модели.

По словам учёного, люди обладают сильными индуктивными смещениями (inductive biases) — врожденными или приобретенными ожиданиями от структуры мира, которые позволяют нам учиться на минимальном количестве примеров. Нейросети, напротив, лишены подобных «человеческих» ориентиров и пытаются выводить закономерности исключительно из эмпирических данных наблюдения, из-за чего часто пасуют перед новыми условиями среды.

🧠 Проблема обобщения: Франсуа Шолле против нейросетей 0:51

В сообществе исследователей искусственного интеллекта давно идет дискуссия о природе разума. Ведущий подкаста напоминает о позиции известного инженера Франсуа Шолле (François Chollet), который утверждает, что ядром интеллекта является именно эффективность обобщения (generalization efficiency). По мнению Шолле, современные нейронные сети фундаментально не способны к глубокому обобщению, поскольку они привязаны к непрерывному геометрическому пространству, в отличие от дискретных программ на базе машины Тьюринга. Для проверки этой гипотезы Шолле создал знаменитый тест ARC Challenge, решения для которого участники сообщества Machine Learning Street Talk сейчас пытаются строить с помощью дискретного синтеза программ.

Сриджан Кумар предлагает более гибкий взгляд на эту проблему. По его мнению, любая вычислительная система обладает собственными индуктивными смещениями. Нейросети могут плохо справляться с задачами, естественными для человека, но они прекрасно находят паттерны и обобщают данные в тех областях, для которых они оптимизированы.

Исследователь считает, что интеллект представляет собой широчайший спектр, а не бинарную шкалу. Тем не менее, если наша цель — создать ИИ, способный эффективно сотрудничать с человеком, нам необходимо сделать его мышление антропоцентричным. Кумар рассуждает о том, что способность людей к дискретному планированию и арифметике может быть как врожденной (ссылаясь на концепцию «базовых знаний» Элизабет Спелке), так и приобретенной в процессе школьного обучения символическим алгоритмам.

🎮 Эксперимент с черно-белыми сетками и метод Сэмплинга Гиббса 0:26

Чтобы перевести абстрактные разговоры об интуиции в плоскость строгой науки, команда Кумара разработала контролируемую экспериментальную среду. Они использовали двухмерные бинарные сетки (аналог механики игр Minesweeper или Battleship). В этой игре все плитки изначально закрыты, а задача игрока — последовательно открывать их, стараясь находить красные плитки (положительное вознаграждение) и избегать белых (отрицательное вознаграждение).

Для выявления истинных человеческих ожиданий (приоров) от этих сеток исследователи применили математический метод сэмплинга Гиббса. Они построили цепочку Маркова, где один человек принимал решения на основе структуры сетки, а затем передавал её состояние следующему участнику. После множества итераций на сетках начали спонтанно проступать паттерны, отражающие глубинную человеческую психологию. На финальных изображениях отчетливо доминировали геометрические линии, замкнутые фигуры и очертания букв — именно об этих концептах думает человек, когда анализирует двухмерное пространство.

Затем авторы провели контрольный эксперимент, заменив в этой цепочке человека на стандартного агента обучения с подкреплением (RL-агента). Полученное распределение «машинных приоров» внешне напоминало человеческое, но любому человеку сразу становилось ясно, что в нем полностью отсутствуют концептуальные линии и читаемые формы.

Этот этап исследования позволил зафиксировать явление двойной диссоциации:

Задачи и конфигурации сеток, которые люди решали мгновенно благодаря интуиции, оказывались непосильными для ИИ-агентов.
Конфигурации, в которых ИИ демонстрировал высокую эффективность, вводили в тупик испытуемых-людей.

Это строго доказало: у людей и современных машин принципиально разные индуктивные смещения.

🔗 Совместное обучение: как связать язык, программы и ИИ 11:36

Вторая, инженерная часть работы Кумара была посвящена тому, как исправить этот разрыв и научить нейросеть «думать как человек». Для этого ученые применили метод совместного обучения (co-training) ИИ-агента на двух типах репрезентаций: естественном языке и дискретных программах.

В процессе прохождения игры RL-агент не просто выбирал оптимальные ходы, но и параллельно решал задачу предсказания текстового описания этой задачи, составленного человеком. Технически это было реализовано через введение вспомогательной функции потерь (auxiliary loss) к основному алгоритму подкрепления. Исследователи использовали популярную большую языковую модель RoBERTa. Текстовые описания пропускались через RoBERTa для получения семантических эмбеддингов в векторном пространстве, а задача агента сводилась к минимизации среднеквадратичной ошибки (MSE) при предсказании этих эмбеддингов.

В качестве альтернативного источника абстракций ученые использовали индукцию программ (program induction). В когнитивных науках этот подход противопоставляется традиционным нейросетям. Он опирается на узкоспециализированный язык предметной области (DSL). Решения задач здесь собираются как композиции из базовых примитивов, заложенных создателем системы. Программный подход ближе к полюсу «жестко встроенных правил», тогда как нейросети находятся на полюсе «чистого обучения на данных». Кумар объединил эти миры через фреймворк мета-обучения (meta-learning), в котором агент тренируется на целом распределении задач, чтобы уловить их скрытую общую структуру.

📦 Абстракция через сжатие и будущее выравнивания ИИ 21:43

Ключевым открытием эксперимента стало понимание роли сжатия информации. Исследователи сравнили два типа описания игровых досок: искусственные (синтетические) и человеческие. Синтетическое описание было сухим и буквальным перечислением координат: «плитка А — красная, плитка Б — белая». Человеческие же описания были полны абстракций: «это похоже на букву U» или «это напоминает молоток».

По словам Сриджана Кумара, люди используют высокоуровневые концепты естественным образом, чтобы сжимать длину своих сообщений. Точно так же продвинутые алгоритмы синтеза программ (такие как DreamCoder) используют обучение библиотек (Library learning), добавляя новые примитивы для сокращения длины программного кода.

Эксперимент показал, что со-обучение агента на сжатых человеческих репрезентациях творит поразительные вещи. Мета-обученный агент не просто улучшил свои показатели на «человеческих» конфигурациях сеток, но и — что критически важно — ухудшил результаты на тех контрольных задачах, где люди традиционно совершают ошибки. ИИ-агент стал совершать истинно «человеческие» ошибки, полностью скопировав структуру нашего индуктивного смещения.

Кумар утверждает, что человеческий язык и программы выступают естественными хранилищами когнитивных приоров. Вместо того чтобы перекраивать архитектуру нейросетей с нуля или пытаться жестко закодировать правила логики вручную, разработчики могут неявно извлекать эти смещения из данных — через тексты и программные библиотеки.

Исследователь подчеркивает, что этот подход открывает новые горизонты для создания объяснимого и предсказуемого ИИ. Взаимодействие человека со сложными генеративными моделями (например, при подборе промптов) превращается в полноценное сотрудничество. А сотрудничать нам гораздо проще с тем агентом, чья логика, ошибки и ценности прозрачны и близки нашей собственной когнитивной природе.