Франсуа Шолле: «Градиентный спуск — не способ обучения алгоритмам»

Программный синтез и предел нейронных сетей: взгляд Франсуа Шолле и Кевина Эллиса 🤖 0:00

В индустрии искусственного интеллекта развернулась дискуссия о том, способны ли текущие архитектуры, основанные на глубоком обучении, достичь уровня настоящего обобщения или же нам необходимы принципиально новые подходы. В интервью каналу Machine Learning Street Talk эксперты Франсуа Шолле (исследователь ИИ, создатель Keras) и Кевин Эллис (специалист в области программного синтеза) обсудили, почему нейросети буксуют в алгоритмических задачах и какую роль в будущем будет играть программный синтез.

Тупик градиентного спуска: когда статистика мешает логике 0:28

В начале своей карьеры Франсуа Шолле полагал, что нейронные сети и градиентный спуск смогут стать полноценной заменой программированию, так как теоретически они обладают свойством полноты по Тьюрингу. Однако опыт работы над задачами по доказательству теорем в Google вместе с Кристианом Сегеди показал обратное.

Проблема «статистического шума»: Шолле отмечает, что нейронные сети неизменно пытаются ухватиться за статистические закономерности (шум), вместо того чтобы реализовать конкретный алгоритм, даже если структура последнего представима внутри сети.
Экспериментальное подтверждение: Даже если инициализировать веса нейросети идеально корректным решением задачи, в процессе дообучения на новых примерах модель часто «разучивает» правильный алгоритм и переключается на переобученное (overfit) решение.

По мнению Шолле, градиентный спуск — это «не тот способ», которым нужно изучать алгоритмы. Он утверждает, что нейросети эффективны для задач со структурой непрерывного пространства (паттерн-матчинг), но для дискретных логических задач они являются субоптимальным выбором. Кевин Эллис соглашается: попытки вложить дискретные структуры в непрерывные пространства векторов часто приводят к созданию «неуправляемых поверхностей оптимизации».

Будущее: гибридные архитектуры и программные интерфейсы 7:47

Собеседники сходятся во мнении, что вопрос создания гибридного «субстрата» — того, что не является чисто нейросетевым или чисто символьным, — остается ключевой задачей для ИИ.

Глубокая интеграция: Шолле предлагает переосмыслить взаимодействие нейросетей и программ. Вместо того чтобы использовать нейросеть как «черный ящик», её можно интегрировать в сам интерпретатор языка программирования, чтобы она управляла динамикой исполнения.
Тестовое время как ресурс: Кевин Эллис отмечает потенциал использования нейросетей для «тестового времени» (test-time computation), когда модель может гибко переопределять семантику под конкретную задачу, подобно тому, как это происходит в моделях типа o1.
Роль инфраструктуры: По словам Шолле, сегодня мы находимся в стадии исследования, аналогичной глубокому обучению 2011 года. Пока нет устоявшегося алгоритма, создавать инфраструктуру уровня «Keras для программного синтеза» преждевременно, но в будущем это станет неизбежностью.

Почему большие языковые модели побеждают? 16:35

Кевин Эллис задался вопросом: если классические методы (SAT/SMT-решатели, символьный поиск) были теоретически обоснованы, почему сегодня доминируют LLM?

Сила ресурсов: Шолле объясняет доминирование LLM колоссальными инвестициями. В их развитие вложено в 10 000 раз больше ресурсов, чем в символьные методы, которые остались «маргинальными академическими темами».
Игровая теория: С точки зрения игровой теории, стандартизация на LLM является вынужденной: если вы не используете инструмент, в который влиты сотни миллиардов долларов, вы упускаете мощные возможности, даже если подход считается субоптимальным.

ARC и вызовы сильного обобщения 21:27

Обсуждая бенчмарк ARC (Abstraction and Reasoning Corpus), Шолле поделился ожиданиями от предстоящей второй версии.

Композиционная новизна: Трансформеры плохо справляются с композицией функций, которая требуется для решения задач в ARC. Новая версия датасета будет содержать меньше задач, решаемых «грубой силой», и больше — требующих сильного обобщения.
Человеческий фактор: В ARC-2 планируется использовать данные о сложности задач для людей, чтобы проверить, как человеческая интуиция коррелирует с результатами ИИ.
Микромир для ИИ: Шолле подчеркивает, что ARC — это «микромир» без лишних знаний о программировании, где всё сфокусировано на генерации абстракций, что делает его идеальным инструментом для оценки истинного прогресса в направлении AGI.