Зепп Хохрайтер: «Человеческое мышление дискретно, а не непрерывно»

Профессор Зепп Хохрайтер (Sepp Hochreiter), легендарный исследователь в области глубокого обучения и создатель архитектуры LSTM (Long Short-Term Memory), встретился с ведущим канала Machine Learning Street Talk, чтобы обсудить текущее состояние искусственного интеллекта, проблемы абстракции и будущее «широкого ИИ». В этой беседе ученый поделился своим критическим взглядом на современные большие языковые модели и объяснил, почему человеческое мышление фундаментально дискретно, а нынешние методы обучения требуют фундаментального переосмысления.

🧠 Проблема определений и «широкий ИИ» 1:08

Дискуссия началась с вопроса о предсказаниях относительно создания общего искусственного интеллекта (AGI). По мнению Хохрайтера, основная проблема заключается в «антропоцентричности» наших определений: мы склонны называть «интеллектом» всё то, что свойственно людям, игнорируя возможность существования принципиально иных форм интеллекта.

Функциональный подход: Хохрайтер признает, что часто использует функциональное определение AGI, ориентированное на способность к планированию и обучению — подход, близкий к философским концепциям Дэвида Чалмерса.
Идеи Франсуа Шолле: Профессор высоко оценивает работы Франсуа Шолле, особенно его концепцию «широкого ИИ» (broad AI). Вместо узкоспециализированных систем, справляющихся с одной задачей, настоящий интеллект должен демонстрировать высокую эффективность в приобретении новых навыков при минимальном количестве обучающих примеров.

Ведущий согласился с этим тезисом, отметив, что способность выполнять одну задачу «слишком хорошо» не эквивалентна истинному интеллекту, где обобщение (генерализация) должно быть приоритетом.

🧩 Происхождение абстракций и роль priors 2:45

Критическим моментом дискуссии стал анализ того, откуда берутся абстракции в современных системах. Сейчас нейронные сети черпают их исключительно из человеческих данных, что, по мнению Хохрайтера, является серьезным ограничением.

Проблема меток: Мы обучаем модели на данных, размеченных людьми, даже когда не даем явных меток — сама архитектура данных уже пропитана человеческим видением.
Математика как высшая абстракция: Хохрайтер называет математику вершиной абстракции, так как она позволяет описывать бесконечное множество объектов едиными правилами, применимыми ко всему — от падения пера до движения планет.
Гипотеза о priors: Ученый утверждает, что «чистой доски» (tabula rasa) не существует. Даже для обучения с нуля системе нужны мощные априорные знания (priors). Люди получают их от общества, родителей и образования, и Хохрайтер убежден, что без таких же мощных priors искусственные системы не смогут самостоятельно открыть фундаментальные законы реальности.

🔢 Дискретность против непрерывности 7:51

В ходе беседы Хохрайтер высказал радикальное мнение о природе мышления, которое удивило ведущего.

Иллюзия непрерывности: Хохрайтер полагает, что всё наше мышление фундаментально дискретно. По его мнению, непрерывность в глубоком обучении — это своего рода «иллюзия».
Символьное мышление: Профессор проводит параллель с идеями Джерри Фодора о композиционности как способе борьбы с бесконечной сложностью мира. Человек постоянно использует символьные переменные и квантификацию для упрощения реальности.
Слабость нейросетей: Нынешние нейронные сети, по словам Хохрайтера, слишком заняты точными вычислениями, что делает их «слабыми» в плане генерализации. Он предполагает, что будущие системы должны выполнять дискретизацию на гораздо более ранних этапах обучения.

🛡️ Надежность моделей и «состязательные» угрозы 9:20

Говоря о текущих трендах, Хохрайтер выразил обеспокоенность по поводу доверия к «фундаментальным моделям» (Foundation Models).

Проблема квантификации неопределенности: Загружая готовую модель, пользователь не знает, насколько её предсказание надежно для конкретной задачи, которая отличается от обучающей выборки.
Состязательные модели: Хохрайтер и его коллеги занимаются исследованием «состязательных моделей» (adversarial models). Он утверждает, что нейросети уязвимы: можно подать специально подготовленный сигнал, который заставит модель выдать прямо противоположный результат.

В завершение дискуссии профессор раскритиковал методы градиентного спуска, используемые в обратном распространении ошибки (backpropagation). По его мнению, этот алгоритм слишком «жадный» — он застревает в первом же удобном локальном минимуме, игнорируя более качественные и обобщающие решения, которые могли бы быть найдены, если бы мы привносили в обучение больше априорных знаний и осознанных архитектурных ограничений.