# Юрген Шмидхубер: «Современные LLM — это не AGI»

Источник: https://www.youtube.com/watch?v=DP454c1K_vQ
Канал: Machine Learning Street Talk
Опубликовано: 28.08.2024

---

## Путь к сверхразуму: Юрген Шмидхубер об архитектуре будущего и ограничениях LLM
[[JUMP:0:00]]

Юрген Шмидхубер (Jürgen Schmidhuber), которого называют «отцом» современного искусственного интеллекта, утверждает, что современная индустрия переоценивает возможности больших языковых моделей (LLM), таких как ChatGPT. В интервью каналу **Machine Learning Street Talk** ученый подчеркивает, что нынешний бум вокруг AGI (искусственного общего интеллекта) вызван непониманием фундаментальных ограничений нейронных сетей и чрезмерным маркетинговым хайпом со стороны венчурных инвесторов и стартапов.

### 🧠 Почему LLM — это еще не AGI
[[JUMP:26:44]]

По мнению Шмидхубера, успех ChatGPT создал иллюзию близости сверхразума, так как люди склонны к антропоморфизму — приписыванию машине человеческих качеств. Однако, с технической точки зрения, он характеризует текущие LLM следующим образом:

* **Отсутствие базы знаний:** Модели не занимаются накоплением знаний в истинном смысле, они не обладают способностью к рассуждению, творчеству или агентности.
* **Сложные аппроксиматоры:** Это статистические модели, «подгоняющие» параметры под распределение данных. Они прекрасно работают там, где данных много, но пасуют, когда плотность распределения низка.
* **Ограниченность обучения:** Многие исследователи переоценивают возможности LLM, так как сами не до конца осознают, что эти сети не способны выполнять даже элементарные логические задачи, такие как определение четности (parity) в строках битов.

### 🤖 Путь к настоящему AGI: Реинфорсмент-обучение и мир роботов
[[JUMP:30:33]]

Шмидхубер полагает, что путь к AGI лежит через **reinforcement learning** (обучение с подкреплением). Будущие системы должны действовать как воплощенный ИИ (embodied AI), работающий в реальном физическом мире.

* **Ограниченность видеоигр:** В виртуальных симуляциях можно «воскресить» агента после неудачи, но в реальности цена ошибки критична. Робот должен обучаться крайне эффективно, минимизируя количество необходимых проб для построения точной модели мира.
* **Модели мира:** ИИ должен иметь внутреннюю предиктивную модель, которая позволяет планировать действия в будущем, опираясь не на перебор всех вариантов (как в шахматах), а на высокоуровневые концепции.
* **Иерархическое обучение:** Человек не планирует движение мышц пальцев, чтобы набрать номер — он оперирует концепцией «вызвать такси». Аналогично, AGI должен декомпозировать задачи на подцели, используя ранее изученные подпрограммы.

### 📉 Наука как прогресс сжатия данных
[[JUMP:51:39]]

Ключевой теоретический тезис Шмидхубера заключается в том, что прогресс науки — это история прогрессивного сжатия данных.

1.  **Суть метода:** Когда ученый находит закономерность (например, закон всемирного тяготения), он может описывать сложные явления (движение планет, падение яблок) через простые формулы. Это позволяет сжать колоссальные объемы наблюдений до минимума информации.
2.  **Искусственный ученый:** Система ИИ должна ставить себе собственные цели: искать в окружающей среде такие закономерности, которые еще не описаны, и «сжимать» их. Это придает ИИ своего рода «любопытство».
3.  **Аналоговое мышление:** Шмидхубер рассматривает рассуждение по аналогии как частный случай сжатия. Если алгоритм движения электронов вокруг ядра похож на алгоритм движения планет вокруг Солнца, то мы можем описать оба процесса с помощью общего кода, что экономит вычислительные ресурсы.

### 🏗️ История инноваций: От линейных трансформеров до LSTM
[[JUMP:1:05:27]]

Юрген Шмидхубер напоминает, что многие современные успехи базируются на наработках его лаборатории, сделанных десятилетия назад:

* **Трансформеры (1991):** В 1991 году Шмидхубер предложил архитектуру «быстрого управления весами» (fast weight controller), которая является прародителем линейных трансформеров.
* **GANs (1990):** Идея состязательного обучения (генератор и предсказатель) возникла в его лаборатории как способ реализации «искусственного любопытства».
* **LSTM:** Разработанная его командой технология долгой краткосрочной памяти (Long Short-Term Memory) стала основой для многих переводчиков и чат-ботов прошлого десятилетия.
* **X-LSTM:** Ученый отмечает новую перспективную разработку его ученика Зеппа Хохрайтера — архитектуру X-LSTM, которая масштабируется линейно, а не квадратично, и показывает превосходство в понимании семантики текста.

### ⚖️ Резюме: Будущее вычислений
[[JUMP:1:23:28]]

Шмидхубер предсказывает, что развитие вычислительных мощностей неизбежно приведет к созданию компьютеров, превосходящих человеческий мозг. Однако этот рост ограничен физическими пределами: согласно пределу Бекенштейна (1982), существуют фундаментальные ограничения на количество операций в секунду для заданного объема массы (1 кг материи не может вычислять более $10^{51}$ операций в секунду). В долгосрочной перспективе, после достижения этого предела, прогресс будет определяться не экспоненциальным ростом скорости, а полиномиальным расширением экспансии в космос для использования новых физических ресурсов.