Новая надежда LSTM: Как Зепп Хохрайтер перезапускает индустрию AI 🚀 0:00
Будущее искусственного интеллекта может лежать не в бесконечном масштабировании языковых моделей (LLM), а в возвращении к фундаментальным принципам нейронных сетей с памятью. Профессор Зепп Хохрайтер (Sepp Hochreiter), соавтор легендарной архитектуры LSTM, в интервью каналу Machine Learning Street Talk поделился взглядом на то, почему нынешние LLM — это скорее «базы данных», чем полноценный интеллект, и представил свою новую разработку — xLSTM.
🧠 Почему LLM — это «базы данных» 0:33
По мнению Хохрайтера, текущая парадигма «больше данных, больше параметров» зашла в тупик. Основные аргументы профессора против современных систем:
- Отсутствие реального мышления: LLM лишь комбинируют и перефразируют информацию, которую уже видели в обучающей выборке. Они не способны к созданию принципиально новых идей или кодовых концепций, так как ограничены рамками своей базы данных.
- Проблема галлюцинаций: Эти системы работают как базы данных, к которым нет понятного интерфейса доступа; вы не знаете, как именно извлечь из них достоверное знание.
- Имитация рассуждений: Ведущий и гость сошлись во мнении, что нынешние нейросети имитируют логические цепочки, но не понимают их сути. Малейшее изменение условий задачи приводит к ошибкам, что доказывает отсутствие глубокого понимания логических правил.
Ведущий отметил, что появление моделей типа O1, которые выполняют поиск в пространстве программ во время генерации, несколько меняет картину, так как они позволяют «собирать» логику из примитивов. Однако Хохрайтер настаивает: для долгосрочного прогресса требуются новые архитектурные решения.
🧬 Возрождение: Что такое xLSTM? 13:30
После доминирования трансформеров, которые вытеснили LSTM в 2017 году благодаря своей параллельности, Хохрайтер и его команда решили переосмыслить старую архитектуру. Так появился xLSTM, который призван исправить три главных недостатка оригинальной LSTM:
- Параллелизация: Новая архитектура адаптирована для эффективной работы на GPU так же, как трансформеры.
- Гибкость памяти: Оригинальные LSTM не могли пересматривать свои решения. xLSTM использует «экспоненциальное гейтирование» (exponential gating), позволяющее системе динамически удалять старую информацию, если нашлась более релевантная.
- Матричная память: Вместо скалярной ячейки памяти, xLSTM использует целый Hopfield-сеть, что дает модели гораздо больший объем памяти.
По словам профессора, xLSTM показывает удивительные результаты, превосходя FlashAttention как в скорости обучения, так и в инференсе.
🤖 Путь в индустрию и симуляции 39:58
Компания Хохрайтера NX AI фокусируется не столько на языке, сколько на промышленном применении, где критичны скорость, энергоэффективность и предсказуемость.
- Робототехника и дроны: Благодаря фиксированному объему памяти, xLSTM идеально подходит для встраиваемых систем (embedded devices), где важна работа в реальном времени.
- Симуляции: Это ключевое направление NX AI. Использование AI позволяет ускорить численные симуляции (например, обтекание автомобиля воздухом или динамику частиц) с недель до минут. Модель «обучается» физике взаимодействий объектов, что позволяет избегать дорогостоящих физических прототипов.
🤝 Нейросимволический синтез 45:56
Хохрайтер убежден, что будущее AI лежит в гибридных системах. Он развивает проект стоимостью €40 млн в Австрии, объединяющий нейросетевой подход (subsymbolic) с формальной логикой (symbolic). Это необходимо для обеспечения надежности промышленных процессов, где «галлюцинации» недопустимы. По его мнению, нейросети должны быть «окружены» символическими системами, которые служат своего рода щитом или верификатором правильности решений.