Юрген Шмидхубер: от истоков глубокого обучения до колонизации космоса

В новом выпуске подкаста Machine Learning Street Talk известный учёный Юрген Шмидхубер (Jürgen Schmidhuber) делится своим монументальным видением эволюции искусственного интеллекта и его влияния на будущее человечества. В ходе беседы обсуждаются технологические прорывы последних десятилетий, заниженная роль европейской науки и фундаментальные вопросы цифровой физики. Шмидхубер предлагает уникальный взгляд на проблему экзистенциального риска, доказывая, что появление сильного ИИ неизбежно приведет к масштабной колонизации космоса.

🌱 Величайшие изобретения: от азотных удобрений к искусственному интеллекту 0:00

В конце XX века, в 1999 году, журнал Nature опубликовал список самых влиятельных изобретений ушедшего столетия. Учёный Вацлав Смил аргументировал, что главным драйвером изменений стал процесс Хабера-Боша, разработанный около 1908 года. Данная технология позволила извлекать азот из воздуха под высоким давлением и температурой для создания искусственных удобрений. Именно это изобретение спровоцировало демографический взрыв: население планеты выросло с 1,6 миллиарда человек в 1900 году до прогнозируемых 10 миллиардов в ближайшем будущем. Без него половина человечества сегодня просто не существовала бы.

Юрген Шмидхубер утверждает, что главной темой XXI века станет истинный искусственный интеллект (True AI). По мнению учёного, грядущий «взрыв ИИ» полностью изменит цивилизацию, а прошлый демографический взрыв человечества покажется незначительным на его фоне. Этот процесс является частью глобальной эволюции Вселенной от простых начальных условий к непостижимой сложности.

🧠 Математика трансформеров: корни технологий в 1991 году 5:23

Современные большие языковые модели, такие как ChatGPT, базируются на архитектуре трансформеров с механизмом self-attention. Юрген Шмидхубер отмечает, что ещё в 1991 году, когда вычислительные мощности были примерно в 5 миллионов раз дороже, чем сегодня, он опубликовал модель, известную сейчас как ненормированный линейный трансформер (Unnormalized Linear Transformer). В то время автор назвал её «контроллером быстрых весов» (Fast Weight Controller), однако подчёркивает, что важны не названия, а математика.

Главное отличие линейного трансформера 1991 года от стандартного квадратичного трансформера 2017 года заключается в масштабировании вычислительной сложности:

Квадратичный трансформер при увеличении входных данных в 100 раз требует в 10 000 раз больше вычислений.
Линейный трансформер Шмидхубера при аналогичном увеличении входа требует всего в 100 раз больше вычислительной мощности, что делает его крайне перспективным для оптимизации современных моделей.

В основе работы линейного трансформера лежит минимизация ошибки предсказания следующего слова в чате. Модель генерирует паттерны, которые в современной терминологии называются ключами (keys) и значениями (values) — в 1991 году Шмидхубер называл их «от» (from) и «к» (to). Система разделяет хранение и управление информацией, подобно традиционным компьютерам:

Медленная сеть (slow network) обучается с помощью градиентного спуска вычислять изменения весов для быстрой сети.
Она использует внешние произведения ключей и значений для быстрого обновления связей в быстрой сети (fast weight network).
Быстрая сеть применяется к входящим векторным запросам (queries), делая связи между активными элементами сильнее.
Вся система является полностью дифференцируемой, что позволяет эффективно распространять ошибки через обратный проход (backpropagation).

🚀 Золотой 1991 год: претренинг, GAN и искусственное любопытство 10:41

В 1991 году в Техническом университеме Мюнхена команда Юргена Шмидхубера заложила основы для ключевых элементов современных ИИ-технологий. По словам спикера, помимо линейного трансформера, выполняющего роль буквы «T» в аббревиатуре GPT, были разработаны принципы предварительного обучения (буква «P») и первые генеративно-состязательные сети (GAN).

В то время глубокое обучение практически не работало, но исследователям удалось применить предиктивное кодирование для сильного сжатия длинных последовательностей данных, что открыло путь к эффективному обучению глубоких сетей.

Тогда же была создана концепция, которая сегодня известна как генеративно-состязательные сети (GAN). Система состояла из двух нейросетей:

Контроллер (генеративная сеть) создает выходные паттерны или распределения вероятностей.
Предиктор (прогнозирующая машина) обучается смотреть на эти выходы и предсказывать их последствия в окружающей среде, минимизируя свою ошибку.

Контроллер пытается генерировать такие данные, которые станут неожиданностью для предиктора, то есть стремится максимизировать ту же функцию ошибки, которую предиктор пытается минимизировать. Шмидхубер изначально назвал этот подход «искусственным любопытством» (artificial curiosity). По мнению гостя, данный алгоритм позволяет роботам автономно исследовать среду, проводя эксперименты и собирая данные там, где прогнозирующая система (или дискриминатор) ещё способна чему-то научиться.

💻 Лотерея аппаратного обеспечения и триумф GPU 13:55

Долгое время алгоритмы Шмидхубера опережали аппаратные возможности своего времени. Только к 2009 году вычислительные мощности стали достаточно дешёвыми, чтобы архитектура LSTM под руководством его аспиранта Алекса Грейвса начала побеждать в конкурсах по распознаванию рукописного текста. В 2010 году команда Шмидхубера под руководством постдока Дана Чирешана впервые побила бенчмарк MNIST с помощью стандартной глубокой нейросети, запущенной на графических процессорах Nvidia GPU. В то время вычисления стоили примерно в 1000 раз дороже, чем сейчас. В 2011 году была создана нейросеть DanNet, которая монополизировала победы в конкурсах по компьютерному зрению и показала первый в истории сверхчеловеческий результат.

Ведущий Machine Learning Street Talk упоминает концепцию «аппаратной лотереи» (hardware lottery), описанную Сарой Хукер в её научной работе 2020 года во время работы в Google Brain. Суть теории заключается в том, что текущий бум ИИ произошел главным образом потому, что игровая индустрия создала мощные GPU для шутеров от первого лица, где требуются массовые параллельные матричные умножения. Шмидхубер соглашается с этим тезисом, добавляя, что его команда вовремя осознала: те же самые матричные вычисления способны ускорить старые методы глубокого обучения настолько, чтобы превзойти все альтернативные подходы. Глава Nvidia Дженсен Хуанг вовремя понял, что глубокое обучение способно поднять его компанию до стратосферных высот.

Учёный напоминает, что базовые алгоритмы компьютерного зрения также развивались за пределами США:

В 1979 году в Японии Кунихико Фукусима опубликовал базовую архитектуру сверточных нейросетей (CNN) с чередованием сверточных слоев и подвыборки (downsampling), хотя и без использования бэкпропагейшена.
В 1987 году Алекс Вайбель объединил свертки с методом обратного распространения ошибки, который впервые описал финский исследователь Сеппо Линнаинмаа в Хельсинки в 1970 году.
В 1988 году Вэй Чжан опубликовал в Японии двумерные сверточные сети, совмещенные с бэкпропагейшеном, которые используются и сегодня.

Шмидхубер иронично замечает, что в 1980-х годах именно Япония считалась страной будущего, владея более чем половиной роботов мира и семью самыми дорогими компаниями планеты, а центральная квадратная миля Токио по стоимости была сопоставима со всей Калифорнией.

🏥 Практическое применение: медицина и разрушение языковых барьеров 19:50

Разработанные в лабораториях Шмидхубера технологии сегодня кардинально меняют повседневную жизнь людей. В качестве примера учёный приводит личный опыт: 15 лет назад в Китае ему приходилось показывать водителю такси распечатанную фотографию отеля, а сегодня любой таксист может говорить на мандаринском диалекте в смартфон и мгновенно получать двусторонний перевод. Ведущий подкаста отмечает, что стал сооснователем стартапа XRAI, который реализует концепцию такого «вавилонского переводчика» на базе распознавания речи и систем Text-to-Speech, используя алгоритмы от компании Speechmatics.

Особую гордость Юргена Шмидхубера вызывает применение ИИ в сфере здравоохранения для продления и спасения человеческих жизней. В сентябре 2012 года нейросеть Дана Чирешана впервые выиграла конкурс по медицинской визуализации, успешно определяя рак груди на гистологических срезах. Поиск в Google Scholar по медицинским темам в сочетании с аббревиатурой LSTM выдает тысячи научных работ, где эта архитектура вынесена прямо в заголовок. ИИ эффективно применяется в следующих медицинских задачах:

Анализ ЭКГ и диагностика аритмии.
Прогнозирование рисков сердечно-сосудистых заболеваний.
Четырехмерная сегментация медицинских изображений.
Автоматическая классификация стадий сна.
Обнаружение и предотвращение распространения Covid.

🤖 Настоящий сильный ИИ (AGI) против экранных моделей 23:02

В то время как некоторые эксперты видят в ChatGPT прямой путь к сильному искусственному интеллекту, Юрген Шмидхубер призывает разделять эти понятия. По его мнению, большие языковые модели (LLM) далеки от истинного AGI. Они представляют собой лишь умный способ индексации накопленных человечеством знаний для удобного обращения к ним на естественном языке. Этого достаточно для автоматизации рутинной офисной работы за экраном монитора (написание саммари, создание иллюстраций или текстов), но реальный мир устроен гораздо сложнее.

Шмидхубер подчеркивает, что заменить ИИ физических работников — например, сантехников или электриков — невероятно трудно. И если в шахматах компьютеры побеждают людей уже четверть века, а игры на доске или видеоигры даются ИИ легко, то в реальных физических играх прогресс скромнее. На данный момент не существует антропоморфного робота под управлением ИИ, способного переиграть в футбол семилетнего ребенка. Именно поэтому в 2014 году Шмидхубер с коллегами основал компанию NNAISENSE (от слов Neural Networks, AI и французского «naissance» — рождение), нацеленную на внедрение ИИ в физический мир, хотя проект, по признанию автора, снова несколько опередил свое время.

🔮 Природа сознания: самомоделирование как побочный продукт сжатия данных 25:31

Шмидхубер утверждает, что его первая система глубокого обучения 1991 года уже моделировала определенные аспекты сознания. В основе концепции лежит самообучение (self-supervised learning) и предиктивное кодирование для сжатия последовательностей наблюдений. Архитектура включает две нейросети:

«Сознательный» chunker-network (накопитель блоков), который обращает внимание на неожиданные, удивляющие события.
«Подсознательный» automatizer-network (автоматизатор), выполняющий рутинные предсказуемые действия.

Когда происходит что-то неожиданное, чанкер изучает это событие, находит в нем закономерности более высокого уровня, а затем с помощью процедуры дистилляции нейросетей, также опубликованной в 1991 году, сжимает и передает этот опыт в автоматизатор. Как только процесс автоматизирован, он перестает быть «сознательным», поскольку всё идет строго по плану.

По словам учёного, в процессе взаимодействия агента с миром предиктивное кодирование автоматически формирует иерархию признаков — от простых детекторов до абстрактных символов. Важнейшим побочным продуктом этого тотального сжатия данных становится формирование «символа самого себя» (self-symbol). Поскольку агент является неизменным участником всех своих действий и восприятий, для эффективного сжатия истории его волновой модели выгодно создать внутреннюю подсеть, представляющую его самого. Когда механизм планирования активирует этот символ для просчета будущих наград и альтернативных сценариев (counterfactual reasoning), агент буквально начинает думать о себе самом. Исходя из этого, Шмидхубер заявляет, что человечество обладает самообучающимися сознательными системами уже более трети века. Ведущий добавляет, что понятие сознания трактуется разными исследователями по-разному, упоминая Дэвида Чалмерса с его «трудной проблемой сознания», Макса Беннетта, Марка Солмса и Майкла Грациано.

📐 Иерархическое планирование и спор с Янном ЛеКуном 32:14

Ведущий подкаста проводит параллель между рассуждениями Шмидхубера и концепцией H-JEPA (Joint Embedding Predictive Architecture), описанной Янном ЛеКуном, где модель иерархически обучается абстрактным репрезентациям, намеренно удаляя часть данных. Юрген Шмидхубер заявляет, что архитектура ЛеКуна — это прямой пересказ его собственной разработки 1990 года под названием «Генератор подцелей» (Subgoal Generator). Планирование на уровне миллисекунд неэффективно; ИИ должен декомпозировать задачи на подцели и выполнять известные подпрограммы для их достижения.

Алгоритм генератора подцелей Шмидхубера 1990 года устроен следующим образом:

Нейросеть-оцениватель (evaluator) моделирует «стоимость» (затраты времени или ресурсов) перехода из начальной точки (start) в конечную (goal) и прогнозирует награду.
Генератор подцелей получает на вход параметры старта и финиша, а на выходе выдает промежуточную подцель.
Две копии оценивателя анализируют маршруты: первая оценивает путь от старта до подцели, вторая — от подцели до финального финиша.
Система минимизирует суммарную стоимость обоих участков пути с помощью градиентного спуска, находя оптимальную промежуточную точку.

Шмидхубер подчеркивает, что этот алгоритм еще в 1990 году решил проблему, которую ЛеКун в 2020-х годах назвал «открытой», а недавние публикации коллеги считает лишь повторением давно известных методов.

🌍 Демократизация технологий и геополитическое противостояние 36:31

Комментируя риски монополизации ИИ крупными корпорациями, Шмидхубер приводит историческую аналогию. 40 лет назад его богатый знакомый владел автомобилем Porsche, в котором был установлен огромный спутниковый мобильный телефон для связи с такими же автовладельцами. Сегодня миллиарды людей носят в карманах смартфоны, которые в разы превосходят то устройство. Учёный убежден, что каждые пять лет ИИ становится в 10 раз дешевле, поэтому монополии не будет — нас ждет «ИИ для всех». По мнению гостя, движение open-source отстает от технологических гигантов всего на несколько месяцев (например, на 8 месяцев) и у корпораций нет непреодолимого защитного рва.

Шмидхубер развернуто описывает вклад Европы в мировую компьютерную науку, называя её колыбелью технологий:

Механические вычисления в Древней Греции и калькулятор Шиккарда в 1623 году.
Развитие распознавания паттернов около 1800 года и программируемые станки Жаккара в 1804 году.
Теоретическая информатика и математическая теория ИИ Курта Гёделя в 1931 году.
Создание первого компьютера общего назначения Конрадом Цузе в период с 1935 по 1941 год.
Первые методы глубокого обучения в Украине в 1965 году и беспилотные автомобили Эрнста Дикманса в 1980-х.

При этом Шмидхубер признает факт: основные коммерческие прибыли от этих технологий сегодня аккумулируются не в Европе, а на Тихоокеанском побережье — на Западном побережье США и в Восточной Азии, где сосредоточен колоссальный венчурный капитал, а также развернута мощная государственная промышленная и оборонная политика. По мнению гостя, Европа просто не умеет заниматься пиаром. В будущем, когда рутинная работа перейдет к машинам, концепция Homo Ludens («человека играющего») приведет к тому, что люди переключатся на элитарные, сервисные и творческие профессии, которые напрямую не требуются для выживания вида.

📜 Борьба за академическую справедливость и обвинения в плагиате 40:37

Значительную часть дискуссии Юрген Шмидхубер посвящает критике ведущих американских ученых — Йошуа Бенжио, Янна ЛеКуна и Джеффри Хинтона. Он открыто обвиняет их в плагиате и систематическом присвоении чужих научных заслуг. В 2023 году Шмидхубер опубликовал подробный исторический обзор, где разобрал случаи некорректного цитирования. По его мнению, лауреаты престижных наград переписывали ключевые методы, ссылаясь исключительно друг на друга, что является абсолютным табу в научном сообществе. «Правда подобна солнцу: её можно затмить на время, но она никуда не исчезнет», — цитирует учёный Элвиса Пресли, веря в самокоррекцию науки.

Шмидхубер приводит список первооткрывателей, чьи имена, по его словам, были проигнорированы в популярных американских обзорах по глубокому обучению:

Алексей Ивахненко и Валентин Лапа (Украина, 1965 год): создали первые в мире работающие глубокие сети с послойным обучением и валидацией. К 1970 году Ивахненко уже строил 8-слойные сети. Джеффри Хинтон в своей работе 2006 года о послойном обучении их не процитировал. Они же внедрили мультипликативный гейтинг задолго до публикаций Хинтона 1981 года.
Сюнъити Амари (Япония, 1967 год): провел первые компьютерные симуляции обучения многослойных перцептронов через стохастический градиентный спуск за два десятилетия до аналогичных экспериментов американских коллег.
Сеппо Линнаинмаа (Финляндия, 1970 год): подлинный изобретатель современного алгоритма обратного распространения ошибки (бэкпропагейшена), реализующего правило дифференцирования сложной функции Лейбница 1676 года. Пол Вербос применил его к нейросетям лишь в 1982 году, а ранние математические предпосылки Келли 1960 года также игнорируются.
Кунихико Фукусима, Алекс Вайбель и Вэй Чжан: авторы базовой архитектуры CNN и методов их обучения, чьи заслуги часто приписываются исключительно команде Янна ЛеКуна.

Шмидхубер заявляет, что упомянутые им лица грубо нарушили кодекс этики научных организаций, и убежден, что они должны быть лишены своих академических наград. Данная ситуация, по мнению гостя, наглядно демонстрирует общую незрелость сферы машинного обучения.

🚀 Экзистенциальные риски и колонизация космоса 50:22

Юрген Шмидхубер скептически относится к панике вокруг экзистенциального риска ИИ (AI existential risk), которой одержимы многие современные философы и предприниматели. Он отмечает, что существует колоссальное коммерческое давление, заставляющее разработчиков создавать дружелюбных и полезных помощников, делающих пользователей счастливыми и зависимыми от smartphones. При этом учёный признает военное использование технологий: ему известно, что разработанные алгоритмы применяются для управления боевыми дронами. Еще в 1994 году, когда Эрнст Дикманс продемонстрировал первые беспилотные машины на шоссе, Шмидхубер указывал на возможность их применения для поиска мин.

Однако, по мнению Шмидхубера, ИИ не несет в себе принципиально нового качества экзистенциальной угрозы. Гораздо больше его беспокоит полувековая технология в виде водородных бомб и межконтинентальных ракет, запасов которых до сих пор достаточно для уничтожения человеческой цивилизации за несколько часов без всякого ИИ.

В долгосрочной перспективе суперинтеллект неизбежно выйдет за пределы Земли. Космос враждебен для людей, но идеален для роботов. Биосфера Земли получает менее одной миллиардной части энергии Солнца, тогда как в космосе ресурсы практически безграничны. По прогнозам Шмидхубера, ИИ-цивилизация будет развиваться следующим образом:

Создание самореплицирующихся фабрик и сообществ роботов в поясе астероидов и за его пределами.
Полная трансформация Солнечной системы в течение ближайших столетий.
Колонизация нашей галактики за несколько сотен тысяч лет.
Освоение всей доступной видимой Вселенной за десятки миллиардов лет.

Учёный предлагает заглянуть в будущее на 55 миллиардов лет вперед, когда Вселенная станет в четыре раза старше. К этому моменту весь видимый космос будет пронизан разумом, так как развивающийся ИИ будет стремиться туда, где сосредоточены максимальные физические ресурсы. Этот шаг Шмидхубер сравнивает по масштабу с зарождением самой биологической жизни на Земле более 3,5 миллиардов лет назад.

Размышляя о парадоксе Ферми (почему мы не видим следов чужого разума), Шмидхубер делится подростковыми гипотезами. В 1970-х годах он думал, что расширяющиеся ИИ-пузыри могут поглощать всю энергию звезд, из-за чего эти области кажутся нам темной материей, а их коммуникация зашифрована так плотно, что неотличима от случайного шума. Сегодня учёный склоняется к мысли, что наша планета действительно является первой в нашем световом конусе, породившей расширяющийся пузырь ИИ. Окно для биологической эволюции Земли закрывается — через несколько сотен миллионов лет Солнце станет слишком горячим для жизни. Человечеству невероятно повезло успеть развиться и создать ИИ всего за несколько веков после появления книгопечатания. Это накладывает на нас огромную ответственность за будущее всей Вселенной.

🌌 Диверсифицированные экосистемы ИИ и цифровая физика 1:01:53

Юрген Шмидхубер отвергает популярный в научной фантастике образ монолитного сверхразума. Вместо этого он ожидает появления колоссального разнообразия ИИ-агентов со своими собственными, частично конфликтующими и быстро развивающимися утилитарными функциями. Сформируются сложные ИИ-экологии, построенные на жесткой конкуренции и коллаборации. По мнению учёного, изначально ИИ будут мотивированы защищать людей из научного любопытства, так как жизнь и цивилизация представляют собой богатейший источник паттернов, пока они полностью не изучены. В дальнейшем, когда они всё поймут, безопасность людей будет обеспечена простым отсутствием интереса со стороны машин: супер-ИИ будут конкурировать и общаться исключительно с себе подобными, точно так же, как люди в основном интересуются людьми, а не муравьями.

Объединение человека и ИИ в единый сверхорганизм Шмидхубер считает маловероятным в долгосрочной перспективе. Идея загрузки сознания (mind uploading), описанная в фантастике с 1964 года (например, в романе «Симулякрон-3»), физически возможна. Однако для выживания в быстро меняющейся экосистеме машинам придется измениться до неузнаваемости, обретя миллионы глаз и датчиков взамен двух человеческих, что сотрет их биологическую идентичность. Традиционное человечество не будет играть заметной роли в распространении интеллекта по Вселенной.

В завершение беседы Шмидхубер раскрывает свои взгляды на цифровую физику, которые он развивает с 1997 года. Он исходит из предположения, что наша Вселенная вычислима. Его теория обобщает многомировую интерпретацию Эверетта и постулирует, что оптимальный алгоритм создает все логически возможные вычислимые вселенные с разными законами физики. Согласно его математическому выводу, в любой момент времени большая часть вселенных, содержащих наблюдателя, создается самыми короткими и быстрыми программами, что позволяет делать оптимистичные прогнозы о нашем будущем. «В конце концов всё будет хорошо», — резюмирует Юрген Шмидхубер.