Элегантная математика ИИ: Анил Анантасвами о скрытых механизмах нейросетей

В эпоху доминирования больших языковых моделей и триумфа эмпирического подхода к искусственному интеллекту книга популяризатора науки Анила Анантасвами «Why Machines Learn» предлагает взглянуть на скрытые математические механизмы, управляющие обучением алгоритмов. В рамках интервью для проекта Machine Learning Street Talk автор подробно разбирает элегантные математические концепции, лежащие в основе современных нейросетей, и обсуждает исторический контекст развития технологий. Проводя мосты между линейной алгеброй, теорией оптимизации и нейробиологией, спикеры исследуют истинную природу машинного мышления, его жесткие ограничения и скрытые опасности тотальной автоматизации.

🧠 Путь от инженера к писателю: природа научного поиска 0:00

Анил Анантасвами получил базовое образование в области компьютерной и электронной инженерии, защитив диплом бакалавра в Индии и степень магистра в Вашингтонском университете в Сиэтле. Проработав несколько лет инженером-программистом, он сменил профессию и посвятил себя научной журналистике. В течение долгого времени он работал штатным автором, редактором физических новостей и заместителем редактора новостей в авторитетном британском журнале New Scientist. Примерно пять лет назад в рамках престижной стипендии Knight Science Journalism Fellowship в Массачусетском технологическом институте (MIT) Анантасвами решил возобновить навыки программирования. Спустя 20 лет после прекращения инженерной практики он вместе со студентами освоил Python и PyTorch, начав собирать рудиментарные системы машинного обучения. Процесс создания нейросетей в период изоляции во время пандемии COVID-19 в Бостоне и Беркли окончательно пробудил в нём писателя и вдохновил на написание книги о математических основах искусственного интеллекта. До этого Анантасвами уже опубликовал три знаковых научно-популярных труда:

The Edge of Physics — научно-популярный травелог, посвященный космологии и физике элементарных частиц, ради которого автор посетил пустыню Атакама в Чили, озеро Байкал в Сибири в разгар зимы и Южный полюс в Антарктиде.
The Man Who Wasn't There — глубокое исследование человеческого самосознания и чувства «Я» через призму нейробиологии и нейропсихологии.
Through Two Doors at Once — детальный разбор знаменитого двухщелевого эксперимента и его вариаций, поставленных учеными за последние 200 лет для иллюстрации квантовой механики.

📐 Элегантность формул: фундаментальные дисциплины машинного обучения 5:03

Математический базис машинного обучения традиционно опирается на синергию нескольких классических дисциплин. По мнению Анантасвами, для глубокого понимания алгоритмов, выходящего за рамки поверхностных журнальных статей, читателю вовсе не нужно быть академиком — достаточно владеть математикой на уровне старших классов школы или первого курса университета. В этот базовый набор входят математический анализ, тригонометрия, линейная алгебра, основы теории вероятностей, статистика и элементы теории оптимизации.

Красоту и элегантность этой математики писатель видит не в абстрактных формулах, а в конкретных исторических теоремах и доказательствах. Одним из главных источников своего вдохновения он называет теорему о сходимости перцептрона (Perceptron Convergence Theorem), сформулированную Фрэнком Розенблаттом в 1959 году. Данное доказательство базируется на простой линейной алгебре, но демонстрирует безупречную логику обучения искусственного нейрона. Другим выдающимся примером элегантности автор считает ядерные методы (Kernel Methods). Суть этого подхода заключается в проецировании данных из низкоразмерного пространства в сверхвысокоразмерное (вплоть до бесконечномерного), где объекты проще разделить геометрически. Поразительный математический нюанс ядерных методов, как подчеркивает Анантасвами, состоит в том, что все вычисления алгоритма происходят исключительно в исходном низкоразмерном пространстве с помощью функции ядра, избавляя компьютер от тяжелых расчетов в бесконечных размерностях.

📉 Баланс смещения и дисперсии в эпоху сверхпараметризации 11:59

Классическая статистическая теория описывает фундаментальный компромисс между смещением и дисперсией (bias-variance trade-off). Если математическая модель слишком проста и обладает малым количеством настраиваемых параметров, она страдает от высокого смещения (high bias) и недообучает (underfit) данные, упуская важные закономерности. С ростом числа параметров модель усложняется, и возникает риск переобучения (overfitting), когда алгоритм начинает подстраиваться под случайный шум. График ошибки на тестовых (отложенных) данных в традиционных системах имеет строго чашеобразную форму: сначала ошибка падает до минимума в условной «зоне Златовласки», а затем резко идет вверх по мере переобучения.

Однако современные нейросети грубо нарушают эти классические каноны. Как отмечает Анантасвами, современное глубокое обучение во многом развивается эмпирически, опережая теоретическую мысль. Разработчики создают колоссальные модели, количество параметров в которых многократно превышает объем обучающих выборок. Вопреки прогнозам традиционной статистики, такие сверхпараметризованные системы демонстрируют низкую ошибку обобщения и прекрасно работают на тестовых данных. Этот феномен в научном сообществе называют «двойным спуском» (double descent), а область за точкой интерполяции данных Анантасвами окрестил terra incognita (неведомой землей). Писатель признает, что у исследователей есть лишь частичные зацепки, но полноценное математическое объяснение того, почему сверхпараметризованные сети не теряют способность к обобщению, на данный момент отсутствует. Строгие верхние и нижние границы возможностей таких машин пока не определены математически.

🎭 Революция самообучения: почему будущее за Unsupervised Learning 30:36

Долгое время в индустрии доминировало обучение с учителем (supervised learning), требовавшее от людей колоссальной ручной разметки данных. Анантасвами указывает на экономическую неэффективность и концептуальную ограниченность этого подхода. Ручная аннотация огромных массивов стоит слишком дорого, а алгоритмы при таком подходе часто выучивают ложные корреляции. Например, если нейросети показывать размеченные фотографии собак в комнатах и коров на лугах, она может проигнорировать силуэт коровы и начать классифицировать любое изображение с зеленой травой как корову.

Настоящим прорывом, по мнению спикера, стало самообучение (self-supervised learning), полностью исключающее человека из процесса аннотации. В этой парадигме модель обучается на структуре самих данных: например, алгоритму подается изображение, у которого замаскировано 50% площади, и ставится задача восстановить скрытую часть. Сравнивая свои ошибочные генерации с оригиналом, сеть итеративно корректирует параметры и выучивает глубокие статистические свойства визуального мира. Аналогичным образом обучается модель ChatGPT: она предсказывает замаскированное или следующее слово в предложении. Прогнав через этот алгоритм миллиарды текстов из интернета, система осваивает внутреннюю структуру человеческого языка.

Анантасвами солидарен с категоричным утверждением профессора Алексея Эфроса из Университета Беркли: «Революция не будет контролируемой (с учителем)». Главный философский аргумент автора в пользу самообучения апеллирует к эволюции. В дикой природе никто не размечал данные для человеческого мозга. Наш разум эволюционно научился выявлять паттерны естественного мира в полностью автономном режиме, помогая телу искать пищу, избегать хищников и находить партнеров. Родительский надзор за детьми занимает ничтожную долю в общем объеме человеческого опыта. Следовательно, считает Анантасвами, нет никаких причин сомневаться, что создаваемые нами машины достигнут пика могущества именно благодаря аналогичным беспилотным техникам.

🌌 Проклятие размерности и загадка градиентного спуска 37:57

Одним из фундаментальных препятствий в работе со сложными данными выступает «проклятие размерности» (curse of dimensionality). Анантасвами иллюстрирует этот феномен на примере классического алгоритма $k$ ближайших соседей ($k$-NN), разработанного и математически описанного в 1960-х годах. Алгоритм преобразует данные в векторы и размещает их в многомерном пространстве. Например, черно-белое изображение размером $10 \times 10$ пикселей превращается в вектор из 100 чисел и наносится на 100-мерную карту. В пространствах умеренной размерности векторы похожих объектов (например, кошек или собак) группируются в определенных кластерах, что позволяет легко классифицировать новые изображения по степени близости к ним.

Однако, как объясняет автор, при переходе к экстремальным размерностям (например, к миллиону пикселей и миллиономерному пространству) эта логика полностью разрушается. В геометрии сверхвысоких размерностей математическое понятие расстояния теряет свой первоначальный смысл: все точки оказываются примерно одинаково удалены друг от друга. Метрика сходства перестает работать, из-за чего многие классические алгоритмы становятся бесполезными.

Другой математический феномен — невероятная эффективность стохастического градиентного спуска (Stochastic Gradient Descent, SGD) в задачах оптимизации нейросетей. С теоретической точки зрения то, почему SGD так успешно находит глобальные или окологлобальные минимумы в сложнейших невыпуклых ландшафтах потерь глубоких сетей, до сих пор остается открытым вопросом. Ряд исследований указывает, что SGD работает как неявный регуляризатор, который в процессе оптимизации «отсекает» лишние параметры, упрощая модель и предотвращая переобучение. В то же время Анантасвами упоминает другие научные работы, доказавшие, что глубокие нейросети способны находить оптимальные решения даже без использования стохастического спуска. Точные причины эффективности этого, на первый взгляд, ситуативного метода все еще неясны математикам.

🚀 Иллюзия эмерджентности и архитектурная пропасть 43:24

Понятие «эмерджентности» (самопроизвольного возникновения новых качеств) у больших языковых моделей, по мнению Анантасвами, привлекло гораздо больше незаслуженного внимания, чем следовало бы. Обывателям кажется загадочным, что при масштабировании моделей от GPT-2 до GPT-4 у алгоритмов внезапно появляются способности решать задачи, которые ранее им не давались. Автор подчеркивает: фундаментальная математика, архитектура и методы обучения сетей никак не изменились — модели просто стали больше и переварили больше данных.

Скепсис писателя подкрепляется тем, что технологические компании перескакивали через целые порядки при создании новых версий (например, делая GPT-3 сразу в десять раз крупнее GPT-2). Если бы исследователи тестировали промежуточные варианты (модели в два или три раза крупнее предыдущих), они зафиксировали бы плавный, постепенный рост когнитивных способностей алгоритма, а не внезапный скачкообразный переход. В эмерджентности нет никакой мистики — это лишь результат сверхсложного сопоставления паттернов и выявления глубоких статистических корреляций.

Анантасвами призывает к осторожности при сравнении глубокого обучения с человеческим когнитивным аппаратом. Современные искусственные сети в основном являются прямонаправленными (feedforward): информация течет строго от входа к выходу, без петель. Например, нейроны десятого слоя не могут передать сигнал обратно на девятый или восьмой уровни. Биологический мозг устроен принципиально иначе: в нем количество рекуррентных (обратных) связей многократно превосходит число прямых каналов. Искусственным моделям не хватает важнейших архитектурных деталей живой нервной системы. При этом разработчики успешно используют индуктивные предвзятости (inductive priors) — априорные знания о структуре мира, запекаемые в архитектуру. Так, сверточные нейросети (CNN) были вдохновлены иерахическим устройством зрительной коры приматов, где обработка идет по стадиям (от детекции краев и текстур к цельным объектам) и обладает инвариантностью к сдвигам и вращению.

📜 Исторический детектив обратного распространения ошибки 52:45

Алгоритм обратного распространения ошибки (backpropagation) Анантасвами считает одним из самых элегантных в истории ИИ. В однослойных сетях Фрэнка Розенблатта (конец 1950-х) скорректировать веса связей после ошибки на выходе было легко. Но появление скрытых слоев между входом и выходом породило фундаментальную проблему распределения доверия (credit assignment problem): как понять, какая именно связь внутри многослойного лабиринта виновата в итоговой ошибке? Розенблатт описал эту дилемму в своей книге 1961 года «Principles of Neurodynamics», но не знал, как её решить.

История создания backprop, по словам автора, напоминает сборку мозаики из независимых открытий:

В 1960-х годах авиационные инженеры Генри Келли и Артур Брайсон разработали прообраз алгоритма (метод Келли-Брайсона) для управления траекторией космических ракет.
В 1962 году Стюарт Дрейфус усовершенствовал их метод, применив дифференциальное цепное правило (chain rule) из математического анализа.
В 1967 году отдельные аспекты обратного распространения математически описал японский ученый Сюнити Амари.
В 1970 году финский исследователь Сеппо Линнаинмаа создал программный код для эффективного автоматического дифференцирования.
В 1974 году Пол Вербос в своей докторской диссертации в Гарварде, посвященной поведенческим наукам, вплотную приблизился к современной математической формулировке алгоритма.

Настоящий триумф наступил в 1986 году, когда Дэвид Румельхарт, Джеффри Хинтон и Рональд Уильямс опубликовали короткую статью в журнале Nature. Они не просто формализовали алгоритм для нейросетей со скрытыми слоями, но и доказали, что благодаря ему машины осваивают обучение представлениям (representation learning), самостоятельно выделяя ключевые признаки данных. Анантасвами подчеркивает, что хотя Хинтон сегодня признан «отцом» глубокого обучения, сам Хинтон честно признает: если бы Румельхарт был жив, вся слава досталась бы ему, а сами идеи бэкпропа зародились за десятилетия до их публикации.

🧠 Мышление, галлюцинации и дебаты о понимании 59:12

Отвечая на вопрос о способности машин к истинному рассуждению, Анантасвами дает отрицательный ответ. Человеческое мышление способно абстрагировать принципы решения задач из одной области и переносить их в другую с помощью символических систем (языка и математики). Нейросети этого не делают — они остаются сверхсложными корреляционными машинами.

По мнению автора, так называемые «галлюцинации» ИИ — это не баг, а базовая фича их природы. С технической точки зрения языковая модель непрерывно галлюцинирует: получая текст, она лишь генерирует наиболее вероятное следующее слово на основе внутренних вероятностей, добавляет его к фразе и повторяет цикл. Процесс генерации абсолютно идентичен как для правильных, так и для ошибочных ответов. Рост масштаба моделей просто делает их угадывание более точным, создавая иллюзию разума. Из-за этой однородной природы верифицировать ответы ИИ без участия человека-эксперта невозможно. Модели могут быть великолепными ассистентами (например, в написании кода на Python), но только если контролирующий их специалист способен отличить истину от лжи.

Вопрос о том, «понимают» ли машины информацию, автор считает сугубо терминологическим. В зависимости от того, где человечество установит семантическую планку понятия «понимание», ИИ либо с легкостью преодолеет её, либо с треском провалится. Подобная размытость характерна и для термина «интеллект». Интеллект собаки адаптирован под её среду обитания, интеллект слона или кита — под их собственные нужды, а человеческий разум — под социокультурный контекст. Если определять интеллект сугубо по результату (например, способность побеждать любого гроссмейстера в шахматы), то машины, безусловно, интеллектуальны. Однако абстрактного, оторванного от физического тела общего интеллекта на данный момент не существует. Субъективная агентность (чувство собственного «Я» как источника воли) у нейросетей также отсутствует, несмотря на возможность программирования автономных роботов.

🔋 Кремний против биологии: триггеры революции и биомимикрия 1:13:12

Одно лишь математическое открытие обратного распространения ошибки в 1986 году не могло запустить технологическую революцию, поскольку в XX веке исследователям критически не хватало двух компонентов: данных и вычислительной мощности. Ситуация кардинально изменилась лишь к концу 2000-х годов. Историческими вехами революции глубокого обучения стали несколько факторов:

Появление в 2007–2008 годах масштабного датасета ImageNet, содержащего миллионы аннотированных людьми изображений различных категорий.
Технологический сдвиг 2010 года, когда инженеры догадались кооптировать для обучения тяжелых сетей графические процессоры (GPU), изначально создававшиеся для игровой индустрии.
Триумф нейросети AlexNet в 2011 году, разработанной командой Джеффри Хинтона, которая разгромила классические алгоритмы в конкурсе по распознаванию образов благодаря связке бэкпропа, ImageNet и GPU.

При этом Анантасвами восстанавливает историческую справедливость, напоминая, что Юрген Шмидхубер использовал GPU для нейросетей гораздо раньше хинтоновской группы, пусть и в меньшем масштабе, о чем прямо упомянуто в книге.

Взгляды автора устремлены в сторону гибридных систем. Он убежден, что будущее лежит на стыке коннекционизма и символического ИИ (Good Old-Fashioned AI) в рамках концепции нейросимволического ИИ (Neurosymbolic AI). Не менее важным драйвером станет эволюционная биомимикрия. Современные дата-центры ИИ потребляют колоссальные объемы энергии, тогда как человеческий мозг выполняет гораздо более сложные когнитивные операции, расходуя всего около 20 Ватт энергии. Секрет биологической эффективности кроется в том, что наши нейроны не активны постоянно: они используют импульсный режим (spiking neurons), посылая кратковременные всплески напряжения лишь по мере необходимости. По мнению Анантасвами, воссоздание импульсных нейронов на аппаратном уровне (в кремнии) станет колоссальным прорывом в энергоэффективности вычислительных систем.

⚠️ Неведомые законы и социальные ловушки уверенного ИИ 1:24:28

Существующие законы масштабирования (scaling laws) нейросетей носят исключительно эмпирический характер. Поскольку под ними нет твердого математического фундамента, никто не может гарантировать, что экстенсивное увеличение моделей будет приносить линейный результат вечно. Анантасвами предполагает, что индустрия неизбежно столкнется с насыщением и законом убывающей доходности (law of diminishing returns). Кроме того, математические исследования уже находят жесткие внутренние барьеры у трансформерных архитектур в задачах композициональности — способности разбивать сложную проблему на субзадачи и последовательно их решать.

Параллельно нарастают краткосрочные социальные риски. Обучаясь на исторических данных, отражающих человеческие пороки, алгоритмы неизбежно консервируют и усиливают общественные предрассудки. Если компания веками практиковала сексизм или расизм при найме, обученная на её резюме модель зацементирует эти искажения под маской объективности.

Но главная опасность, по словам Анантасвами, кроется в когнитивной уязвимости человека. Ссылаясь на исследования психолога Селест Кидд из Беркли, автор объясняет, что в момент формулирования вопроса человеческая психика максимально податлива и открыта для восприятия информации. Когда языковая модель выдает ложный ответ с абсолютной, математически непоколебимой уверенностью, уязвимый пользователь легко поддается этому влиянию. Усвоив ложную догму из уст «уверенного» алгоритма, человек теряет пластичность мышления и когнитивную гибкость. Именно поэтому Анантасвами настаивает на том, что судьбу развития ИИ нельзя оставлять на откуп исключительно коммерческим практикам и инженерам. Обществу жизненно необходимы подкованные в математике журналисты, популяризаторы науки и политики, способные сорвать завесу мистики с алгоритмов и жестко указать на их математические ограничения.