Экономика кремния: как физика памяти ограничивает развитие ИИ

Соотношение вычислительной мощности к пропускной способности памяти стало фундаментальной константой, определяющей архитектуру всей индустрии ИИ и заставляющей лаборатории сознательно нарушать законы масштабирования. Чтобы сделать инференс дешевле, инженеры переобучают модели в сотни раз дольше необходимого, превращая дефицитную видеопамять в главный актив эпохи. Этот глубокий технический разбор объясняет, как физические ограничения «железа» — от веса серверных стоек до сетевых задержек — диктуют правила игры в гонке за сверхразумом.

🚀 Геометрия инференса: экономика батчинга и аппаратные пределы 1:05

В индустрии искусственного интеллекта прогресс часто воспринимается как магическое улучшение алгоритмов, однако за кулисами процесс работы больших языковых моделей (LLM) жестко продиктован законами физики и экономики оборудования. Райнер Поуп (Reiner Pope) подчеркивает, что понимание того, почему модели стоят именно столько и работают с такой задержкой, начинается с анализа того, как GPU «переваривает» данные . Ключевым рычагом в этом процессе является батчинг (batching) — объединение нескольких запросов пользователей в одну группу для одновременной обработки.

Экономика батчинга: связь латентности и стоимости 1:05

При работе нейросети существуют две фундаментальные операции: чтение весов модели из памяти (HBM) и выполнение вычислений (FLOPs) на тензорных ядрах чипа. Главная проблема инференса заключается в том, что чтение весов — процесс крайне «дорогой» с точки зрения времени. Если мы обрабатываем запрос одного пользователя (размер батча = 1), GPU вынужден прочитать все миллиарды параметров модели только ради того, чтобы сгенерировать один-единственный токен для этого человека .

Увеличение размера батча позволяет амортизировать эти затраты. Когда мы объединяем, например, 100 запросов, мы считываем веса один раз, но применяем их сразу к 100 токенам. С точки зрения экономики это критически важно:

Снижение стоимости: Чем больше батч, тем дешевле обходится генерация одного токена, так как стоимость аренды GPU распределяется на большее количество полезной работы .
Рост латентности: Обратной стороной является задержка. Большой батч требует больше времени на вычисления. Кроме того, возникает «эффект поезда»: если ваш запрос пришел в момент, когда «поезд» (текущий батч) уже тронулся, вам придется ждать завершения всего цикла обработки, прежде чем ваш токен попадет в следующую группу .

Существует концепция «быстрого режима» (Fast Mode), где провайдеры используют малые батчи для минимизации задержки, но берут за это высокую цену, и «медленного режима» для фоновых задач, где огромные батчи позволяют максимально снизить себестоимость .

Roofline-анализ трансформеров на кластерах GPU 1:58

Чтобы оценить эффективность системы, Райнер Поуп предлагает использовать Roofline-анализ — метод, сопоставляющий пиковую производительность вычислений и пропускную способность памяти . На современных чипах, таких как Blackwell NVL72, этот баланс определяет, будет ли ваша модель «упираться» в скорость чтения данных или в мощь самих транзисторов .

Для трансформеров время выполнения одного шага декодирования складывается из двух основных компонентов:

t_compute: Время, затрачиваемое непосредственно на перемножение матриц. Оно линейно растет с увеличением размера батча .
t_memory: Время на загрузку весов и работу с KV-кэшем. Загрузка весов — величина постоянная для любого батча, а работа с кэшем внимания растет линейно .

График производительности выглядит как «ломаная» кривая: при малых батчах мы ограничены памятью (Memory-bound), и увеличение батча почти не прибавляет задержки, но резко снижает стоимость. При достижении определенной точки система становится Compute-bound — теперь чип загружен вычислениями на 100%, и дальнейшее увеличение батча приводит к прямому линейному росту времени ожидания пользователя .

KV-кэш: механизм работы и влияние на память 5:36

Особую роль в архитектуре трансформеров играет KV-кэш (Key-Value cache). В отличие от этапа обучения (prefill), где модель видит весь текст сразу, при генерации (decode) модель выдает токены по одному. Чтобы не пересчитывать состояния всех предыдущих слов в предложении при каждом новом шаге, архитектура сохраняет их промежуточные представления в специальном кэше .

Это создает специфическую нагрузку на память:

С каждым новым сгенерированным токеном размер KV-кэша растет .
В отличие от весов модели, которые статичны, KV-кэш динамичен и зависит от длины контекста.
При очень длинных контекстах (например, 200 тысяч токенов) время на чтение этого кэша может начать доминировать над временем чтения весов самой модели .

Райнер отмечает, что хотя современные архитектуры (ранее в разговоре они кратко касались DeepSeek и использования ею Sparsity) пытаются оптимизировать этот процесс, KV-кэш остается главным «пожирателем» HBM-памяти при обслуживании большого количества пользователей одновременно .

Оптимальный размер батча и аппаратные константы 16:04

Существует ли идеальный размер батча? Райнер Поуп выводит математическую формулу баланса, приравнивая время чтения весов к времени вычислений. Ключевым параметром здесь выступает соотношение FLOPs чипа к его пропускной способности памяти .

Для современного оборудования (от H100 до архитектуры Blackwell) это соотношение составляет примерно 300–400 в единицах FP16/FP4 . В реальности это означает, что «точка перелома», где GPU начинает работать максимально эффективно, обычно находится в районе батча размером 2000-3000 токенов суммарно по всем запросам .

Значимым фактором здесь является пропускная способность: например, чипы поколения Rubin будут способны «прокачать» весь объем своей памяти примерно за 15 миллисекунд . Это задает физический предел скорости: мы не можем генерировать токены быстрее, чем электроны позволяют перемещать данные из памяти в вычислительные блоки чипа . Любая попытка сделать батч меньше этого «магического числа» делает инференс экономически менее выгодным, а любая попытка сделать его значительно больше — заставляет пользователя ждать слишком долго.

🧠 Архитектура DeepSeek: превосходство Sparsity и Mixture of Experts 27:50

В современной гонке нейросетевых вооружений эффективность определяется не только общим количеством параметров, но и тем, какую их часть мы реально используем в каждый момент времени. Райнер Поуп подчеркивает, что развитие таких моделей, как DeepSeek, вывело концепцию разреженности (sparsity) на новый уровень . Использование архитектуры Mixture of Experts (MoE) позволяет создавать гигантские по объему весов системы, которые при этом остаются вычислительно «легкими» при инференсе.

Основная идея MoE заключается в том, что вместо одного монолитного слоя (Dense MLP) мы используем набор «экспертов». Специальный алгоритм — роутер — принимает входящие токены и решает, каким именно экспертам их направить . На примере DeepSeek мы видим экстремальную реализацию этой идеи: модель может иметь сотни экспертов, но для обработки конкретного токена активируется лишь малая их часть (например, 1 из 128 или около того) .

Это создает уникальную экономическую ситуацию:

Вы платите памятью за хранение огромного количества параметров .
Но вы экономите время вычислений, так как «прогоняете» токен только через 1-2% от общей массы экспертов .

Сравнение эффективности MoE с плотными (dense) моделями показывает поразительные результаты. Согласно исследованию «Unified Scaling Laws», MoE-модель с огромным числом параметров по качеству ответов может быть эквивалентна плотной модели, которая в разы меньше её по весу, но при этом MoE требует значительно меньше флопс (вычислительных операций) для генерации одного токена . Тем не менее, как отмечает Райнер, за это приходится платить объемом VRAM: MoE-модель потребляет столько же памяти, сколько плотная модель аналогичного номинального размера, даже если большая часть её весов «спит» во время вычислений .

Expert Parallelism: топология связей и проблема All-to-All 33:37

Перенос архитектуры MoE на реальное железо сталкивается с серьезным препятствием — необходимостью интенсивного обмена данными между видеокартами. Когда токены проходят через слой роутера, они должны быть физически перемещены на тот GPU, где находится нужный «эксперт». Это порождает паттерн трафика, известный как «all-to-all» .

В типичной конфигурации серверной стойки (например, на 64 или 72 GPU) эксперты распределяются равномерно. Если у нас 64 GPU и сотни экспертов, на каждой плате может лежать по 4-8 экспертов . В момент работы роутера каждый GPU должен иметь возможность отправить данные любому другому GPU в кластере. Райнер объясняет, что именно этот фактор ограничивает эффективный размер MoE-моделей физическими границами одной стойки .

Проблема заключается в драматической разнице пропускной способности:

Внутри стойки (Scale-up): Используются сверхбыстрые соединения (например, NVLink), позволяющие GPU обмениваться данными почти со скоростью локальной памяти.
Между стойками (Scale-out): Используются стандартные сетевые решения (InfiniBand или Ethernet), которые обычно в 8 раз медленнее .

Если эксперты одной модели «размазаны» между двумя разными стойками, коммуникация All-to-All моментально становится узким местом . Задержка при передаче данных между стойками сводит на нет все преимущества быстрой активации экспертов, поэтому инженеры стремятся удерживать домен Expert Parallelism внутри одной физической единицы оборудования.

Физические лимиты кластеров: медь, вес и тепло 41:42

Когда мы переходим от теоретических моделей к проектированию систем уровня Blackwell или Rubin, ограничениями становятся не транзисторы, а законы физики. Райнер Поуп иронизирует над «математикой Дженсена» (Хуанга), но признает, что переход от Hopper к Blackwell — это во многом инженерный подвиг в области сетевой топологии и питания .

Современная стойка ИИ-серверов — это не просто шкаф с компьютерами, а сложнейший узел коммуникаций. Основные физические ограничения включают:

Кабельные джунгли: Начиная с системы Blackwell, плотность кабелей становится критической. Вес и объем медных проводов, необходимых для обеспечения NVLink-соединений между 72 GPU, настолько велики, что они буквально занимают всё свободное место в стойке .
Вес оборудования: Стойка, под завязку набитая GPU, блоками питания и системами охлаждения, становится настолько тяжелой, что возникают сложности с логистикой и прочностью фальшполов в дата-центрах .
Охлаждение: Отвод тепла от плотно скомпонованных чипов требует перехода на жидкостное охлаждение, что еще больше усложняет конструкцию лотков (trays) и ограничивает возможности масштабирования .

Именно эти физические лимиты заставляют разработчиков искать новые методы параллелизма. Вместо того чтобы бесконечно увеличивать одну стойку, инженеры комбинируют Expert Parallelism (внутри быстрой сети стойки) с другими видами распределения вычислений, стараясь минимизировать объем данных, покидающих пределы «быстрого» медного контура . Как ранее обсуждалось в контексте латентности, любая задержка на сетевом уровне напрямую превращается в доллары убытка при масштабировании на миллионы пользователей.

🧠 Стратегии масштабирования: Pipeline Parallelism и эволюция кластеров 55:55

Когда речь заходит об обучении моделей уровня GPT-5 или Claude 3, одной из главных проблем становится их физический размер. Модель перестает помещаться не то что в память одного GPU, но даже в пределы одной серверной стойки. Здесь на сцену выходит Pipeline Parallelism (конвейерный параллелизм) — метод, который Райнер Поуп (Reiner Pope) называет необходимым злом для эффективного распределения слоев нейросети по разному оборудованию .

Pipeline Parallelism: борьба с «пузырями» 56:11

Суть конвейерного параллелизма заключается в разделении слоев модели на последовательные блоки, которые распределяются между разными узлами (стойками). Однако простая передача данных от одного узла к другому создает проблему «пузырей» (bubbles) — периодов времени, когда дорогостоящее оборудование простаивает, ожидая результатов вычислений от предыдущего этапа .

Как отмечает Райнер, в контексте инференса это работает относительно просто: пока второй «этап» пайплайна обрабатывает первый пакет данных (batch 0), первый этап уже может начать работу над вторым пакетом (batch 1) . В обучении всё сложнее из-за необходимости обратного распространения ошибки (backpropagation).

Основные сложности реализации конвейера в обучении:

Чередование проходов: Необходимо координировать прямые (forward) и обратные (backward) проходы так, чтобы минимизировать простой. Оптимальный размер батча здесь критически важен: он должен быть достаточно большим, чтобы амортизировать затраты на загрузку весов, но не настолько огромным, чтобы «пузырь» на графике времени стал доминирующим .
Управление микро-батчами: Чтобы заполнить «пузыри», глобальный батч разбивается на микро-батчи. Райнер объясняет, что количество микро-батчей должно быть как минимум сопоставимо с количеством этапов конвейера .
Свежесть весов: Pipelining заставляет искать баланс между использованием самых актуальных весов для градиентного спуска и скоростью вычислений .

Хотя конвейеризация позволяет обучать гигантские модели, она накладывает жесткие ограничения. Ранее в разговоре Райнер упоминал структуру памяти и KV-кэша, и здесь это всплывает снова: при использовании Pipeline Parallelism вам приходится хранить активации для всех микро-батчей, находящихся «в полете», что резко увеличивает требования к памяти .

От Hopper к Blackwell: масштабирование scale-up доменов 1:13:30

Ограничения Pipeline Parallelism (особенно задержки при передаче данных между стойками) заставляют инженеров стремиться к увеличению так называемого scale-up домена — количества GPU, соединенных между собой сверхбыстрой шиной NVLink внутри одного логического узла .

Райнер Поуп подчеркивает качественный переход от архитектуры NVIDIA Hopper (H100) к Blackwell (B200). В эпоху Hopper стандартный scale-up домен ограничивался 8 GPU в одном сервере. Если ваша модель требовала больше памяти, вам приходилось выходить на уровень межсерверных соединений (InfiniBand или Ethernet), что на порядки медленнее и заставляет использовать Pipeline Parallelism со всеми его издержками .

С появлением архитектуры Blackwell ситуация меняется:

Увеличение NVLink-домена: Blackwell позволяет объединять до 72 GPU в единый домен с когерентной памятью .
Пропускная способность памяти (HBM): Рост пропускной способности памяти становится критическим фактором, так как именно она определяет, насколько быстро мы можем «прокачивать» токены через систему.
Снижение латентности: Переход от межстоечного общения к внутристоечному (через медные кабели NVLink вместо оптики) радикально снижает задержки .

«Если ваша модель не помещается в память одной стойки, вы обязаны использовать pipelining», — резюмирует Райнер . Однако с увеличением мощностей Blackwell многие задачи, ранее требовавшие сложного конвейерного параллелизма, теперь могут решаться внутри одного «суперчипа» или стойки. Это позволяет фронтир-лабораториям (OpenAI, Google, Anthropic) обучать более глубокие и широкие модели, не упираясь в физические ограничения задержек сетевого оборудования .

Этот переход — не просто количественное улучшение (больше терафлопс), а фундаментальное изменение топологии обучения, позволяющее более эффективно использовать Expert Parallelism, о котором шла речь во второй главе.

⚖️ Экономика масштабирования: почему закон Chinchilla больше не является догмой 1:18:46

В индустрии машинного обучения долгое время господствовала работа DeepMind 2022 года, сформулировавшая так называемый закон Chinchilla. Согласно ему, для обучения вычислительно оптимальной модели объем обучающих данных должен расти пропорционально количеству параметров. Однако, как отмечает Райнер Поуп (Reiner Pope), современные реалии коммерческого использования ИИ заставили лаборатории пересмотреть этот подход в сторону экстремального «избыточного обучения» (over-training) .

За пределами Chinchilla: зачем учить модели в 100 раз дольше? 1:18:46

Ранее в разговоре Райнер Поуп упоминал ограничения пропускной способности памяти, но здесь он переходит к фундаментальному сдвигу в стратегии обучения. Традиционный закон Chinchilla стремится минимизировать только одну переменную — вычислительные затраты на само обучение. Если ваша цель — просто получить максимально умную модель при фиксированном бюджете на GPU-часы, вы следуете этим пропорциям.

Но сегодня фокус сместился на стоимость инференса. Если вы планируете обслуживать миллионы пользователей и генерировать триллионы токенов, вам выгоднее потратить гораздо больше ресурсов на этапе претрейнинга, чтобы сделать модель компактнее, но при этом сохранить её высокую производительность .

Ключевые аспекты этого подхода:

Интенсивность данных: Современные модели (например, Llama 3) обучаются на объемах данных, в десятки и сотни раз превышающих рекомендации Chinchilla для их размера параметров .
Снижение стоимости инференса: Переобученная малая модель (скажем, 8B параметров, обученная на 15 триллионах токенов) может работать так же хорошо, как модель 30B, обученная по Chinchilla. При этом инференс меньшей модели обходится значительно дешевле и имеет меньшую латентность .
Жизненный цикл: Модель «живет» в API месяцами, и за это время затраты на её работу могут многократно превысить стоимость её создания.

Райнер Поуп подчеркивает, что теперь лаборатории решают задачу минимизации совокупной стоимости владения (Total Cost of Ownership), где бюджет обучения становится лишь частью уравнения.

Формула оптимального бюджета: баланс Pre-training, RL и инференса 1:21:43

Райнер предлагает эвристический подход к распределению ресурсов: для достижения глобального минимума затрат бюджет на обучение должен быть сопоставим с ожидаемыми затратами на инференс за весь срок эксплуатации модели . Он выводит это через простое правило: если у вас есть сумма двух функций, где одна растет пропорционально $x$, а другая убывает как $1/x$, минимум будет находиться в точке, где эти слагаемые примерно равны.

В расчет принимаются три основные составляющие:

Pre-training (Предварительное обучение): Это «фундамент», стоимость которого фиксирована на момент релиза.
Reinforcement Learning (RL): Обучение с подкреплением требует больше вычислительных мощностей на один токен, чем претрейнинг. Райнер оценивает неэффективность RL-токенов примерно в 10 раз выше по сравнению с обычными данными из-за специфики циклов оценки и генерации .
Inference (Вывод): Стоимость генерации каждого токена для конечного пользователя.

1:23:33

Интересная математическая деталь от Райнера: стоимость прохода (forward pass) одного параметра при инференсе равна 2 единицам, тогда как при обучении (forward + backward) она составляет 6 единиц . Таким образом, с точки зрения «чистой» математики параметров, инференс в три раза эффективнее обучения, но огромные объемы трафика быстро нивелируют эту разницу.

Практический расчет: сколько токенов «живет» в модели? 1:29:40

Чтобы понять, как эти цифры соотносятся с реальностью, Райнер приводит пример гипотетической модели уровня GPT-4.

Если предположить, что через API и интерфейсы проходит около 100 миллиардов токенов в день , то за два месяца активной жизни модели накопится огромный объем данных для инференса.
Исходя из эвристики баланса, количество токенов в претрейнинге должно коррелировать с ожидаемым объемом инференса, помноженным на коэффициенты эффективности .
Если модель обучается на 10-15 триллионах токенов, это означает, что разработчики закладывают миллиарды долларов в инфраструктуру инференса, чтобы оправдать такие затраты на обучение .

Райнер резюмирует, что эпоха, когда мы могли просто «насыпать» больше параметров, прошла. Сегодня успех зависит от того, насколько глубоко вы можете «упаковать» знания в модель за счет избыточного обучения (over-training), делая её максимально эффективной для конечного пользователя . Кратко касаясь темы цен на API, он замечает, что понимание этого баланса позволяет компаниям устанавливать двухэтапные тарифные сетки, зависящие от того, является ли ограничением вычислительная мощность или память, что ранее обсуждалось в контексте структуры затрат .

⚡️ Анатомия длинного контекста: скрытая экономика и иерархия памяти 1:40:23

Когда мы смотрим на современные LLM, такие как Gemini 1.5 Pro с её миллионами токенов контекстного окна, возникает вопрос: как это технически возможно и почему это стоит именно столько? Райнер Поуп (Reiner Pope) указывает, что ценообразование API — это не просто маркетинговые цифры, а «обратный инжиниринг» аппаратных ограничений . Анализируя стоимость токенов, можно реконструировать архитектурные решения лабораторий и понять, где именно в иерархии памяти в конкретный момент находятся ваши данные.

Ранее в разговоре эксперты касались механизмов работы KV-кэша, но именно в контексте ценообразования становится ясно, что хранение этого кэша — главная «переменная», определяющая экономику инференса .

Prefill против Decode: почему входящий текст дешевле генерации 1:41:18

Разрыв в стоимости между обработкой входящего текста (Prefill) и генерацией ответа (Decode) фундаментально обоснован тем, как трансформеры утилизируют вычислительные ресурсы. Райнер Поуп отмечает, что этап Prefill на порядок эффективнее с точки зрения использования оборудования .

Основные различия в эффективности:

Использование вычислительной мощности (Tcompute): Во время Prefill модель обрабатывает все входные токены параллельно. Это позволяет полностью загрузить тензорные ядра GPU, делая операцию ограниченной вычислительной мощностью (compute-bound).
Ограничение пропускной способностью (Tmem): Этап Decode вынужден генерировать токены по одному. Для каждого нового слова системе приходится прогонять все веса модели и весь KV-кэш через память. Это классический случай bottleneck-а памяти (memory bandwidth bound) .

В цифрах этот разрыв огромен: стоимость этапа Decode может быть в 5-10 раз выше, чем Prefill, на единицу данных . Разница в цене API (например, где входящие токены стоят в разы дешевле исходящих) — это прямое отражение того, что видеокарта тратит гораздо больше времени на «ожидание» данных из памяти при генерации, чем на реальные математические вычисления .

Анализ API Gemini: реконструкция через цены 1:59:47

Райнер Поуп приводит пример тарификации контекста в Gemini, чтобы показать, как параметры «времени удержания» (hold time) данных выдают техническую подложку сервиса . Если API берет отдельную плату за хранение контекста в течение часа, это означает переход от использования сверхбыстрой видеопамяти к более медленным уровням .

Пропускная способность памяти HBM на GPU практически не растет такими темпами, как контекстные окна . Поэтому лаборатории вынуждены использовать стратегии «рематериализации» или «выгрузки». Если цена за повторное использование контекста составляет, условно, $5, а за хранение в течение 5 минут — $6.25, это позволяет вычислить «время дренажа» памяти (drain time) . Это критическая точка, после которой системе дешевле заново вычислить (recompute) весь контекст из сырых токенов, чем продолжать удерживать его в дорогой HBM .

Иерархия памяти: от HBM до Flash-накопителей 1:49:26

Для поддержки сверхдлинных диалогов или анализа целых кодовых баз инженеры выстраивают многоуровневую систему хранения KV-кэша. Поуп выделяет три основных сценария :

HBM (High Bandwidth Memory): Самый быстрый уровень непосредственно на GPU. Здесь данные доступны мгновенно, но объем ограничен (80-141 ГБ на чип). Если кэш пользователя занимает HBM, этот слот нельзя отдать под другой запрос, что делает хранение здесь крайне дорогим .
DDR (Системная RAM): Когда контекст становится слишком большим, он сбрасывается в оперативную память сервера. Это требует времени на копирование обратно в HBM (latency), но стоимость хранения здесь на порядок ниже . Расчет стоимости здесь идет через отношение занимаемых байт к общей емкости DDR и времени удержания .
Flash/SSD и Рематериализация: Для контекстов в миллионы токенов, которые используются редко, данные могут сбрасываться на диск или вовсе удаляться. В последнем случае модель просто заново прогоняет текст через этап Prefill, когда пользователь возвращается к диалогу. Это парадоксально, но при определенных объемах «перевычисление» обходится дешевле, чем аренда памяти .

Несмотря на развитие разреженного внимания (Sparse Attention), которое помогает снизить нагрузку, физические ограничения байт-на-токен остаются . «Если вы не используете GPU из-за того, что его память забита чьим-то старым контекстом, это прямые убытки», — заключает Поуп . Таким образом, современный AI — это не только нейросети, но и сложнейшая логистика данных между разными уровнями «железа».

🧠 Криптография и нейросети: на стыке диффузии и обратимых вычислений 2:05:31

В завершающей части беседы Райнер Поуп (Reiner Pope) обращается к неожиданной параллели между миром информационной безопасности и глубоким обучением. Хотя на первый взгляд разработка LLM и создание шифров преследуют разные цели, их математический фундамент обнаруживает поразительное сходство. Как отмечает Райнер, обе области имеют дело с механизмами перемешивания информации, но их интенция диаметрально противоположна: если нейросеть стремится извлечь из данных скрытую структуру, то криптография — полностью её уничтожить .

Конвергентная эволюция: поиск структуры против хаоса 2:05:48

Райнер Поуп указывает на то, что современные архитектуры нейросетей и криптографические шифры (ciphers) прошли путь своеобразной конвергентной эволюции. В основе обоих процессов лежит задача так называемого «перемешивания» (mixing). Однако в LLM мы хотим, чтобы сеть находила зависимости и закономерности, тогда как идеальный шифр должен выглядеть как абсолютно случайный шум для любого внешнего наблюдателя .

Интересным связующим звеном здесь выступает концепция дифференциального криптоанализа. В криптографии это метод атаки, основанный на изучении того, как небольшие изменения на входе шифра влияют на разницу в выходных данных. В нейросетях мы видим зеркальное отражение этой проблемы в виде аддитивных атак (adversarial attacks). Например, при классификации изображений микроскопическое возмущение пикселей, незаметное глазу, может заставить модель «увидеть» совершенно другой объект . По сути, это и есть дифференциальный анализ в поле вещественных чисел: малая вариация входного сигнала приводит к катастрофическому изменению выходного прогноза .

Райнер предостерегает от чрезмерного упрощения и попыток напрямую использовать нейросети для создания новых криптографических протоколов. «Это очень опасная затея, — отмечает эксперт, — 99% таких попыток заканчиваются взломом» . Тем не менее, использование архитектурных принципов криптографии в ИИ оказывается крайне продуктивным для решения прикладных инженерных задач.

Реверсивные сети (RevNets): от архитектуры Feistel к экономии HBM 2:08:38

Одной из самых успешных заимствованных идей стала архитектура сети Фейштеля (Feistel network), десятилетиями применявшаяся в блочных шифрах (например, в DES). Её ключевое свойство — гарантированная обратимость операции даже при использовании необратимых функций внутри. Именно этот принцип лег в основу реверсивных нейронных сетей (RevNets), описанных в знаковой работе 2017 года .

Райнер Поуп объясняет механику этого процесса: в стандартном трансформере во время прямого прохода (forward pass) алгоритм вынужден сохранять в памяти активации каждого слоя. Это необходимо для того, чтобы на этапе обратного распространения ошибки (backpropagation) можно было вычислить градиенты . Когда модель глубокая, объём этих активаций становится колоссальным — зачастую это самая затратная часть с точки зрения потребления высокоскоростной памяти (HBM), превышающая даже веса самой модели .

RevNets позволяют радикально изменить этот баланс:

Вместо хранения всех промежуточных состояний сеть сохраняет только финальный выход.
Во время вычисления градиентов сеть запускается «задом наперёд». Благодаря математической структуре слоёв (где вход $x$ восстанавливается из выхода $y$), мы можем восстанавливать активации слоёв «на лету» .
Это превращается в классический размен (trade-off) вычислительной мощности на память: мы тратим дополнительные циклы процессора на повторные вычисления, чтобы высвободить гигабайты памяти HBM .

Такой подход фактически превращает остаточные связи (residual connections), которые ранее упоминались в контексте архитектуры DeepSeek и стандартных трансформеров, в инструмент динамического восстановления данных . Это избавляет инженеров от необходимости закупать избыточное количество GPU только ради объёма их памяти, позволяя обучать более массивные модели на имеющемся железе.

Эпилог: Будущее на стыке дисциплин 2:13:36

Разговор с Райнером Поупом завершается на мысли, что современное глубокое обучение — это не только чистая математика или «черный ящик» алгоритмов, но и сложнейшая инженерная дисциплина, где экономика памяти диктует выбор архитектуры . Использование обратимых вычислений и криптографических подходов — лишь один из примеров того, как ИИ-сообщество адаптирует классические идеи Computer Science для преодоления физических барьеров современной вычислительной техники.