DeepSeek: Как китайский хедж-фонд взломал монополию Кремниевой долины

Пока западные гиганты тратят сотни миллиардов долларов на мега-кластеры, китайские инженеры DeepSeek переписывают код на уровне ядер GPU и обваливают стоимость «интеллекта» в десятки раз. От контрабанды чипов в чемоданах бизнес-класса до создания моделей, обучающихся на собственных рассуждениях, технологическая гонка превратилась в геополитический триллер. Мы входим в эпоху, где стоимость вычислений падает в 1200 раз быстрее закона Мура, а мировое господство зависит от того, не превратятся ли заводы на Тайване в «пресс-папье» в течение года.

🧠 Архитектура DeepSeek: от V3 до R1 3:32

Момент выхода моделей DeepSeek встряхнул индустрию ИИ, став поворотным событием в технологической истории. Для понимания того, что стоит за этим успехом, важно различать две ключевые модели, выпущенные компанией DeepSeek: V3 и R1.

DeepSeek V3: высокопроизводительный стандарт 3:59

DeepSeek V3 представляет собой передовую языковую модель архитектуры Mixture of Experts (MoE). Это модель инструктивного типа (instruction model), предназначенная для использования в чат-интерфейсах, подобных ChatGPT. При ее создании разработчики опирались на стандартные методы пост-обучения, такие как настройка инструкций (instruction tuning) и обучение с подкреплением на основе отзывов людей (RLHF). Результатом стала высокоэффективная модель, демонстрирующая конкурентоспособность с такими гигантами, как GPT-4 и Llama 405B. Для обычного пользователя взаимодействие с V3 выглядит как получение быстрого, структурированного и качественного ответа, напоминающего по стилю лучшие экспертные публикации на Reddit или Stack Overflow.

DeepSeek R1: логические рассуждения и «цепочка мыслей» 4:26

DeepSeek R1, выпущенная в январе 2025 года, — это принципиально иной инструмент, сфокусированный на reasoning (логических рассуждениях). Несмотря на то что она базируется на той же «базовой» модели, что и V3, ее тренировочный процесс радикально отличается. R1 обучена использовать «цепочку мыслей» (Chain of Thought). В отличие от V3, которая сразу выдает готовый ответ, R1 сначала генерирует объемный поток текста, в котором модель буквально «рассуждает вслух»: разбивает проблему на подзадачи, проверяет себя на логические ошибки и даже занимается самокритикой, чтобы выдать более глубокий или оригинальный результат.

Показателен пример, когда модель просили выдать «действительно новую идею о людях». В процессе 157-секундного «раздумья» R1 пришла к концепции «общего галлюцинирования», где люди превращают эгоистичные желания в кооперативные системы через веру в абстрактные правила. Это глубокая симуляция рефлексии, которая захватила воображение публики, создавая ощущение интеллектуальной деятельности.

🔓 Слои открытости: Open Weights против Open Source 5:18

Разговоры о том, что именно делает модель «открытой», стали критически важными после бума, начавшегося в конце 2022 года. Термин «Open Weights» (открытые веса) стал принятым стандартом для обозначения моделей, чьи весовые коэффициенты доступны для скачивания в интернете, однако этот термин часто путают с полноценным Open Source.

Определение открытости 6:23

В индустрии программного обеспечения Open Source имеет богатую историю, подразумевающую свободу модификации и отсутствие ограничений на использование. В мире ИИ полноценный Open Source, по мнению таких организаций, как Allen Institute for AI, требует наличия трех компонентов:

Открытые обучающие данные.
Открытый код обучения.
Открытые веса.

На текущий момент DeepSeek позиционируется как одна из наиболее «открытых» среди фронтирных моделей. Хотя они не предоставляют полные обучающие данные и код в том объеме, который позволил бы легкую репликацию, их технические отчеты исключительно подробны и «действенны» для других исследовательских команд.

Вопрос безопасности и доверия 10:24

Существует дискуссия о том, несут ли открытые веса угрозу кражи данных. Важно понимать: веса — это просто огромные матрицы чисел. После скачивания модели на локальный компьютер, не имеющий выхода в интернет, пользователь получает полный контроль над своими данными. Риск «кражи» данных связан не с самой моделью, а с хостингом или API-сервисом, которому пользователь отправляет свои запросы. В этом смысле open weights предоставляют пользователю возможность «держать свою судьбу в своих руках», что соответствует самой сути философии открытости.

Ранее в разговоре они касались темы геополитики и экспортного контроля, однако важно отметить, что сами модели DeepSeek приносят прозрачность, которой зачастую не хватает закрытым американским лабораториям.

🧠 Архитектура эффективности: MoE и MLA 25:25

Для достижения прорывных результатов, которые выделяют компанию на фоне других игроков в области ИИ, DeepSeek делает ставку на две ключевые архитектурные инновации: Mixture of Experts (MoE) и Multi-head Latent Attention (MLA).

Традиционные языковые модели, такие как Llama, являются «плотными» (dense) — это означает, что при генерации каждого нового токена активируются абсолютно все параметры нейронной сети. Архитектура Mixture of Experts, напротив, имитирует избирательность человеческого мозга, где за разные задачи отвечают разные отделы. В такой модели существует множество «экспертов», однако для конкретной операции активируется лишь их малая часть. Это радикально снижает вычислительные затраты как при обучении, так и во время инференса.

Технически это позволяет DeepSeek кратно увеличивать общее «пространство вложений» (embedding space) — объем знаний, который модель способна сжать в параметры — при сохранении низких затрат на вычисления. Например, при 600+ миллиардах общих параметров модель DeepSeek активирует только около 37 миллиардов для каждой операции, в то время как плотная модель аналогичного масштаба потребовала бы активации всех параметров.

Второй столп эффективности — Multi-head Latent Attention (MLA). Эта технология фокусируется на оптимизации памяти. При работе с большими языковыми моделями контекст и внимание (attention) потребляют колоссальные объемы видеопамяти. Используя методы низкоранговой аппроксимации, MLA позволяет значительно сократить эти требования, не жертвуя при этом качеством работы модели. Хотя внедрение MLA усложняет архитектуру, особенно при интеграции с механизмами позиционного кодирования (например, RoPE), именно такие «узкие» места DeepSeek научился преодолевать с исключительным мастерством.

⚙️ Низкоуровневая оптимизация GPU: за пределами CUDA 31:54

Одним из наиболее впечатляющих аспектов работы инженеров DeepSeek является их готовность опускаться на уровень программирования, который для большинства других компаний считается избыточным или неоправданно рискованным. В условиях ограниченного доступа к новейшим западным графическим ускорителям и их интерконнектам, команда была вынуждена искать способы выжать максимум производительности из имеющегося оборудования.

Стандарт индустрии — библиотека NVIDIA NCCL (Nvidia Communications Collective Library) — автоматизирует обмен данными между GPU, что удобно, но не всегда эффективно для специфических задач. DeepSeek пошли дальше: они отказались от «коробочных» решений в пользу собственных библиотек коммуникации. Инженеры компании напрямую программируют ядра GPU (SM — Streaming Multiprocessors), вручную распределяя задачи: какие ядра будут заняты вычислением весов модели, а какие — синхронизацией данных (all-reduce, all-gather).

Такое программирование близко к работе с ассемблером или низкоуровневыми инструкциями (PTX), что требует колоссальных трудозатрат и глубокого понимания аппаратной архитектуры. В то время как крупнейшие закрытые лаборатории, такие как OpenAI или Anthropic, безусловно, обладают экспертами подобного уровня, открытая публикация методов DeepSeek стала важным вкладом в инженерное сообщество. По сути, из-за необходимости обходить ограничения «урезанных» чипов, DeepSeek создали не просто очередную модель, а уникальный стек оптимизаций, который сделал их обучение и инференс невероятно эффективными. Эти наработки подчеркивают, что в условиях жестких ограничений, «необходимость — мать изобретения». Ранее в разговоре участники касались общих вопросов геополитики ИИ и экспортного контроля.

🤖 Капитал хедж-фондов и санкционные тиски: как выковывался феномен DeepSeek 51:29

Феномен High-Flyer: из количественного трейдинга в авангард ИИ 51:29

Чтобы по-настоящему понять стремительный взлет компании DeepSeek, необходимо заглянуть в её корни, уходящие в прагматичный мир высокочастотного алгоритмического трейдинга. Материнской структурой ИИ-стартапа является High-Flyer — один из крупнейших и наиболее успешных квантовых хедж-фондов Китая. Исторически такие фонды полагались на программируемые логические интегральные схемы (FPGA), однако индустрия быстро мигрировала в сторону графических процессоров (GPU). В High-Flyer осознали, что обработка естественного языка (NLP) критически важна для мгновенного анализа пресс-релизов и рыночных новостей, что и предопределило их ранние колоссальные инвестиции в ИИ-инфраструктуру.

Уже в 2021 году, задолго до того, как мировое сообщество начало активно обсуждать экспортные ограничения, High-Flyer развернула кластер из 10 000 ускорителей NVIDIA A100, заявив о создании крупнейшей подобной инфраструктуры в Китае. Этот технологический плацдарм обеспечил DeepSeek не только ресурсами, но и уникальной инженерной культурой, где вычислительные мощности делятся между задачами фонда и обучением нейросетей.

Генеральный директор и сооснователь компании Лян Вэньфэн (в транскрипте упоминается как Le Chi Fang / Leon Fang) описывается как фигура масштаба Илона Маска или Дженсена Хуанга — прагматичный инженер, лично вовлеченный во все технические процессы. Ему близки идеи технооптимизма (e/acc), и он открыто ставит цель: создать глобальную открытую ИИ-экосистему во главе с Китаем. Руководитель DeepSeek публично декларирует непоколебимую позицию: компания принципиально не перейдет на закрытый исходный код.

Хотя официальные документы DeepSeek утверждают, что для обучения их флагманских моделей использовался скромный кластер всего из 2000 чипов NVIDIA H800, отраслевые аналитики указывают на гораздо более внушительные цифры. Реальный парк оборудования компании оценивается экспертами ближе к 50 000 GPU различных конфигураций, распределенных между исследованиями, экспериментами и основными коммерческими задачами фонда.

Кремниевая алхимия NVIDIA и эволюция «нейтрализованных» чипов 59:08

Развитие DeepSeek происходило в условиях жесточайшего технологического голода, спровоцированного последовательными волнами американских санкций против китайского ИТ-сектора. Когда Министерство торговли США ввело первые ограничения на поставку передовой микроэлектроники, регуляторы опирались на двухфакторную шкалу: предельную вычислительную мощность чипа (FLOPS) и скорость межчипового соединения (интерконнекта). Желая сохранить гигантский китайский рынок, корпорация NVIDIA оперативно разработала специализированный чип H800 на базе архитектуры Hopper. С точки зрения «чистой» пиковой производительности (FLOPS) H800 не уступал флагманскому западному аналогу H100, однако скорость обмена данными между процессорами в кластере была искусственно урезана регуляторами.

Для большинства стандартных западных ИИ-архитектур такое ограничение интерконнекта становилось фатальным бутылочным горлышком, разрушающим эффективность параллельных вычислений. Однако инженеры DeepSeek проявили невероятную изобретательность, создав кастомные алгоритмы низкоуровневого планирования задач, которые позволили выжимать максимум из урезанного кремния.

В конце 2023 года США закрыли и эту лазейку, полностью запретив поставки H800. Ответом NVIDIA стал выпуск нового компромиссного решения — чипа H20. В этой модификации стратегия изменилась кардинально: инженеры жестко ограничили чистую вычислительную мощность (FLOPS), но сохранили полноценный интерконнект и даже улучшили пропускную способность и емкость памяти по сравнению с базовым H100.

Философия экспортного контроля: сдерживание плотности вычислений 1:00:54

Ограничение поставок чипов породило масштабную геополитическую дискуссию о будущем ИИ. С одной стороны, глава Anthropic Дарио Амодеи защищает концепцию тотального экспортного контроля. Его логика проста: обладание суперинтеллектом к 2026 году обеспечит решающее военное преимущество, а значит, демократический мир обязан сохранить жесткую монополию, искусственно замедляя развитие авторитарных государств.

Однако практика показывает, что санкции не способны полностью заблокировать создание передовых моделей внутри Китая. Сфокусированная и высокоэффективная команда инженеров способна прорываться к технологическому фронтиру даже на относительно небольших кластерах оборудования. Настоящая и куда более достижимая цель экспортного контроля США лежит в другой плоскости — это ограничение «плотности вычислений» и масштабируемости инфраструктуры на этапе инференса (реального применения моделей пользователями).

Для обучения ИИ требуется фиксированное число ускорителей, но для того чтобы внедрить эти технологии во все сферы жизни общества, обеспечивая работу миллионов умных агентов, необходимы колоссальные флоты процессоров. Например, американская Meta владеет более чем 400 000 GPU, из которых лишь незначительная часть идет на непосредственное обучение моделей семейства Llama, в то время как гигантский остаток обслуживает алгоритмы рекомендаций и инференс. Отрезая Китай от массовых поставок, США стремятся сделать так, чтобы общий объем ИИ-вычислений в стране оставался на порядки ниже, лишая китайскую экономику эффекта масштаба. Санкции зашли настолько далеко, что Белый дом включил в списки экспортного контроля даже ближайших союзников, таких как Сингапур или Португалия, требуя от них специальных одобрений на закупку GPU из опасений реэкспорта технологий.

Как будет подробно описано в главах, посвященных экономике инференса, новые парадигмы рассуждений («test-time compute»), требующие огромных затрат на обработку каждого сложного запроса, превращают масштаб вычислительной инфраструктуры в главный ресурс геополитического противостояния.

🛡️ Глава 4. Военный ИИ, парадокс экспортного контроля и феномен TSMC 1:15:38

Вопрос о том, кто первым достигнет сильного искусственного интеллекта (AGI), — это не только гонка за коммерческой прибылью, но и критический вопрос национальной безопасности. В обсуждении Лекс Фридман и его гости поднимают проблему «направления» мощи ИИ: в то время как западный мир, ведомый капиталистическими стимулами, скорее всего, направит AGI на оптимизацию производства и извлечение дохода, авторитарные режимы могут быстрее переориентировать эти технологии на военные нужды . Китай уже продемонстрировал способность совершать «прыжки лягушки» (leapfrogging) в сфере асимметричных вооружений, например, в производстве дронов, где они значительно опередили Запад .

Автономные рои и угроза кибервойны 1:17:11

Несмотря на общий оптимизм вокруг робототехники, реальный боевой опыт (например, конфликт в Украине) показывает, что люди до сих пор превосходят любые полностью автономные системы. В управлении FPV-дронами человеческая реакция и интуиция остаются незаменимыми . Однако горизонт планирования смещается к 2030 году — именно тогда ожидается появление по-настоящему мощного автономного ИИ, способного координировать действия огромных робо-роев .

Гораздо более близкой и катастрофической угрозой эксперты считают кибервойну. Использование ИИ для поиска уязвимостей в коде и проведения атак методом социальной инженерии может позволить противнику вывести из строя критическую инфраструктуру, например, электросети США . Отключение электричества всего на два дня в масштабах страны способно спровоцировать хаос и насилие, необратимо меняя мировой порядок без единого выстрела .

Дилемма экспортного контроля: стратегия «заморозки» 1:18:45

Экспортные ограничения США на поставку чипов в Китай — это попытка искусственно создать временное преимущество. Логика проста: если ИИ изменит мир в ближайшие 5–10 лет, то ограничение вычислительных мощностей (compute) станет решающим фактором, так как в плане талантов у Китая дефицита нет . Поднебесная выпускает огромное количество STEM-специалистов, а многие ведущие ИИ-команды в самих США состоят из выходцев из Китая, не имеющих американского паспорта .

Однако если развитие ИИ затянется, стратегия США может обернуться против них самих. Ограничения лишают американские компании (NVIDIA) и их партнеров (TSMC) огромного рынка сбыта, что снижает их доходы и замедляет инвестиционные циклы . Тем временем Китай вливает колоссальные субсидии в собственное производство чипов. В случае, если прорыв в области ИИ произойдет не через 5, а через 15 лет, Китай может оказаться в позиции лидера, обладая собственной независимой и мощной инфраструктурой .

Промышленный масштаб и «Scale Pill» по-китайски 1:20:17

Разрыв в промышленных возможностях между США и Китаем становится очевидным при анализе энергопотребления. В то время как проект Stargate от Microsoft и OpenAI мощностью 2 ГВт подается как нечто беспрецедентное, в Китае уже существуют отдельные сталелитейные и алюминиевые заводы, потребляющие гигаватты электроэнергии . Индустриальная база Китая позволяет им строить мега-дата-центры быстрее, чем на Западе, где строительство тормозится проблемами передачи энергии и нехваткой трансформаторов .

Китайское руководство, похоже, окончательно приняло концепцию «scaling laws» (законов масштабирования). Недавние встречи руководства DeepSeek с высокопоставленными чиновниками КНР привели к объявлению о субсидиях на сумму около 1 триллиона юаней ($160 млрд) — это сопоставимо с совокупными годовыми затратами Microsoft, Meta и Google вместе взятых . Ограничения США 2022 года были направлены на то, чтобы не дать Китаю использовать американские технологии для военно-гражданского слияния (Military-Civil Fusion), но они же спровоцировали начало полноценной технологической холодной войны .

Почему модель TSMC невозможно легко скопировать 1:130:16

Доминирование TSMC на рынке полупроводников обусловлено не только технологиями, но и уникальной бизнес-моделью «Foundry» (чистый производитель). Раньше компании, такие как AMD или Intel, сами проектировали и сами производили чипы (модель IDM). Однако с каждым новым поколением стоимость строительства фабрики (Fab) удваивалась . Сегодня стоимость современной фабрики для производства 2-нм или 3-нм чипов превышает $30–40 млрд .

TSMC выиграла эту гонку, сосредоточившись исключительно на производстве для других:

Экономия на масштабе: Агрегируя заказы от Apple, NVIDIA и сотен других компаний, они обеспечивают загрузку мощностей, которую не может потянуть ни один отдельный игрок (даже Intel теперь вынуждена заказывать часть чипов у TSMC) .
Уникальная культура: Успех TSMC в Тайване держится на невероятной концентрации талантов и трудовой этике. Лучшие выпускники вузов идут работать на фабрики за зарплату в $70–80 тысяч — в США такие специалисты уходят в Google или OpenAI на втрое большие оклады .
Эффект «муравейника»: Работа в Fab — это не удаленная работа из дома. Это изнурительный труд, требующий предельной специализации. Во время недавних землетрясений сотрудники TSMC не ждали звонка начальства — они просто сами ехали на работу, чтобы немедленно начать калибровку оборудования, так как промедление стоит миллиарды .

Ранее в разговоре собеседники упоминали экспортный контроль, но здесь акцент смещается на то, что попытки США перенести производство к себе (onshoring) сталкиваются с фундаментальной разницей в кадровой культуре. В Тайване инженер может всю жизнь специализироваться на одной узкой химической операции травления кремния, достигая в ней мирового совершенства, в то время как на Западе такая узкая специализация менее престижна и востребована .

🌍 Геополитика ИИ: Хрупкий фундамент Тайваня и доминирование TSMC 1:40:28

Современная индустрия искусственного интеллекта опирается на фундамент, который физически сосредоточен в нескольких точках земного шара. В разговоре с Лексом Фридманом (Lex Fridman) эксперты подчеркивают, что успех TSMC (Taiwan Semiconductor Manufacturing Company) — это не только триумф инженерной мысли, но и результат уникальной корпоративной культуры, которую крайне сложно масштабировать за пределами Тайваня. Сотрудники фабрик готовы работать по 80 часов в неделю и возвращаться на производство посреди ночи даже после землетрясения .

Эта «фанатичная» преданность делу создает барьер для входа, который не смогла удержать даже корпорация Intel. Долгое время Intel была мировым лидером, первой внедряя такие технологии, как High-K Metal Gate и FinFET, и получая самую высокую прибыль в индустрии . Однако управленческие ошибки, такие как отказ от производства чипов для первого iPhone и разрыв между R&D в Орегоне и массовым производством, привели к тому, что лидерство перешло к TSMC .

География уязвимости: R&D против массового производства 1:43:06

Важно разделять разработку (R&D) и собственно массовое производство чипов. В мире существует всего три ключевых центра, где создаются передовые полупроводниковые технологии: Синьчжу (Тайвань), Хиллсборо (Орегон, США) и Пхёнтхэк (Южная Корея) . Именно эти точки определяют эволюцию процессоров, на которых обучаются будущие AGI.

Хотя производство можно распределить географически (например, строя заводы в Аризоне), эти фабрики остаются крайне зависимыми от тайваньского центра. Если Синьчжу исчезнет с лица земли, завод в Аризоне превратится в «пресс-папье» в течение года, так как он не сможет функционировать без постоянной поддержки и обновлений из головного R&D-центра .

Критическая зависимость мира от TSMC тотальна:

Без тайваньских чипов невозможно купить современный автомобиль или даже холодильник .
Почти все серверы, ноутбуки и графические процессоры (GPU) зависят от мощностей TSMC.
Даже простейшие компоненты, такие как контроллеры питания (Power IC), производятся на тех же мощностях, создавая узкие места в глобальных цепочках поставок .

Стратегия Китая: от «хвоста» к острию 1:45:15

В то время как США пытаются ограничить доступ Китая к самым передовым техпроцессам (5 нм, 3 нм и ниже), Пекин реализует долгосрочную стратегию импортозамещения. План Китая от 2015 года ставил цель достичь 80% внутреннего производства чипов к 2025 году . Хотя эта цель вряд ли будет достигнута в полной мере, в некоторых секторах прогресс очевиден. Например, компания BYD может стать первой в мире, полностью обеспечивающей свои электромобили чипами собственного производства .

Экспортный контроль США привел к парадоксальному результату: замедлив прогресс Китая в области передовых GPU, он заставил китайские компании агрессивно инвестировать в «зрелые» техпроцессы (45 нм, 90 нм). Это позволяет им доминировать в производстве аналоговых чипов, контроллеров для бытовой техники и автомобильной электроники, что в будущем может создать ситуацию, когда западный мир окажется в зависимости от китайских поставок базовых компонентов .

Экономическая война и призрак гегемонии 1:48:41

Масштаб противостояния подчеркивается цифрами государственных субсидий. Американский закон о чипах (CHIPS Act) выделяет около 50 миллиардов долларов на несколько лет. Для сравнения, Китай ежегодно вливает в свою полупроводниковую отрасль около 200 миллиардов долларов . По мнению экспертов, полная независимость США от поставок извне потребует не менее десяти лет работы и инвестиций в размере одного триллиона долларов .

В этой игре на выживание США делают ставку на контроль над ИИ как инструментом поддержания глобальной гегемонии. Исторически периоды доминирования одной державы были самыми мирными в истории человечества, будь то Римская империя или «Pax Americana» последних десятилетий . Однако сейчас мир движется к ситуации с двумя конкурирующими гегемонами. Экспортные ограничения уже создают две параллельные экономики, которые будет крайне сложно объединить в будущем .

В этом геополитическом контексте даже «нейтрализованные» чипы, такие как NVIDIA H20, становятся важным фактором. США ограничивают вычислительную мощность (FLOPS), которую можно передать Китаю, но NVIDIA удается обходить эти лимиты, увеличивая пропускную способность памяти и интерконнекта . Это особенно важно в новой парадигме «рассуждающих» моделей (reasoning models), где доступ к памяти становится даже более критическим фактором, чем чистая вычислительная мощность . Таким образом, битва за Тайвань и TSMC — это не только спор о территориях, но и борьба за физическую основу интеллекта будущего.

📈 Экономика инференса и дилемма безопасности: американская осторожность против китайской скорости 2:05:39

В индустрии искусственного интеллекта произошел тектонический сдвиг: фокус сместился с обработки огромных массивов входных данных на генерацию сверхдлинных цепочек рассуждений (Chain of Thought). Это коренным образом изменило экономику инференса (работы уже обученной модели). Если раньше основная нагрузка приходилась на параллельное вычисление промпта, то теперь модели рассуждений, такие как DeepSeek R1 или OpenAI o1, генерируют тысячи токенов «внутреннего монолога», что создает колоссальное давление на память графических процессоров (GPU) .

Экономический разрыв: DeepSeek R1 против OpenAI o1 2:08:43

Одной из самых обсуждаемых цифр в индустрии стала разница в стоимости использования моделей. DeepSeek R1 предлагается по цене около 2 долларов за миллион токенов, в то время как аналогичная по возможностям модель o1 от OpenAI обходится в 60 долларов . Лекс Фридман и его собеседник отмечают, что китайская разработка оказалась в 27 раз дешевле американского конкурента .

Этот ценовой разрыв объясняется несколькими факторами:

Маржинальность OpenAI: Около 75% стоимости o1 — это чистая прибыль OpenAI, необходимая компании для финансирования будущих исследований и закупки новых кластеров .
Архитектурная эффективность: DeepSeek внедрила инновации, такие как Multi-head Latent Attention (MLA), которые снижают требования к памяти KV-кэша на 80–90% по сравнению со стандартными трансформерами . Ранее в разговоре уже упоминалось, что такие оптимизации позволяют эффективнее использовать имеющееся железо.
Низкие эксплуатационные расходы: В отличие от западных облачных провайдеров, стремящихся к высокой прибыли на инференсе, DeepSeek, поддерживаемая хедж-фондом High-Flyer, использует модель «лоукостера» .

Однако у дешевизны есть обратная сторона: инфраструктурные ограничения. DeepSeek не обладает такими мощностями, как связка Microsoft и OpenAI с их сотнями тысяч GPU . В моменты пиковых нагрузок китайская компания была вынуждена ограничивать регистрацию новых пользователей, так как её физических серверов просто не хватало для обслуживания глобального спроса .

Скорость против безопасности: дилемма Anthropic 2:17:49

На рынке ИИ наметился раскол в подходах к выпуску продуктов. Американские лаборатории, особенно Anthropic, выстроили корпоративную культуру вокруг идеи безопасности. Это создает значительную «инерцию релиза» . Стало известно, что модель Claude 3.5 Sonnet была готова к выпуску за 9–10 месяцев до фактического релиза . Всё это время ушло на внутренние тесты, проверки со стороны государственных институтов безопасности (например, UK Safety Institute) и попытки минимизировать риски «галлюцинаций» или неправомерного использования .

DeepSeek же придерживается тактики «ship as fast as you can» (отгружай максимально быстро). Они выпустили ключевые модели V3 и R1 в конце декабря и январе, игнорируя праздники и не проводя многомесячных согласований с регуляторами .

Такой подход обнажает фундаментальную проблему:

Прозрачность рассуждений: Модели рассуждений (R1) показывают свой «ход мыслей», который иногда выглядит пугающе или странно — модель может перескакивать с китайского на английский или выдавать абракадабру, прежде чем прийти к верному ответу .
Риски контроля: Anthropic опасается выпускать модели, чьи цепочки рассуждений (Chain of Thought) могут быть использованы для обхода фильтров безопасности. Для китайских разработчиков приоритетом является функциональность и «воспринимаемое качество» продукта здесь и сейчас .

Собеседники проводят параллель с космической гонкой: СССР вывел человека на орбиту первым во многом потому, что планка допустимого риска была ниже, чем в программе США .

Культурные «бэкдоры» и глобальные стандарты 2:22:21

Марк Цукерберг недавно отметил, что для национальных интересов США критически важно, чтобы открытый стандарт ИИ был американским . Проблема в том, что ИИ — это не просто софт, а носитель культурных ценностей и политических взглядов. Если модель обучается преимущественно на американском сегменте интернета, она «забывает» британское правописание или продвигает определённую социальную повестку .

Существует опасение, что в открытые веса (open weights) моделей могут быть встроены скрытые механизмы влияния — «культурные бэкдоры». Это не обязательно вирусный код, который «звонит домой», но глубоко заложенные установки :

Определённая интерпретация исторических событий (например, статус Тайваня или события на площади Тяньаньмэнь) .
«Сверхчеловеческое убеждение»: Сэм Альтман однажды заметил, что модели научатся мастерски убеждать людей в чём угодно раньше, чем станут по-настоящему разумными .

Если мир начнёт использовать китайские открытые модели как стандарт, это может привести к незаметной трансформации общественного сознания через алгоритмы рекомендаций и чат-ботов, которые формируют наши привычки и взгляды . Подобно тому, как социальные сети взломали дофаминовую систему мозга, продвинутые LLM могут стать инструментами управления вниманием и идеологией в глобальном масштабе .

🧠 Новая парадигма: Обучение с подкреплением и «тихое» самообучение 2:43:39

Современный этап развития ИИ знаменует отход от простой имитации человеческих ответов в сторону способности моделей самостоятельно открывать стратегии рассуждения. Ключевым прорывом здесь стало «тихое» самообучение через Reinforcement Learning (RL), которое продемонстрировала модель DeepSeek R1. В отличие от традиционных подходов, где модель обучается на готовых примерах («имитационное обучение»), здесь система обучается на основе проверяемых результатов. Например, при решении математических или программных задач модель получает вознаграждение за правильный ответ, что заставляет её в процессе обучения самостоятельно выстраивать цепочки рассуждений — «Chain of Thought».

Эти стратегии, такие как проверка промежуточных шагов, возвращение к началу при обнаружении ошибки или переоценка исходных предположений, возникают как бы «естественным» образом. Важно отметить, что модель не учится писать эти цепочки у людей — человеческие аннотаторы зачастую даже не обладают навыком корректного описания подобных когнитивных процессов, так как логика нейросетей отличается от человеческой. Эти методы оказались статистически полезными для достижения итоговой цели, что делает их крайне эффективными.

Метафора AlphaZero и отказ от человеческого «балласта» 2:46:43

Развитие систем рассуждения ИИ идеально укладывается в аналогию с историей успеха AlphaGo и AlphaZero от DeepMind. Если в версии AlphaGo использовались данные человеческих игр для обучения, то модель AlphaZero, работавшая исключительно на основе самообучения (zero human data), показала значительно более высокую мощь.

Это подтверждает так называемый «горький урок» (bitter lesson) в ИИ: использование человеческих индуктивных смещений (человеческого опыта) часто ограничивает потенциал системы. Устранение этого «человеческого фактора» позволяет моделям открывать новые стратегии, которые выходят за рамки того, что мог бы предусмотреть или записать человек. Сегодняшнее обучение reasoning-моделей — это попытка найти «ход 37» (знаменитый непредсказуемый ход AlphaGo против Ли Седоля) для широкого спектра задач.

Бесконечные песочницы: от кода к управлению реальностью 2:48:39

На данный момент ключевым ограничением метода Reinforcement Learning является необходимость наличия «верифицируемой среды». Сейчас это в основном математика и программирование (где можно запустить модульные тесты). Однако истинный потенциал раскрывается при переносе этого обучения в бесконечно вариативные «песочницы», такие как компьютерный интерфейс или робототехника.

Верифицируемость как двигатель: ИИ может бесконечно пробовать разные подходы к выполнению задачи — например, создание аккаунта на сайте или взаимодействие с интерфейсом — и получать мгновенную обратную связь.
Автономный успех: Модель будет ошибаться тысячи раз, но один успешный результат станет тем сигналом, на котором она будет «подниматься» в обучении.
Реальные бизнес-результаты: В перспективе такая система может не просто обучаться «цифровым» задачам, но и выстраивать успешные бизнес-модели, становясь полностью автоматизированным предпринимателем, влиятельным лицом или творцом, приносящим реальную прибыль.

Этот метод обучения из разреженных наград (sparse rewards) позволяет даже относительно небольшим моделям (параметром в 1 миллиард) демонстрировать значительный рост в решении задач, если для них создана правильная верифицируемая среда. Таким образом, RL становится мощнейшим инструментом, способным затмить стандартное предварительное обучение (pre-training) в будущем развитии интеллекта.

📈 Кривая стоимости интеллекта и парадокс Джевонса в эпоху ИИ 3:08:40

Тест-тайм вычисления и экономика «поиска» в инференсе 3:08:40

Ранее в разговоре собеседники подробно разбирали архитектурные особенности нейросетей, однако ключевая технологическая перемена прямо сейчас связана с переходом к так называемым «вычислениям во время инференса» (test-time compute). Традиционные языковые модели проектировались так, чтобы выдать наиболее вероятный ответ за один последовательный проход. Новейшие же системы, такие как OpenAI o1 Pro (доступная по подписке за 200 долларов в месяц) или o3-mini, используют принципиально иной подход: они разворачивают длинные цепочки рассуждений (Chain of Thought), умеют откатываться назад, перепроверяять свои шаги и фактически осуществлять сложный поиск решений в пространстве вариантов.

Такая стратегия превращает инференс в ресурсоемкий вычислительный процесс. Вместо генерации единственного ответа модель может запускать сотни и тысячи параллельных симуляций (сэмплов), выбирая наилучший результат с помощью алгоритмов, напоминающих поиск по дереву Монте-Карло. Наглядным подтверждением силы этого метода стали тесты на известном бенчмарке ARC-AGI: если при одном стандартном запуске модель выдавала лишь 30% правильных ответов, то при запуске 1000 параллельных цепочек рассуждений точность взлетала до поразительных 70–90%, что шокировало экспертное сообщество. Подобные поисковые техники открывают колоссальные перспективы для прогресса, но требуют огромных финансовых затрат, из-за чего создатели o1 Pro сейчас фактически работают себе в убыток. Впрочем, по мере неизбежного удешевления базовых вычислений именно этот подход станет главным драйвером раскрытия истинного потенциала ИИ.

Логарифмический тренд: как интеллект подешевел в 1200 раз 3:11:16

Развитие генеративных моделей жестко подчинено экономической целесообразности. Если вспомнить 2020–2021 годы, то стоимость инференса для модели GPT-3 составляла внушительные 60–70 долларов за миллион токенов. При таких тарифах цена «единицы интеллекта» оставалась запредельно высокой для массового коммерческого внедрения. Однако всего за два последующих года индустрия совершила беспрецедентный рывок, зафиксировав 1200-кратное падение стоимости вычислений при сохранении аналогичного уровня умственных способностей моделей.

На логарифмической шкале этот спад выглядит как идеально ровная нисходящая прямая: от оригинальной GPT-3 через GPT-3.5 к современным открытым архитектурам вроде Llama, стоимость миллиона токенов для которых сегодня измеряется сущими центами — около 5 центов. Недавний ажиотаж вокруг релиза китайской DeepSeek во многом был вызван именно заявлениями о невероятной дешевизне их системы. Тем не менее, если наложить показатели DeepSeek на общую долгосрочную линию тренда, становится ясно, что они не пробили дно этой кривой, а просто первыми достигли плановой точки в строгом соответствии с графиком технологического прогресса. Аналогичная дефляционная динамика прослеживается и у флагманских коммерческих моделей: инференс GPT-4 на момент ее запуска тоже обходился в районе 60 долларов за миллион токенов, а сегодня упал примерно до 2 долларов, продолжая стремительное движение к центовому порогу. Этот сдвиг обеспечивается целым комплексом факторов:

Архитектурными инновациями в структуре нейросетей;
Повышением качества и селекции обучающих данных;
Оптимизацией низкоуровневого софта и систем инференса;
Сменой поколений специализированного серверного железа.

Анатомия рыночной паники и реальные масштабы затрат 3:14:30

Когда новости о сверхдешевом обучении китайских моделей заполнили заголовки, акции лидера полупроводникового рынка NVIDIA пережили масштабное падение. Собеседники сходятся во мнении, что эта реакция Уолл-стрит была классическим примером «социального заражения» и паники выходного дня, наложившейся на накопившуюся усталость инвесторов. Обывательская логика рынка была проста: если мощную модель можно обучить за гроши, значит, американским техгигантам больше не нужно тратить сотни миллиардов на дата-центры.

Этот нарратив оказался полностью ложным и базировался на поверхностном понимании структуры затрат. Цифры в 5–6 миллионов долларов, публиковавшиеся в прессе касательно DeepSeek, отражали исключительно чистую стоимость машинного времени на pre-training. В них намеренно или по незнанию не закладывались:

Многомиллионные зарплаты сотен элитных исследователей и инженеров;
Расходы на колоссальную сопутствующую инфраструктуру и R&D;
Затраты на этапы пост-обучения (post-training) и последующий инференс.

Более того, на рынке циркулировали мифы о том, что компании уже сейчас тратят миллиарды долларов на единичные прогоны моделей. На самом деле ни одна из публично доступных на сегодня сетей не стоила в производстве более миллиарда: создание GPT-4 обошлось в пару сотен миллионов долларов. Однако истинные миллиардные циклы обучения уже не за горами. Паника совпала и с разговорами о «смерти законов масштабирования» (scaling laws), которые велись на протяжении последнего месяца. Появление моделей семейства o1, o3 и той же R1 наглядно доказало, что масштабирование продолжается, просто оно сместилось в сторону вычислительной нагрузки при выводе ответов.

Парадокс Джевонса: почему эффективные алгоритмы разгоняют дефицит GPU 3:17:18

Снижение себестоимости генерации токенов порождает у неосведомленных наблюдателей иллюзию, будто потребность в закупках дорогостоящего оборудования скоро снизится. В действительности же здесь в полную силу заявляет о себе парадокс Джевонса — фундаментальный экономический закон, согласно которому повышение эффективности использования ресурса парадоксальным образом ведет не к падению, а к взрывному росту его совокупного потребления.

В полупроводниковой индустрии этот закон бесперебойно работал на протяжении полувека в рамках закона Мура: каждые два года стоимость транзистора уменьшалась вдвое, а объемы производства и капитализация рынка непрерывно росли. В сфере искусственного интеллекта данный парадокс проявляется на куда более агрессивных таймскейлах: если закон Мура предполагал двукратное улучшение за два года, то в ИИ мы наблюдаем 1200-кратный скачок всего за три года.

Практические последствия этого феномена рынок ощутил незамедлительно. Сразу после релиза DeepSeek V3, который должен был якобы «обнулить» ценность инфраструктуры, стоимость аренды графических процессоров NVIDIA H100 в облаке AWS не упала, а пошла вверх. Новейшие чипы H200 мгновенно оказались в жесточайшем дефиците по всему миру, поскольку рассуждающие модели требуют кратно большего объема высокоскоростной памяти. Лекс Фридман поделился личным примером: когда его команде на текущей неделе потребовалось в срочном порядке арендовать небольшой кластер из 16 или 32 ускорителей H100 для демонстрации проекта, сделать это на открытом рынке оказалось практически невозможно. Чем доступнее и эффективнее становится ИИ, тем шире сфера его применения и тем выше совокупный спрос на аппаратные мощности. Главным бенефициаром этого процесса остается NVIDIA, поскольку альтернативного поставщика, способного столь же надежно обеспечивать индустрию комплексными решениями, на рынке попросту нет. Примечательно, что сама компания DeepSeek исторически являлась одним из крупнейших клиентов NVIDIA в Китае и активно закупала их ускорители. И хотя далее в дискуссии затрагиваются серые схемы аренды мощностей и обхода экспортного контроля, фундаментальный экономический вектор очевиден: технологический прогресс лишь расширяет глобальную империю чипов.

🕵️‍♂️ Серый импорт чипов и этические серые зоны дистилляции 3:21:12

Контрабанда GPU и облачная аренда в обход ограничений 3:21:12

Ограничения на экспорт передовых полупроводников заставляют китайские компании искать изощренные способы обхода санкций. Как отмечается в беседе, американские регуляторы активно пытаются остановить контрабанду чипов, но полностью перекрыть каналы серого импорта практически невозможно. Масштабы этой активности варьируются от курьезных единичных случаев до скоординированных международных сетей. Например, один из руководителей полупроводниковой индустрии поделился реальным снимком: пассажир первого класса авиакомпании United, летевший из Сан-Франциско в Шанхай, зарегистрировал в багаж огромную коробку компании Supermicro, в которой могли находиться только дефицитные GPU. Подобная «ручная» контрабанда экономически полностью оправдана: билет в первый класс обходится в 3–5 тысяч долларов, тогда как сервер, стоящий в США около 240–250 тысяч долларов, в Китае можно перепродать за 300 тысяч. Чистая прибыль в 50 тысяч долларов с лихвой окупает элитный перелет.

Существует несколько основных каналов, через которые китайские компании получают доступ к передовым технологиям в обход запретов:

Мелкомасштабный серый импорт: штучный вывоз серверов и чипов частными лицами под видом обычного багажа.
Международные сети посредников: закупка и перенаправление партий оборудования (обычно небольшими блоками по 16–64 GPU) через подставные фирмы в Сингапуре и Малайзии. Схожие теневые сети поставок материалов в свое время успешно выстроила компания Huawei после санкций 2018 года.
Облачная аренда: использование вычислительных мощностей американских провайдеров. До недавнего времени крупнейшим клиентом облака Oracle по аренде GPU была компания ByteDance (владелец TikTok), а для Google Cloud она оставалась вторым по величине заказчиком.

ByteDance активно арендовала ресурсы у десятков новых мелких облачных стартапов, оперирующих тысячами ускорителей NVIDIA. И хотя новые правила экспортного контроля США («правила диффузии»), принятые всего несколько недель назад, пытаются закрыть эту лазейку, лавировать все еще можно: ограничения не затрагивают кластеры размером менее 2000 GPU для аренды или менее 1500 GPU для покупки.

Несмотря на серые схемы, наращивать масштабы до уровня 10-миллиардных моделей Китаю будет крайне сложно из-за дефицита железа. Этот дефицит уже бьет по инференсу: DeepSeek испытывает колоссальные проблемы с нехваткой мощностей для обслуживания пользователей, из-за чего скорость выдачи падает ниже 5 токенов в секунду, а официальное приложение теряет позиции в магазинах ПО из-за приостановки регистраций. Тем не менее, дефицитные GPU превратились в товар с самой высокой стоимостью на килограмм веса, опережая по этому показателю наркотики и оружие.

Этика дистилляции и юридические барьеры в споре с OpenAI 3:26:04

Параллельно с дефицитом вычислительных мощностей разворачивается масштабная дискуссия вокруг методов обучения китайских моделей. OpenAI официально заявила, что располагает доказательствами использования своих API компанией DeepSeek для обучения конкурирующей нейросети. Этот процесс называется дистилляцией — когда разработчики берут ответы более мощной модели (например, GPT-4), генерируют огромный массив данных и затем обучают на нем свою собственную модель меньшего размера.

В академической и корпоративной среде дистилляция является стандартной практикой. Она используется для контролируемого тонкого обучения (SFT) на высококачественных текстах, чтобы заставить тренируемую модель имитировать поведение лидера. По слухам, закрытые лаборатории постоянно дистиллируют знания из своих внутренних невыпущенных флагманов, таких как гипотетическая GPT-5 или Claude 3 Opus, а Meta открыто использовала Llama 3 405B в качестве модели вознаграждения для обучения версии 70B.

Однако в случае с DeepSeek возник этический и юридический конфликт. Пользовательское соглашение (TOS) OpenAI прямо запрещает создавать конкурентов на основе их выходных данных. Но эксперты подчеркивают критическую разницу: TOS — это контракт на обслуживание, а не лицензия на интеллектуальную собственность. Нарушение контракта грозит лишь блокировкой аккаунта, но юридический статус созданных downstream-моделей остается размытым, особенно из-за неопределенности самого термина «конкурент».

К тому же здесь присутствует элемент корпоративного лицемерия: OpenAI и другие гиганты сами бесплатно обучали свои системы на текстах из интернета без всякого разрешения авторов. Существует и очевидная лазейка: если сгенерированные данные выгрузить в открытый доступ, а третья сторона обучит на них модель, цепочка контрактных обязательств рушится. Из-за повсеместного копирования данных в Сети возникает забавный артефакт: многие современные модели, даже не обучавшиеся на логах OpenAI, на вопрос «Кто тебя создал?» могут ответить «Я ChatGPT, разработанный OpenAI». Например, исследователи из Института искусственного интеллекта Аллена (AI2) при создании модели Tulu вынуждены использовать жесткие системные промты, чтобы подавить этот эффект.

Многие обвинения со стороны американских компаний выглядят как попытка контроля нарратива. В истории ИИ-индустрии множество стартапов бутстрапились именно за счет дистилляции данных OpenAI, и их никто не блокировал. Сегодня маятник качнулся в обратную сторону: разработчики уже вовсю дистиллируют саму DeepSeek в модели семейства Llama, поскольку архитектура китайской MoE слишком громоздка для инференса, а Llama является удобным открытым стандартом. Жесткие запреты на дистилляцию лишь затормозят прогресс и ухудшат положение всех игроков.

Помимо дистилляции данных, в Кремниевой долине процветает естественный обмен идеями через миграцию кадров: компании переманивают топ-инженеров ради их опыта (как это произошло с переходом ключевого разработчика контекстного окна Gemini в Meta для усиления Llama). Настоящий промышленный шпионаж на уровне кражи кода между компаниями затруднен, но утечка концепций на закрытых вечеринках в Сан-Франциско или через классические «медовые ловушки» (honey pots) для молодых инженеров остается обычным делом.

В завершение этой части дискуссии Лекс Фридман и его собеседник затронули тему беспрецедентного роста энергопотребления дата-центров в США, однако детальный разбор строительства ИИ-мегакластеров, таких как проект Stargate от OpenAI или дата-центр xAI Илона Маска в Мемфисе, вынесен в следующую главу этой статьи.

🏗️ Эпоха мегакластеров: гигаватты, жидкое охлаждение и монополия на «железо» 3:46:14

Развитие искусственного интеллекта перешло из фазы чистого программирования в фазу титанического промышленного строительства. Современные ИИ-лаборатории больше не ограничиваются серверными стойками; сегодня речь идет о создании мегакластеров — гигантских дата-центров мощностью в гигаватты, которые требуют прямой интеграции с электросетями и принципиально новых инженерных решений. Как отмечает собеседник Лекса Фридмана, гонка за вычислительными мощностями стала настолько острой, что вопросы экологии и устойчивого развития отошли на второй план перед необходимостью строить быстро и масштабно.

Гонка гигаваттов: проект в Мемфисе и «взрывоопасное» питание 3:46:14

Строительство энергетической инфраструктуры для ИИ сталкивается с фундаментальной проблемой: возведение новой атомной электростанции или даже реконфигурация существующей сети занимает слишком много времени . В условиях, когда компании закупают GPU на десятки миллиардов долларов, они не могут позволить оборудованию простаивать в ожидании разрешений на подключение. Это привело к возврату к ископаемому топливу: Meta строит газовые электростанции в Луизиане, OpenAI — в Техасе .

Самым экстремальным примером этой тенденции стал проект Илона Маска в Мемфисе. Чтобы запустить кластер в кратчайшие сроки, xAI использует не только эффективные газовые установки комбинированного цикла, но и мобильные генераторы, что «объективно грязно», но позволяет выигрывать время . Масштабы потребления энергии здесь таковы, что они создают уникальные физические риски для энергосистемы.

В процессе обучения ИИ возникают резкие скачки потребления: когда GPU переходят от вычислений к обмену градиентами (weight exchange), нагрузка на сеть падает, а затем снова резко возрастает . Эти «транзитные всплески» могут буквально взорвать оборудование подстанции. Чтобы предотвратить это, инженеры Meta даже внедрили в код PyTorch специфический оператор (условно называемый PowerPlant.no_blowup), который заставляет GPU вычислять «фейковые» числа во время пауз, просто чтобы поддерживать стабильное потребление энергии и не перегружать сеть . Решение Маска в Мемфисе иное — использование массивов батарей Tesla Megapack для сглаживания этих пиков .

Инженерные инновации: от воздуха к жидкому охлаждению 3:52:24

Долгое время стандартом в индустрии было воздушное охлаждение с использованием медных трубок и мощных вентиляторов. Однако с ростом мощности чипов (H100 потребляет 700 Вт, а новое поколение Blackwell — до 1200 Вт) воздух перестал справляться . Жидкое охлаждение стало необходимостью.

В кластере Мемфиса реализована беспрецедентная по масштабу система водяного охлаждения. Снаружи здания установлены около 90 гигантских контейнеров-чиллеров, которые охлаждают воду и подают её непосредственно к чипам . Это не только вопрос отвода тепла, но и вопрос плотности размещения:

Жидкое охлаждение позволяет располагать чипы вплотную друг к другу .
Минимальное расстояние между GPU критически важно для создания высокоскоростных соединений (interconnects).
Чем короче путь сигнала, тем выше пропускная способность сети обучения.

На текущий момент кластер xAI в Мемфисе считается крупнейшим единичным объектом в мире — он объединяет 200 000 графических процессоров (100 000 H100 и 100 000 H200) . Для сравнения, у Meta и OpenAI кластеры насчитывают около 100 000–128 000 GPU, хотя общее количество их вычислителей может быть больше, просто они распределены по разным локациям .

Google TPU против NVIDIA: закрытая альтернатива 3:58:50

Единственной реальной технологической альтернативой доминированию NVIDIA сегодня являются чипы TPU (Tensor Processing Unit) от Google. По совокупной мощности Google обладает, возможно, крупнейшим ИИ-флотом в мире, но его структура отличается от подхода Маска. Вместо одного «мега-здания» Google создает «супер-регионы» (например, в Айове и Небраске), где несколько дата-центров в радиусе 30 миль соединены сверхскоростным оптоволокном .

Однако Google почти не продает свои чипы внешним клиентам, используя их для внутренних нужд: поиска, рекламы, YouTube и модели Gemini . Это создает специфическую культуру «кодизайна» оборудования и софта:

Архитектурная оптимизация: Например, модель Gemma имеет неоправданно большой словарь (vocabulary) для своего размера, просто потому что это лучше подходит под массивные блоки матричного умножения в TPU .
Программный барьер: Внутренние библиотеки Google (Jax, XLA) идеально оптимизированы под TPU, но при выходе за пределы компании исследователи обнаруживают, что публичные версии этих инструментов работают гораздо хуже .
Бюрократия: В отличие от NVIDIA, чья культура полностью заточена под обслуживание внешних клиентов через CUDA, команды разработчиков TPU в Google ориентированы на обслуживание внутренних гигантов вроде DeepMind или отдела Поиска .

Почему конкуренты отстают: проблема софта и «Путь NVIDIA» 4:08:27

Несмотря на попытки AMD и Intel войти в игру, NVIDIA удерживает лидерство не только за счет «железа». AMD производит достойные чипы, которые по некоторым характеристикам превосходят NVIDIA, но их программное обеспечение остается слабым звеном . Собеседник Лекса Фридмана отмечает, что сторонним компаниям приходится самим находить и исправлять элементарные баги в библиотеках AMD, которые ориентированы только на нескольких крупнейших заказчиков .

Ситуация с Intel выглядит еще более тревожной. Компания, долгое время бывшая лидером, пропустила мобильную революцию и сейчас теряет рынок серверных процессоров, так как облачные гиганты (AWS, Google, Microsoft) переходят на собственные чипы на базе ARM . В контексте национальной безопасности США это создает опасную зависимость от одного производителя — тайваньской TSMC, так как Intel и Samsung значительно отстают в исследованиях и разработках (R&D) передовых техпроцессов .

Ранее в разговоре они касались того, как геополитика влияет на доступ к технологиям, и текущий упадок Intel лишь подчеркивает, что в гонке ИИ выигрывает тот, кто контролирует всю цепочку: от проектирования чипа и системы охлаждения до программной экосистемы.

🤖 Будущее ИИ-агентов и автоматизация программирования 4:11:03

В то время как внимание публики сосредоточено на чат-ботах, реальная борьба за лидерство в индустрии ИИ разворачивается в области экономики и практического применения. На текущем этапе только NVIDIA и некоторые производители «железа» получают чистую прибыль, в то время как гиганты вроде Microsoft и Meta тратят миллиарды на капитальные расходы . Однако долгосрочная ставка делается не на простое общение в чате, а на создание полноценных агентов и автоматизацию сложных когнитивных процессов.

Существует иерархия уровней развития ИИ: от первого уровня (чат) мы переходим ко второму (рассуждения), а затем к третьему — агентам . Если «рассуждающие» модели тратят десятки секунд на поиск ответа, то агенты должны действовать автономно в течение минут или часов, решая открытые задачи в условиях неопределенности . Переход к этой стадии осложняется «проблемой Шести Сигм»: в производстве полупроводников точность 99,9999% необходима, чтобы итоговый выход годной продукции не упал до нуля при выполнении тысяч последовательных шагов. Аналогично, если ИИ-агент ошибается хотя бы в 5% случаев на каждом этапе длинной цепочки задач, его итоговая надежность стремительно обнуляется .

Проблема «грязного мира» и инфраструктура для агентов 4:25:10

Одной из главных преград для широкого внедрения агентов остается хаотичность реального мира. В отличие от дорог с их правилами движения, открытый интернет и операционные системы — это «месиво» (mess) неструктурированных данных . По мнению экспертов, мы вряд ли увидим внезапный скачок к полной автономии; скорее, будет выстроена инфраструктура поддержки, подобная удаленным операторам Waymo, которые помогают беспилотникам в сложных ситуациях .

Компании уже начинают адаптировать свои интерфейсы под ИИ. Если сейчас покупка авиабилета на сайте может вызвать «экзистенциальный кризис» даже у человека из-за сложности интерфейса, в будущем компании могут создавать скрытые API или упрощенные версии сайтов специально для ИИ-агентов . Это создаст новый сетевой эффект: бизнесы, которые сделают себя «читаемыми» для ИИ, получат больше заказов и трафика .

SWE-bench: Революция в кодинге и верифицируемые домены 4:30:12

Программирование — это область, где ИИ уже демонстрирует наиболее впечатляющие результаты и приносит реальную выручку через такие инструменты, как Cursor или GitHub Copilot. Ключевым показателем прогресса здесь стал бенчмарк SWE-bench, созданный студентами Стэнфорда. Он проверяет способность модели решать реальные задачи (GitHub issues) в программных проектах. Всего за один год показатели моделей в этом тесте выросли с 4% до 60% успешно решенных задач .

Программирование является идеальной средой для обучения агентов, так как это «верифицируемый домен» . В отличие от написания эссе или юридических советов, код можно скомпилировать и прогнать через юнит-тесты. Если тест пройден — задача решена. ИИ-агенты могут инспектировать всю кодовую базу целиком, что часто не под силу даже опытным инженерам, и исполнять архитектурные решения с идеальной точностью .

Конец эпохи корпоративного ПО и новая роль инженера 4:32:15

Снижение стоимости написания кода может радикально изменить рынок корпоративного программного обеспечения (SaaS). В США компании привыкли использовать готовые платформы вроде Salesforce, потому что нанимать штат инженеров для создания собственной системы слишком дорого. В Китае же, где стоимость разработки традиционно ниже, многие компании предпочитают строить собственные стеки вместо подписки на SaaS .

Когда ИИ сделает стоимость разработки практически нулевой, западный рынок может последовать китайскому сценарию:

Компании перестанут адаптировать свои бизнес-процессы под ограничения готового ПО.
Вместо этого они будут генерировать уникальную бизнес-логику, идеально подходящую под их нужды .
Доменные эксперты (химики, механику, инженеры-полупроводники), которые раньше «застревали» в Excel и старом софте 20-летней давности, получат возможность создавать мощные инструменты без глубоких знаний синтаксиса языков программирования .

Это не означает исчезновения профессии программиста, но меняет её суть. Инженер превращается в «супервайзера» системы и хранителя «вкуса» . Поскольку ИИ отлично генерирует варианты, но человеку проще выбрать лучший из них, роль программиста сместится в сторону ревью кода (PR review) и принятия архитектурных решений . Главный совет для современных специалистов — не избегать ИИ, а учиться управлять им как партнером, сохраняя при этом высокий уровень экспертизы для проверки результата .

🚀 Открытость ИИ и архитектура будущего: от рецептов Tulu до мегакластеров

Проект Tulu: демократизация ИИ через открытые рецепты

Институт Аллена по ИИ (AI2) делает ставку на полную прозрачность в разработке моделей. В рамках проекта Tulu команда выпускает модели, сопровождаемые полностью открытыми данными и кодом обучения. Мотивация проста: в мире, где большинство Frontier-лабораторий скрывают свои «рецепты», Tulu предоставляет сообществу возможность видеть, что именно стоит за процессом обучения. Проект опирается на наследие ранних открытых моделей, таких как Alpaca, и продолжает развивать методы пост-обучения, используя модели на базе архитектуры Llama.

Интерес к «полной открытости» продиктован отсутствием доступа к данным и коду обучения у лидеров рынка. Например, при анализе топ-60 моделей на лидерборде Chatbot Arena в конце года выяснилось, что практически ни одна из них не предоставляет открытых исходников для фазы пост-обучения, не говоря уже о данных пре-обучения. Tulu стремится заполнить этот пробел, создавая полноценную рецептуру, которую стартапы и независимые исследователи могут адаптировать под свои специфические задачи — будь то математика или написание кода. В частности, команда AI2 продемонстрировала эффективность применения обучения с подкреплением и верифицируемыми доменными наградами (RL-VR) для значительного улучшения результатов на математических бенчмарках, зачастую обходя по качеству даже закрытые аналоги.

Будущее открытого ИИ: за пределами брендинга

Вопрос о том, что считать «настоящим» Open Source в эпоху ИИ, остается острым. Лицензионные ограничения, накладываемые гигантами (такими как обязательство называть модель именем разработчика или запреты на определенные типы использования), часто противоречат принципам классического открытого программного обеспечения. Выпуск моделей с по-настоящему дружелюбными коммерческими лицензиями без ограничений на использование синтетических данных или дистилляции рассматривается как «перезагрузка» индустрии.

Для сторонников открытости ключевая проблема текущего момента — отсутствие устойчивых «петель обратной связи». В обычном ПО возможность повторного использования кода создает огромную ценность. В случае с ИИ, где обучение требует колоссальных вычислительных мощностей и экспертизы, просто «выложить веса» недостаточно. Миссия AI2 заключается в том, чтобы сделать этот процесс идеологически и практически значимым, приближая качество открытых моделей к рубежным технологическим решениям.

Реальность Stargate и экономика мегакластеров

Обсуждения мегапроектов, таких как Stargate, часто обрастают мифами о баснословных инвестициях. В действительности, цифра в 500 миллиардов долларов является скорее абстракцией, а реальные затраты на первую фазу проекта в Абилине, штат Техас, оцениваются гораздо скромнее. Этот проект предполагает создание кластера мощностью 2,2 ГВт, из которых около 1,8 ГВт будет потребляться непосредственно оборудованием. Капитальные затраты (capex) на серверную часть в первой фазе составляют порядка 5-6 миллиардов долларов, а полная стоимость владения (TCO) доходит до 100 миллиардов при условии полной загрузки кластера чипами последующих поколений NVIDIA.

На текущий момент у OpenAI, несмотря на амбициозные планы, нет всей необходимой суммы — это сложная комбинация долговых обязательств, инвестиций от партнеров (вроде SoftBank и Oracle) и ожидаемых будущих доходов. Роль администрации США и лично Дональда Трампа в этом процессе сводится к снижению регуляторного барьера: упрощение процесса строительства дата-центров на федеральных землях и ускорение бюрократических процедур стимулируют «гонку вооружений», создавая атмосферу, в которой строительство инфраструктуры становится проще и быстрее.

Инженерные вызовы и будущее вычислений

Технологическое развитие в ближайшие годы будет определяться не только масштабированием, но и глубокими инновациями на уровне всей «стопки» (stack) — от литографии и материалов кабелей до систем охлаждения и сетевой архитектуры. Важнейшим направлением являются сетевые решения внутри кластеров: развитие оптики и новых форм коммутации данных.

Однако попытки объединить разрозненные мощности в единый «суперкомпьютер» наталкиваются на фундаментальные физические и алгоритмические ограничения. Иерархия памяти остается неизменной: данные, хранящиеся в регистрах на чипе, всегда будут доступнее, чем те, что передаются по оптоволокну между дата-центрами. Программирование этих систем не станет проще; напротив, сложность управления интеллектуальными мегасистемами будет только расти. Тем не менее, возможность наблюдать за «рассуждениями» (Chain of Thought) нейросетей остается для исследователей глубоко вдохновляющим процессом, позволяющим лучше понять саму природу человеческого интеллекта.

🚀 Взгляд в будущее: Оптимизм, физические ограничения и угроза технофашизма 5:02:10

Физические ограничения и устойчивость человечества 5:02:23

Рассуждая о перспективах человеческой цивилизации на ближайшие столетия, собеседники Лекса Фридмана выражают осторожный, но уверенный оптимизм. Несмотря на то что человечество плохо справляется с долгосрочной оценкой рисков, оно демонстрирует поразительную способность решать проблемы, когда угроза становится непосредственной.

Что касается страхов перед неконтролируемым захватом власти ИИ — так называемыми сценариями рекурсивного самосовершенствования, способного уничтожить человечество, — то здесь аргументы строятся на физических ограничениях реальности. Существуют фундаментальные барьеры, препятствующие подобному развитию событий. История человечества подтверждает: люди умеют выживать даже в самые тяжелые периоды. Хотя будущее может быть хрупким, а на историческом пути возможны «скачки человеческих страданий», общая траектория развития остается позитивной, направленной на минимизацию этих страданий и рост благосостояния.

Технофашизм и симбиоз человека с машиной 5:03:41

Гораздо более реальной угрозой, чем восстание машин, видится возникновение «технофашизма» по мере роста мощи и распространенности искусственного интеллекта. Концентрация контроля над такими инструментами в руках узкой группы лиц создает новые социальные риски. Ожидается, что в какой-то момент наиболее влиятельные люди будут стремиться использовать интерфейсы «мозг-компьютер», чтобы интегрировать возможности AGI напрямую в свое сознание.

Это приведет к появлению своего рода «человеко-машинных амальгам», где возможности отдельного человека будут многократно усилены. Главное опасение заключается в том, что вместо власти одного человека мы получим сценарий, где небольшая элита — от сотен до миллионов людей — будет доминировать над остальным миром. При этом под AGI понимается не «мыслящий субъект», а высокоэффективная система для решения прикладных задач, которая, попав в руки деструктивно настроенных личностей, может многократно усилить их негативное влияние.

Экономика изобилия и смысл прогресса 5:04:57

Несмотря на риски, основной вектор использования ИИ будет определяться мотивами извлечения прибыли, что, по мнению экспертов, в конечном итоге приведет к увеличению изобилия ресурсов и снижению общего уровня страданий. Прогресс в этой области рассматривается как способ сделать жизнь более комфортной. Даже если иронизировать над «стазисом», где главными атрибутами счастья остаются базовое обеспечение и доступ к информации, само по себе расширение возможностей человечества для освоения космоса и технологического роста является глубоко позитивным результатом.

Ранее в разговоре участники касались вопросов технической реализации робототехники и обучения ИИ управлению физическими объектами.