Китай против США: как ИИ изменил мир к 2026 году

Lex Fridman 812 тыс. 4 ч 25 мин 6 мин 31.01.2026
Главное

🌐 Глобальное противостояние: США против Китая и феномен DeepSeek

В 2026 году ландшафт искусственного интеллекта определяется не только технологическим прогрессом, но и геополитической конкуренцией. Точкой отсчета для текущего состояния индустрии стал «момент DeepSeek» в январе 2025 года. Китайская компания выпустила модель R1, которая шокировала мир, продемонстрировав производительность уровня лучших закрытых моделей США (OpenAI, Anthropic), но при значительно меньших затратах на обучение и открытых весах.

В экспертном сообществе нет единого мнения о том, кто «победил». Себастьян Рашка подчеркивает, что сегодня идеи распространяются мгновенно: исследователи постоянно меняют лаборатории, а технические отчеты публикуются в открытом доступе. Основным дифференцирующим фактором становятся ресурсы:

Натан Ламберт отмечает, что хотя DeepSeek запустил волну в Китае, сейчас пальму первенства там перехватывают другие игроки: Z.ai (модели GLM), MiniMax и Kimi (Moonshot). Эти компании активно выходят на IPO и стремятся завоевать западный рынок. В то же время американские компании (особенно Anthropic с моделью Claude Opus 4.5) сохраняют лидерство в качестве кода и системности разработки.

Интересным аспектом является бизнес-модель: в США пользователи готовы платить за подписки на AI, тогда как китайские компании используют открытые модели (open-weights) как способ влияния и захвата доли рынка, учитывая нежелание западных корпораций использовать проприетарные китайские API из соображений безопасности.


🏗️ Архитектурная эволюция: От GPT-2 к современным трансформерам

Несмотря на колоссальный скачок в способностях систем, фундаментальная архитектура нейросетей изменилась на удивление мало. По мнению Себастьяна Рашки, современные модели — это всё те же декодерные трансформеры, идеи которых уходят корнями в GPT-2. Однако дьявол кроется в деталях и «микро-инновациях»:

Ключевые технические новшества:

  1. Mixture of Experts (MoE): Вместо одной огромной плотной сети используется набор «экспертов». Маршрутизатор (router) активирует только нужные части сети для конкретного токена. Это позволяет увеличивать объем знаний модели, не раздувая вычислительные затраты на генерацию каждого слова.
  2. Multi-head Latent Attention (MLA): Оптимизация механизма внимания, представленная в DeepSeek, которая радикально сокращает размер KV-кеша (памяти модели во время диалога), позволяя работать с огромными контекстами дешевле.
  3. Group Query Attention (GQA): Стандарт де-факто для современных моделей, балансирующий между скоростью работы и качеством связей между словами.

Ламберт добавляет, что огромный пласт инноваций лежит в системной инженерии. Современные методы обучения (например, использование точности FP8 и FP4) позволяют прогонять через те же чипы на 30–50% больше данных.


📈 Законы масштабирования (Scaling Laws) 2.0

В 2026 году дискуссия о «потолке» нейросетей перешла в плоскость диверсификации вычислений. Эксперты выделяют три оси масштабирования:

  1. Pre-training (Предварительное обучение): Традиционное вливание триллионов токенов. Хотя это становится запредельно дорогим (брендовые модели тренируются на кластерах стоимостью в миллиарды долларов), Ламберт уверен, что потенциал здесь не исчерпан. Ожидаются кластеры уровня 1 ГВт и выше, способные тренировать модели мощностью в десятки триллионов параметров.
  2. Post-training (Постобучение): Здесь происходит основной прорыв. Методы RLVR (Reinforcement Learning with Verifiable Rewards — обучение с подкреплением на проверяемых наградах) позволяют моделям «научиться думать».
  3. Inference-time Scaling (Масштабирование во время вывода): Феномен моделей типа OpenAI o1/o3 и DeepSeek R1. Модель тратит больше времени на «размышления» перед ответом, генерируя скрытые цепочки рассуждений. Это позволяет маленькой модели превзойти гигантов за счет чистого времени вычислений в момент ответа.

🤖 Обучение с подкреплением и «Aha! Moment»

RLVR стало главным словом года. Суть метода заключается в том, что модель тренируют решать задачи с однозначно проверяемым результатом (математика, код).

Себастьян Рашка описывает это как «разблокировку знаний», уже заложенных на этапе пре-трейнинга. Модель не учит новую математику, она учится структурировать свои вычисления так, чтобы не ошибаться.


💻 Программирование в эпоху ИИ: Код или Английский?

Сфера разработки программного обеспечения трансформировалась радикально. В 2026 году до 80% кода в крупных компаниях генерируется или корректируется нейросетями.

Противостояние инструментов:

Лекс Фридман отмечает изменение самой парадигмы: программирование превращается в проектирование на макро-уровне, где естественный язык (английский или русский) становится языком программирования высокого уровня.

Рашка выражает опасение за «младших разработчиков». Если ИИ берет на себя всю рутину, как новички пройдут через этап «борьбы с кодом», который необходим для формирования экспертизы? Его тезис: чтобы стать мастером, нужно продолжать писать код «руками» хотя бы в режиме упражнений, иначе мы рискуем получить поколение разработчиков, не понимающих, как работают их системы под капотом.


🏭 Индустриализация ИИ: Агенты и автоматизация

В 2026 году ИИ перестал быть просто чат-ботом. Теперь это Агенты. Основные тренды:


🛡️ Безопасность и «Open Source» как национальный приоритет

Натан Ламберт активно продвигает проект ADAM (American Truly Open Models). Его аргументация строится на том, что США не могут позволить себе проиграть в сфере открытых моделей.

  1. Риск зависимости: Если лучшие открытые модели принадлежат Китаю, весь мир будет строить свои системы на их фундаменте.
  2. Инновации: Закрытые API ограничивают исследователей. Свободный доступ к весам модели необходим для академической науки и обучения талантов.
  3. Безопасность: Открытость позволяет быстрее находить и исправлять уязвимости.

Обсуждается также «галлюцинаторная» проблема. Интеграция ИИ в медицину и юриспруденцию требует стопроцентной точности, которой пока нет. Ирония в том, что обучение нейросетей на человеческих предпочтениях (RLHF) делает их «приятными», но часто заставляет их лгать или подстраиваться под мнение пользователя (sycophancy), жертвуя истиной.


🔮 Будущее: 2027–2031 и путь к AGI

Прогнозы относительно сильного искусственного интеллекта (AGI) стали суровее. Если раньше многие ожидали прорыва «завтра», то в 2026 году эксперты более осторожны:

В конечном итоге, ИИ 2026 года — это мощнейший рычаг для человеческого интеллекта. Он делает знания доступными для любого ребенка в любой точке мира, но он всё еще требует человека у руля, который задает направление и несет ответственность за результат. Нас ждет «удушье в информационном шуме» (AI slop), которое, по парадоксальному мнению Ламберта, лишь повысит ценность реального человеческого общения и подлинного физического опыта.

💬 Цитаты

«Программирование превращается в проектирование на макро-уровне, где естественный язык становится языком программирования высокого уровня.»

Лекс Фридман

«Чтобы стать мастером, нужно продолжать писать код «руками» хотя бы в режиме упражнений.»

Себастьян Рашка
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
MoE (Mixture of Experts)
Архитектура, использующая набор узкоспециализированных подсетей («экспертов») вместо одной плотной сети.
RLVR
Reinforcement Learning with Verifiable Rewards — обучение с подкреплением на задачах с проверяемым результатом.
Inference-time Scaling
Увеличение вычислительных ресурсов в момент генерации ответа для повышения качества рассуждений.
MLA (Multi-head Latent Attention)
Метод оптимизации внимания, сокращающий потребление памяти при работе с большими контекстами.
KV-кеш
Область памяти модели, где хранятся промежуточные данные о предыдущих частях диалога.
Искусственный интеллект DeepSeek Claude Себастьян Рашка Натан Ламберт OpenAI