Уэс Рот о триумфе Kimi K2: почему китайские нейросети обходятся в разы дешевле западных аналогов

Выход новой китайской модели искусственного интеллекта Kimi K2 от компании Moonshot AI вызвал широкий резонанс в индустрии. Техно-аналитик и автор канала Wes Roth (Уэс Рот) детально разбирает, почему эта открытая модель не только ставит рекорды на тестах, но и раскрывает хитрую стратегию Китая в глобальной гонке вооружений ИИ.

🚀 Технологический прорыв Kimi K2 и новые рекорды 0:00

Модель Kimi K2 позиционируется разработчиками как «думающий агент» (thinking agent). По словам Уэса Рота, она уже успела занять лидирующие позиции в ряде ключевых бенчмарков, обойдя такие западные аналоги, как Claude 3.5 Sonnet и даже, в некоторых аспектах, будущие итерации GPT-5 .

Ключевые технические достижения модели включают:

Humanity's Last Exam: Kimi K2 получила высший балл (state-of-the-art) на этом сложном экзамене для ИИ .
Автономность инструментов: Модель способна выполнять от 200 до 300 последовательных вызовов инструментов (tool calls) без вмешательства человека .
Контекстное окно: Поддержка контекста объёмом до 256 тысяч токенов .
Креативность: В рейтинге EQ Bench 3 (тест на качество художественного письма) Kimi K2 заняла первое место в мире .

Как отмечает Уэс Рот, Kimi K2 является более масштабной и усовершенствованной версией модели DeepSeek R1 . Она активно использует концепцию «масштабирования во время выполнения» (test-time scaling), которая стала известна широкой публике после выхода модели o1 от OpenAI .

🧠 Секрет «мышления»: масштабирование в реальном времени 1:07

Основное отличие новых «думающих» моделей заключается в переходе от простого обучения (pre-train compute) к вычислениям во время генерации ответа (test-time compute). По мнению Рота, это критический сдвиг в развитии отрасли: теперь точность модели зависит не только от того, сколько данных в неё «закачали» при создании, но и от того, сколько вычислительных ресурсов ей позволяют потратить на «размышления» перед выдачей ответа .

Особенности работы Kimi K2 в этом режиме:

Расход токенов: Модель тратит огромное количество токенов на внутренние рассуждения даже для относительно простых задач .
Зависимость качества от времени: Чем дольше модель «думает» (сжигает вычислительные ресурсы), тем выше её точность в математических задачах и программировании .

💰 Экономический шок: $4,6 миллиона против миллиардов 3:56

Одним из самых обсуждаемых фактов стала стоимость обучения Kimi K2. По данным CNBC, компания Moonshot AI, поддерживаемая Alibaba, потратила на обучение модели всего 4,6 миллиона долларов . Для сравнения, DeepSeek заявляла о затратах в 5,6 миллиона долларов на свою версию V3 .

Уэс Рот анализирует этот феномен «дешёвого прорыва»:

Эффект догоняющего: Рот объясняет, что первому инноватору всегда сложнее и дороже прокладывать путь (инвестиции в исследования, инфраструктуру, данные). Однако для тех, кто идет следом, стоимость «догона» падает в геометрической прогрессии .
Дистилляция знаний: Китайские лаборатории часто используют данные, полученные от американских моделей (OpenAI, Google), для обучения своих систем .
Критика данных CNBC: Автор канала выразил сомнение в корректности сравнений СМИ, когда стоимость обучения одной китайской модели противопоставляют общим операционным убыткам OpenAI в миллиарды долларов. По мнению Рота, обучение топовых моделей в США стоит десятки миллионов, но никак не миллиарды за одну итерацию .

🛡️ Геополитическая стратегия: «Секретность по умолчанию» 7:27

Уэс Рот, ссылаясь на экспертов по Китаю, раскрывает возможную стратегию китайского руководства в сфере высоких технологий. Он полагает, что реальный уровень развития китайского ИИ может быть выше того, что мы видим в открытом доступе .

Суть этой стратегии (по мнению Рота):

Публикация «вдогонку»: Китайские лаборатории могут держать свои передовые разработки в секрете до тех пор, пока аналогичные достижения не будут опубликованы на Западе. Как только западные СМИ сообщают о прорыве (например, улучшение на 25%), Китай тут же рассекречивает и публикует свою модель с такими же или чуть лучшими показателями .
Скрытие преимущества: Рот считает, что Китай никогда не опубликует модель, которая «на голову» выше западных, чтобы не давать повода для обратного инжиниринга и не раскрывать свои методы достижения сверхэффективности .
Захват рынка: Выпуская бесплатные или крайне дешёвые open-source модели, Китай оказывает ценовое давление на американские лаборатории (OpenAI, Anthropic) и приучает мир строить инфраструктуру на базе своих технологий .

🏎️ Итоги: Гонка в стиле Mario Kart 10:02

В завершение Уэс Рот приводит наглядную аналогию с игрой Mario Kart. В этой игре есть «механика догона»: тот, кто идет последним, получает бонусы и ускорение, а лидер — штрафы.

Автор делает два основных вывода:

Никто не уйдет в отрыв: Маловероятно, что какая-то одна компания или страна сможет лидировать в гонке ИИ с огромным отрывом долгое время. Любой прорыв будет быстро скопирован и удешевлен конкурентами .
Мы не знаем всей правды: Настоящие возможности китайских лабораторий могут оставаться скрытыми до тех пор, пока Запад не представит что-то сопоставимое .

Китай успешно конвертирует свое преимущество в физическом производстве в доминирование в софтверной сфере, фактически «выбивая почву» из-под ног западных компаний за счет демпинга и открытого кода .