Kimi k2.5: новый лидер среди open-source моделей для кодинга?

Новая веха в Open Source: возможности модели Kimi k2.5 0:00

На рынке нейросетевых технологий произошло очередное заметное событие: компания Moonshot AI представила обновленную языковую модель Kimi k2.5. Блогер Уэс Рот в своем недавнем обзоре подчеркивает, что эта разработка может стать серьезным конкурентом для флагманских моделей от Google, Anthropic и OpenAI, особенно в задачах программирования и генерации веб-интерфейсов. Главной особенностью релиза стал режим «Agent Swarm», позволяющий модели запускать до 100 параллельных агентов для выполнения сложных составных задач.

🤖 Технологический прорыв: режим «Agent Swarm» 1:57

По словам Рота, интеграция автономных агентов, работающих параллельно, является значительным шагом для индустрии. Новая архитектура обладает следующими характеристиками:

Масштабируемость: запуск до 100 под-агентов.
Эффективность: выполнение около 1500 вызовов инструментов.
Скорость: работа в 4,5 раза быстрее по сравнению с использованием одиночного агента.

Модель демонстрирует высокие показатели в бенчмарках, в частности, получив 50,2 балла в тесте «Humanity’s Last Exam», что, по утверждению ведущего, является лучшим результатом для отдельной модели на текущий момент.

💻 Кодинг и визуальные возможности 3:14

Одной из наиболее впечатляющих функций Kimi k2.5 является способность к «визуальному программированию». Модель способна анализировать изображения и даже видеозаписи веб-сайтов, а затем воспроизводить их код и структуру.

В ходе практического теста Рот попробовал воссоздать интерфейс сайта на основе нескольких скриншотов. Результат оказался весьма достойным:

Был сгенерирован полноценный шаблон «Meow Studios Premium Cat Accessories».
Модель успешно реализовала адаптивную верстку под мобильные устройства.
Функционал включил в себя базовые элементы e-commerce (карточки товаров, корзину), хотя некоторые ссылки требовали доработки.

Кроме того, при тестировании создания игровой механики (по аналогии с Melvor Idle) модель с первой попытки сгенерировала рабочий игровой цикл с инвентарем, системой прокачки навыков, добычей ресурсов и боевой системой.

⚖️ Скептицизм и борьба с «бенчмаркингом» 4:17

Несмотря на оптимизм, ведущий призывает к осторожности в оценках. Он ссылается на мнение Натана Лэйна (Nathan Leen), который отмечает, что китайские модели часто показывают отличные результаты на синтетических тестах, но проигрывают западным аналогам в «полевых» условиях и реальных пользовательских задачах.

Однако, по словам Рота, Kimi k2.5 — это редкое исключение, где разрыв между бенчмарками и реальностью значительно сократился. Модель также показала лидерство в EQ Bench (эмоциональный интеллект), набрав 1600 очков ELO и обойдя даже GPT-5, что делает её привлекательным инструментом для творческого письма.

📊 Положение на рынке и перспективы 8:03

Используя данные агрегатора OpenRouter, автор показывает текущую динамику рынка LLM по объему используемых токенов:

Google остается лидером с долей около 25%.
Anthropic занимает второе место (17%).
OpenAI удерживает 14%.
xAI (Grok) достигла 13% благодаря популярности модели для кодинга.

Рот полагает, что если Kimi k2.5 сохранит текущие темпы принятия пользователями, она может повторить резкий рост доли рынка, который ранее показала модель Grok. В то же время индустрия ожидает новых релизов от DeepSeek и потенциального появления модели Gemini 3.5 с кодовым названием «Snow Bunny», слухи о которой обсуждаются в сообществе.