Новая веха в Open Source: возможности модели Kimi k2.5 0:00
На рынке нейросетевых технологий произошло очередное заметное событие: компания Moonshot AI представила обновленную языковую модель Kimi k2.5. Блогер Уэс Рот в своем недавнем обзоре подчеркивает, что эта разработка может стать серьезным конкурентом для флагманских моделей от Google, Anthropic и OpenAI, особенно в задачах программирования и генерации веб-интерфейсов. Главной особенностью релиза стал режим «Agent Swarm», позволяющий модели запускать до 100 параллельных агентов для выполнения сложных составных задач.
🤖 Технологический прорыв: режим «Agent Swarm» 1:57
По словам Рота, интеграция автономных агентов, работающих параллельно, является значительным шагом для индустрии. Новая архитектура обладает следующими характеристиками:
- Масштабируемость: запуск до 100 под-агентов.
- Эффективность: выполнение около 1500 вызовов инструментов.
- Скорость: работа в 4,5 раза быстрее по сравнению с использованием одиночного агента.
Модель демонстрирует высокие показатели в бенчмарках, в частности, получив 50,2 балла в тесте «Humanity’s Last Exam», что, по утверждению ведущего, является лучшим результатом для отдельной модели на текущий момент.
💻 Кодинг и визуальные возможности 3:14
Одной из наиболее впечатляющих функций Kimi k2.5 является способность к «визуальному программированию». Модель способна анализировать изображения и даже видеозаписи веб-сайтов, а затем воспроизводить их код и структуру.
В ходе практического теста Рот попробовал воссоздать интерфейс сайта на основе нескольких скриншотов. Результат оказался весьма достойным:
- Был сгенерирован полноценный шаблон «Meow Studios Premium Cat Accessories».
- Модель успешно реализовала адаптивную верстку под мобильные устройства.
- Функционал включил в себя базовые элементы e-commerce (карточки товаров, корзину), хотя некоторые ссылки требовали доработки.
Кроме того, при тестировании создания игровой механики (по аналогии с Melvor Idle) модель с первой попытки сгенерировала рабочий игровой цикл с инвентарем, системой прокачки навыков, добычей ресурсов и боевой системой.
⚖️ Скептицизм и борьба с «бенчмаркингом» 4:17
Несмотря на оптимизм, ведущий призывает к осторожности в оценках. Он ссылается на мнение Натана Лэйна (Nathan Leen), который отмечает, что китайские модели часто показывают отличные результаты на синтетических тестах, но проигрывают западным аналогам в «полевых» условиях и реальных пользовательских задачах.
Однако, по словам Рота, Kimi k2.5 — это редкое исключение, где разрыв между бенчмарками и реальностью значительно сократился. Модель также показала лидерство в EQ Bench (эмоциональный интеллект), набрав 1600 очков ELO и обойдя даже GPT-5, что делает её привлекательным инструментом для творческого письма.
📊 Положение на рынке и перспективы 8:03
Используя данные агрегатора OpenRouter, автор показывает текущую динамику рынка LLM по объему используемых токенов:
- Google остается лидером с долей около 25%.
- Anthropic занимает второе место (17%).
- OpenAI удерживает 14%.
- xAI (Grok) достигла 13% благодаря популярности модели для кодинга.
Рот полагает, что если Kimi k2.5 сохранит текущие темпы принятия пользователями, она может повторить резкий рост доли рынка, который ранее показала модель Grok. В то же время индустрия ожидает новых релизов от DeepSeek и потенциального появления модели Gemini 3.5 с кодовым названием «Snow Bunny», слухи о которой обсуждаются в сообществе.