В современном мире разработки искусственный интеллект стал неотъемлемым инструментом, однако зависимость от закрытых проприетарных моделей (таких как GPT-4 или Claude) создает барьеры в виде высокой стоимости и задержек. Алекс Кер, инженер по росту в компании Base 10, утверждает, что открытые (open-source) модели не просто догнали лидеров рынка, но и стали «секретным двигателем» для ИИ-кодинга в промышленных масштабах благодаря гибкости и скорости.
🔓 Почему открытый код побеждает закрытые системы 2:47
Несмотря на популярность решений от OpenAI и Anthropic, разработчики все чаще сталкиваются с ограничениями закрытых моделей при масштабировании продуктов. По словам Алекса Кера, разработчики продолжают использовать GPT-4 или Claude 3.5 Sonnet просто потому, что те «очень умные» , однако качественный разрыв между ними и открытыми решениями стремительно сокращается.
Кер выделяет три критических фактора, где open-source модели получают преимущество в промышленной эксплуатации (production):
- Задержка (Latency): Возможность контролировать время до получения первого токена (TTFT). В ИИ-кодинге разница между «тормозящим» интерфейсом и мгновенным откликом определяет, будет ли разработчик пользоваться инструментом .
- Надежность: При росте трафика от первого до миллионного пользователя open-source позволяет гарантировать стабильность работы без зависимости от перегруженных API крупных провайдеров .
- Экономика: Затраты на ИИ в продакшене огромны. Открытые модели позволяют настраивать юнит-экономику приложения так, чтобы оно оставалось прибыльным при масштабировании .
🏆 Топ-3 модели для программирования в 2025 году 5:19
Алекс Кер выделил трех фаворитов, которые, по его мнению, являются лучшими на текущий момент. Интересно, что все три модели имеют китайское происхождение, что вызвало вопросы в зале о лидерстве Китая в ИИ-гонке .
- GLM 4.6: Универсальная модель с выдающейся эффективностью. По данным Base 10, она на 30% эффективнее предыдущих итераций в потреблении токенов, что делает ее дешевле и быстрее при инференсе .
- Qwen 2.5 Coder: Специализированная модель от Alibaba. Хотя интерес к чисто «кодинговым» моделям падает из-за универсальности агентских систем, Qwen остается отличным выбором для прототипирования и выполнения базовых, повторяющихся задач программирования .
- Kimi K2 Thinking: Главный фаворит спикера, вышедший в начале 2025 года. Это модель с 1 триллионом параметров, использующая архитектуру Mixture of Experts (MoE) . По утверждению Кера, она способна выполнять до 200–300 последовательных вызовов инструментов (tool calls), сохраняя фокус и минимизируя галлюцинации .
🧠 Технологический прорыв Kimi K2: «Чередующееся мышление» 7:42
Ключевое отличие Kimi K2 от традиционных моделей вроде GPT или Claude заключается в методе рассуждений. Вместо стандартной «цепочки мыслей» (Chain of Thought), где модель сначала думает, а потом выдает серию действий, Kimi использует Interleaved Thinking (чередующееся мышление) .
Этот метод имитирует человеческий подход: модель совершает действие, анализирует результат, корректирует подход в реальном времени и переходит к следующему шагу . В качестве примера Кер привел решение задачи по геометрии уровня PhD, где модели потребовалось 23 цикла чередующихся размышлений и вызовов инструментов .
Для обучения Kimi K2 использовался пятиэтапный конвейер:
- Сбор 3000 реальных инструментов с GitHub .
- Генерация более 20 000 синтетических инструментов через кластеризацию.
- Симуляция работы агентов в разнообразных сценариях для создания обучающих траекторий .
🛠 Как внедрить Open Source в рабочий процесс за 10 минут 9:40
Алекс Кер предложил три способа перехода на открытые модели: от простых «хаков» до полноценных сред разработки.
- Простой прокси-хак: Перенаправление базового URL API (например, в расширении Claude Dev) на эндпоинт провайдера открытых моделей. Это позволяет использовать привычный интерфейс, но запускать внутри Kimi или GLM. В Base 10 таким образом добились снижения затрат в 5–7 раз при увеличении пропускной способности на 167% .
- OpenRouter: Платформа, предоставляющая унифицированный доступ к 500+ моделям. Она обеспечивает прозрачные метрики производительности и автоматическое переключение (fallback) при сбоях .
- Cline (ранее Claude Dev): ИИ-агент внутри IDE, поддерживающий концепцию «своего ключа» (BYOK). Он разделяет работу на режимы планирования и действия, автоматически управляя контекстным окном и историей диалога .
⚡ Оптимизация инференса: Кейс Sourcegraph 14:10
Особое внимание Кер уделил техническим аспектам работы автодополнения кода (autocomplete). Для пользователя важна задержка не более 200–300 мс, иначе опыт перестает быть бесшовным .
На примере компании Sourcegraph были показаны три техники оптимизации:
- KV Cache Reuse: Повторное использование кеша ключей и значений, чтобы не обрабатывать одну и ту же кодовую базу при каждом нажатии клавиши .
- KV-Aware Routing: Направление запросов пользователя на те же серверные реплики, где уже построен кеш для его текущей сессии .
- n-gram Speculation: Использование словаря n-грамм для предсказания следующих токенов в языках программирования с жестким синтаксисом. Это позволяет модели-черновику предлагать варианты, которые основная модель лишь подтверждает, что значительно ускоряет генерацию .
В завершение выступления Алекс Кер подчеркнул, что разработчики, ограничивающие себя только закрытыми моделями, упускают огромные возможности рынка. Будущее ИИ-разработки — в экспериментах с открытыми стеками, которые дают контроль над производительностью и стоимостью .