Алекс Кер из Base 10: «Открытые модели — секретный двигатель ИИ-кодинга»

В современном мире разработки искусственный интеллект стал неотъемлемым инструментом, однако зависимость от закрытых проприетарных моделей (таких как GPT-4 или Claude) создает барьеры в виде высокой стоимости и задержек. Алекс Кер, инженер по росту в компании Base 10, утверждает, что открытые (open-source) модели не просто догнали лидеров рынка, но и стали «секретным двигателем» для ИИ-кодинга в промышленных масштабах благодаря гибкости и скорости.

🔓 Почему открытый код побеждает закрытые системы 2:47

Несмотря на популярность решений от OpenAI и Anthropic, разработчики все чаще сталкиваются с ограничениями закрытых моделей при масштабировании продуктов. По словам Алекса Кера, разработчики продолжают использовать GPT-4 или Claude 3.5 Sonnet просто потому, что те «очень умные» , однако качественный разрыв между ними и открытыми решениями стремительно сокращается.

Кер выделяет три критических фактора, где open-source модели получают преимущество в промышленной эксплуатации (production):

Задержка (Latency): Возможность контролировать время до получения первого токена (TTFT). В ИИ-кодинге разница между «тормозящим» интерфейсом и мгновенным откликом определяет, будет ли разработчик пользоваться инструментом .
Надежность: При росте трафика от первого до миллионного пользователя open-source позволяет гарантировать стабильность работы без зависимости от перегруженных API крупных провайдеров .
Экономика: Затраты на ИИ в продакшене огромны. Открытые модели позволяют настраивать юнит-экономику приложения так, чтобы оно оставалось прибыльным при масштабировании .

🏆 Топ-3 модели для программирования в 2025 году 5:19

Алекс Кер выделил трех фаворитов, которые, по его мнению, являются лучшими на текущий момент. Интересно, что все три модели имеют китайское происхождение, что вызвало вопросы в зале о лидерстве Китая в ИИ-гонке .

GLM 4.6: Универсальная модель с выдающейся эффективностью. По данным Base 10, она на 30% эффективнее предыдущих итераций в потреблении токенов, что делает ее дешевле и быстрее при инференсе .
Qwen 2.5 Coder: Специализированная модель от Alibaba. Хотя интерес к чисто «кодинговым» моделям падает из-за универсальности агентских систем, Qwen остается отличным выбором для прототипирования и выполнения базовых, повторяющихся задач программирования .
Kimi K2 Thinking: Главный фаворит спикера, вышедший в начале 2025 года. Это модель с 1 триллионом параметров, использующая архитектуру Mixture of Experts (MoE) . По утверждению Кера, она способна выполнять до 200–300 последовательных вызовов инструментов (tool calls), сохраняя фокус и минимизируя галлюцинации .

🧠 Технологический прорыв Kimi K2: «Чередующееся мышление» 7:42

Ключевое отличие Kimi K2 от традиционных моделей вроде GPT или Claude заключается в методе рассуждений. Вместо стандартной «цепочки мыслей» (Chain of Thought), где модель сначала думает, а потом выдает серию действий, Kimi использует Interleaved Thinking (чередующееся мышление) .

Этот метод имитирует человеческий подход: модель совершает действие, анализирует результат, корректирует подход в реальном времени и переходит к следующему шагу . В качестве примера Кер привел решение задачи по геометрии уровня PhD, где модели потребовалось 23 цикла чередующихся размышлений и вызовов инструментов .

Для обучения Kimi K2 использовался пятиэтапный конвейер:

Сбор 3000 реальных инструментов с GitHub .
Генерация более 20 000 синтетических инструментов через кластеризацию.
Симуляция работы агентов в разнообразных сценариях для создания обучающих траекторий .

🛠 Как внедрить Open Source в рабочий процесс за 10 минут 9:40

Алекс Кер предложил три способа перехода на открытые модели: от простых «хаков» до полноценных сред разработки.

Простой прокси-хак: Перенаправление базового URL API (например, в расширении Claude Dev) на эндпоинт провайдера открытых моделей. Это позволяет использовать привычный интерфейс, но запускать внутри Kimi или GLM. В Base 10 таким образом добились снижения затрат в 5–7 раз при увеличении пропускной способности на 167% .
OpenRouter: Платформа, предоставляющая унифицированный доступ к 500+ моделям. Она обеспечивает прозрачные метрики производительности и автоматическое переключение (fallback) при сбоях .
Cline (ранее Claude Dev): ИИ-агент внутри IDE, поддерживающий концепцию «своего ключа» (BYOK). Он разделяет работу на режимы планирования и действия, автоматически управляя контекстным окном и историей диалога .

⚡ Оптимизация инференса: Кейс Sourcegraph 14:10

Особое внимание Кер уделил техническим аспектам работы автодополнения кода (autocomplete). Для пользователя важна задержка не более 200–300 мс, иначе опыт перестает быть бесшовным .

На примере компании Sourcegraph были показаны три техники оптимизации:

KV Cache Reuse: Повторное использование кеша ключей и значений, чтобы не обрабатывать одну и ту же кодовую базу при каждом нажатии клавиши .
KV-Aware Routing: Направление запросов пользователя на те же серверные реплики, где уже построен кеш для его текущей сессии .
n-gram Speculation: Использование словаря n-грамм для предсказания следующих токенов в языках программирования с жестким синтаксисом. Это позволяет модели-черновику предлагать варианты, которые основная модель лишь подтверждает, что значительно ускоряет генерацию .

В завершение выступления Алекс Кер подчеркнул, что разработчики, ограничивающие себя только закрытыми моделями, упускают огромные возможности рынка. Будущее ИИ-разработки — в экспериментах с открытыми стеками, которые дают контроль над производительностью и стоимостью .