Ник Якоби из Cohere: «Через 5 лет рынок ИИ захватят малые модели, а не гиганты»

В интервью для канала Machine Learning Street Talk Ник Якоби (Nick Jakobi), руководитель отдела моделирования в компании Cohere, обсуждает фундаментальный сдвиг в индустрии ИИ в 2024 году: переход от гонки за размером моделей к приоритету эффективности и коммерческой целесообразности. Основное внимание уделяется тому, как корпоративный сектор адаптирует большие языковые модели (LLM) и почему «высокий IQ» нейросетей часто оказывается избыточным для реальных бизнес-задач.

🏢 Стратегия Cohere: ИИ для энтерпрайза 3:58

Ник Якоби подчеркивает, что Cohere сознательно дистанцируется от потребительского рынка, фокусируясь исключительно на обслуживании корпоративных клиентов . По его словам, технологическое превосходство в области общих знаний — вещь мимолётная, поэтому компания делает ставку на специфические возможности:

RAG (Retrieval-Augmented Generation): Оптимизация моделей для работы с внешними базами данных.
Использование инструментов (Tool use): Способность модели эффективно взаимодействовать с API и сторонним софтом.
Мультиязычность: Поддержка множества языков как стандарт для глобального бизнеса .

Важным дифференциатором Cohere гость называет гибкость развертывания. В то время как многие конкуренты привязаны к собственным облакам, модели Cohere доступны на всех основных платформах: AWS (через Bedrock), Google Cloud, Microsoft Azure и Oracle . Для компаний с жесткими требованиями к безопасности предусмотрено «частное развертывание» (private deploy), когда данные не покидают периметр облака заказчика .

🔄 «Игра в токены» и проблема переключаемости моделей 6:59

Ведущий поднял вопрос о так называемой «игре в токены» (token game) — ситуации, когда клиенты могут легко менять одного поставщика модели на другого. Якоби признает, что на базовом уровне замена модели может сводиться к редактированию одного YAML-файла . Однако на практике все гораздо сложнее.

По мнению Якоби, полная независимость от модели (model agnosticism) во многом является мифом по ряду причин:

Специфический промпт-инжиниринг: Каждая модель имеет свои «причуды». Промпт, идеально работающий с одной нейросетью, может давать сбои в другой .
Глубокая интеграция: Если приложение использует сложные агентские воркауты (agentic workflows), простая замена базовой модели может нарушить всю логику работы .
Тонкая настройка (Fine-tuning): Если компания обучила модель на своих специфических данных, переезд на другое решение потребует полного цикла переобучения .

Якоби утверждает, что стратегия Cohere заключается в создании «липкой» (sticky) экосистемы вокруг модели — инфраструктуры и сервисов, которые делают переход к конкуренту экономически нецелесообразным .

📉 Экономика ИИ: почему меньше — значит лучше 15:06

Одной из центральных тем беседы стала деградация полезности сверхбольших моделей для бизнеса. Якоби вводит концепцию «достаточного IQ» для модели. По его мнению, индустрия достигла точки, аналогичной рынку смартфонов: «iPhone 15 уже достаточно хорош, и радикальные улучшения замедляются» .

Гость приводит в пример линейку моделей Cohere:

7B модели: Маленькие, сверхбыстрые и дешевые. Идеальны для узких задач, таких как автодополнение кода .
Command R (35B): «Золотая середина», сопоставимая по возможностям с GPT-3.5 или Claude Haiku .
Command R+ (103B): Более мощная и умная модель, но при этом более медленная и дорогая .

Якоби отмечает парадоксальную ситуацию: многие крупнейшие клиенты Cohere предпочитают Command R более мощной версии R+, потому что она справляется с их задачами, работая быстрее и дешевле . Он прогнозирует, что через пять лет основной объем потребления и затрат в индустрии будет сосредоточен вокруг моделей среднего размера, а не гигантов вроде GPT-4 или Claude Opus .

По мнению гостя, использование сверхмощных моделей вроде GPT-4 часто ограничивается лишь генерацией синтетических данных для обучения более мелких и эффективных сетей .

🧪 Данные, предвзятость и синтетика 21:14

Обсуждая обучение моделей, Якоби указывает на преимущество OpenAI, имеющей огромный поток данных от пользователей ChatGPT . В отличие от них, Cohere работает в условиях «неприкосновенности данных»: компания не видит промпты своих корпоративных клиентов, работающих через облака AWS или Azure .

Это вынуждает Cohere:

Генерировать обучающие данные «с нуля» самостоятельно .
Использовать пары предпочтений (preference pairs) для обучения с подкреплением (RLHF).
Бороться с предвзятостью (bias), которая неизбежно проникает в модели на этапе пре-тренинга из открытого интернета .

🎓 ИИ в образовании и на рынке труда: личный взгляд 26:42

Якоби поделился личной историей о своем среднем сыне, который испытывает трудности в школе. Это заставило его задуматься о целесообразности традиционного образования в эпоху ИИ .

Ключевые тезисы Якоби о трансформации труда:

Рост производительности без роста зарплат: Инструменты ИИ позволят каждому сотруднику делать больше, но это не обязательно приведет к увеличению их личного дохода .
Кризис бизнес-школ: На конференции профессоров ведущих бизнес-школ (Insead, LSE, UCL) основной темой была борьба со списыванием с помощью ИИ. Однако дискуссия быстро перешла к осознанию того, что через полгода ИИ станет обязательным инструментом в любой работе, и учить нужно именно его использованию .
Автоматизация профессий: Несмотря на предсказание Джеффри Хинтона о том, что через пять лет радиологи станут не нужны, их число только выросло. Однако Якоби считает, что полная автоматизация в таких сферах, как анализ рентгеновских снимков, неизбежна в долгосрочной перспективе .

🛡️ Безопасность и угроза дезинформации 31:12

В вопросах безопасности Якоби и ведущий затронули тему «субъектности» (agency). Ведущий выразил мнение, что пока у моделей нет собственной воли и целей, они остаются лишь инструментами .

Тем не менее, Якоби видит реальную опасность в масштабировании дезинформации. Он утверждает, что главная угроза не в самом факте «фейковых новостей» (они были всегда), а в возможности создать 100 000 ботов с определенными политическими взглядами, которые будут выглядеть и общаться как реальные люди . По его словам, если кампания по дезинформации успешна, мы даже не заметим, что она идет .