Глава Cohere Айдан Гомез: почему разработчики ИИ попали в зависимость от OpenAI

Machine Learning Street Talk 28,7 тыс. 1 ч 12 мин 29.06.2024
Главное

Глава компании Cohere Айдан Гомез в развернутом интервью для канала Machine Learning Street Talk рассказал о кардинальной смене стратегии разработки больших языковых моделей и полном уходе в корпоративный сектор. В центре дискуссии — технологический тупик индустрии, вызванный повсеместным копированием данных OpenAI, механизмы обучения моделей пошаговому рассуждению (reasoning) и жесткая критика паникерских сценариев экзистенциального риска. Анализ диалога показывает, как сфера искусственного интеллекта переходит от этапа зрелищных демонстраций к прагматичному созданию ценности для бизнеса.

🎯 Философия Cohere и преодоление барьеров внедрения ИИ в бизнес 0:00

В отличие от многих игроков на рынке искусственного интеллекта, Cohere изначально отказалась от гонки за созданием сильного ИИ (AGI). По заявлению Айдана Гомеза, истинная цель компании заключается в создании практической ценности для мира через интеграцию технологий в продукты предприятий и расширение возможностей их сотрудников.

Однако на пути внедрения больших языковых моделей (LLM) в реальный бизнес существует серьезная проблема «последней мили». Гомез выделяет несколько ключевых барьеров, с которыми сталкиваются корпорации:

Чтобы снизить эти барьеры, Cohere активно развивает образовательные инициативы, включая бесплатный курс LLM University для обучения разработчиков. Кроме того, руководство компании напрямую взаимодействует с политиками, пытаясь защитить стартапы от избыточного регулирования, способного затормозить технологический процесс. По мнению Гомеза, текущие инструменты разработки все еще остаются слишком хрупкими: концепция промпт-инжиниринга должна уйти в прошлое, так как зрелая модель обязана надежно понимать общее намерение пользователя независимо от конкретных формулировок.


🔄 Хрупкость промптов и «эффект человеческой многоножки» в обучении ИИ 3:46

В идеальном сценарии слой модели должен быть полностью отделен от прикладного программного обеспечения, чтобы разработчики могли без болезненных поломок заменять одну нейросеть на другую. Однако текущий статус-кво далек от идеала: промпт, отлично работающий в одной системе, может полностью сломаться в другой. Для решения этой проблемы Cohere применяет методы аугментации данных с помощью синтетического ИИ. Специальные алгоритмы проводят автоматический поиск формулировок, которые ломают модель, после чего нейросеть дообучают на этих ошибках для повышения ее устойчивости.

Опасность монопольного распределения данных

Гомез указывает на крайне тревожную тенденцию на рынке ИИ: большинство современных разработчиков обучают свои модели на синтетических данных, полученных из одного источника — моделей GPT от OpenAI. Глава Cohere метафорично называет это «эффектом человеческой многоножки» (human centipede effect), когда системы буквально замыкаются на распределении выходных данных одного лидера.

Последствия монолитного подхода к обучению, по словам спикера, включают в себя:

Поскольку корпоративные клиенты Cohere чрезвычайно чувствительны к происхождению данных, компания агрессивно вычищает из своих датасетов любые выходные данные чужих коммерческих моделей. Гомез утверждает, что именно этот отказ от слепого копирования OpenAI обеспечил линейке моделей Command R и Command R+ особое, «живое» восприятие пользователями в сообществах Reddit и Twitter.


🛠 Смена стратегии Cohere и преодоление технологического застоя 10:20

Айдан Гомез открыто признает, что на протяжении большей части 2023 года Cohere технологически отставала от конкурентов. Этот период лага был осознанным решением: компания полностью перестраивала внутреннюю структуру, команду исследователей и технологическую стратегию. Предыдущий пайплайн разработки исчерпал себя и не подлежал масштабированию.

Выпуск моделей Command R и R+ стал лишь первым шагом в новой серии специализированных релизов, сфокусированных на технологиях RAG (Retrieval-Augmented Generation) и использовании внешних инструментов (tool use).

Почему ИИ-модели не уперлись в потолок возможностей

Собеседники затронули важный вопрос: не наступила ли стагнация общих возможностей LLM? Глава Cohere категорически не согласен с тезисом о насыщении рынка и предлагает свою интерпретацию ситуации:

Кроме того, последние 12–18 месяцев индустрия занималась не расширением, а компрессией. Созданные ранее гигантские мультитриллионные модели были экономически нецелесообразны для коммерческой эксплуатации — по оценке Гомеза, для их работы требовалось одновременно до 60 графических процессоров A100, что делало продакшн невозможным. Весь прошлый год ушел на сжатие этих огромных артефактов интеллекта в меньшие форм-факторы без потери качества. Впереди, по прогнозам Cohere, ожидается новый виток расширения масштабов моделей, подкрепленный качественными методами автоматического поиска уязвимостей нейросетей.


🧠 Эволюция ИИ: от накопления знаний к полноценному рассуждению (Reasoning) 16:03

В научном сообществе ведется жесткая дискуссия о разнице между эрудицией (объемом знаний) и реальным интеллектом. По мнению Гомеза, способность к рассуждению (reasoning) является фундаментальным элементом интеллекта, и современные LLM действительно способны рассуждать. Это заявление остается спорным, и многие критики считают архитектуру трансформеров непригодной для глубокой логики. Однако Гомез полагает, что рассуждение — это не дискретная функция («есть или нет»), а непрерывный континуум, качество которого постепенно растет от поколения к поколению.

Аналогичным образом Гомез предлагает взглянуть на проблему галлюцинаций. Ранее они воспринимались как экзистенциальная угроза для технологии, ставящая крест на ее надежности. Сегодня же сотни миллионов людей ежедневно используют ИИ в работе и доверяют ему, а проблема галлюцинаций планомерно решается.

Проблема дефицита «внутреннего монолога»

Главная сложность обучения моделей рассуждению, по словам Гомеза, заключается в дефиците качественных данных. Интернет переполнен результатами человеческого мышления, но на нем практически отсутствует фиксация самого процесса — «внутреннего монолога».

Люди обычно не прописывают свой внутренний монолог в интернете, они публикуют только его финальный результат.

Люди не записывают промежуточные шаги, свои ошибки и методы их исправления; обучающие форумы с разбором домашних заданий — лишь «микроскопические уколы» на теле интернета. Cohere видит решение в генерации мультитриллионных синтетических датасетов, которые будут целенаправленно демонстрировать нейросети пошаговый мыслительный процесс, включая осознание ошибок и повторные попытки решения задач.


🧱 Ограничения симуляторов и потенциал архитектуры смеси экспертов (MoE) 21:24

Обсуждая обучение мультимодальных моделей зрению, собеседники сопоставили два подхода: генерацию визуальных данных в игровых движках (например, Unreal Engine) и сбор реальных видеозаписей. Гомез считает использование симуляторов на данном этапе ошибочным путем. По его мнению, игровые физические движки несовершенны, а видео, созданные ИИ вроде Sora от OpenAI, имеют выраженный «игровой» оттенок и эффект «зловещей долины», где камера постоянно находится в неестественном полете. Реальный мир с его безупречной физикой должен оставаться главным источником данных.

В то же время, такие дисциплины как математика и программирование, будучи жестко подчиненными правилам, идеально подходят для стопроцентной синтетической генерации и верификации кода.

Преимущества децентрализованного ИИ (MoE)

Будущее эффективных ИИ-систем Гомез видит в развитии архитектуры смеси экспертов (Mixture of Experts, MoE):

Ведущий высказал опасение, что распределенные многоагентные системы ИИ, обменивающиеся сообщениями, могут приводить к бесконечным зацикливаниям и неконтролимуемому росту затрат на вычисления, в отличие от стандартных LLM с фиксированным объемом вычислений на токен. Гомез эти опасения отвергает, заявляя, что модели отлично обучаются выдавать стоп-токены и прекращать дискуссию.

В текущей версии многошагового использования инструментов (Multihop tool use), которую Гомез самокритично называет «версией минус один», Cohere принудительно обрывает вычисления после заданного числа неудачных попыток. Система пока плохо распознает и исправляет собственные ошибки, но разработчики намерены сделать этот процесс абсолютно надежным.


📈 Вертикализация продуктов Cohere и борьба с облачной зависимостью 28:15

Айдан Гомез соглашается с расхожим мнением о том, что современные потребительские модели стали слишком похожими и взаимозаменяемыми, превратившись в банальную «игру в токены». По его прогнозу, вскоре произойдет жесткое разделение рынка на потребительский сегмент и специализированный корпоративный (enterprise).

Текущие продукты Cohere (языковые модели, эмбеддинги, модели ранжирования Rerank) представляют собой максимально горизонтальную платформу, способную разворачиваться в любом частном облаке поверх любых данных (юридических, финансовых или медицинских). Однако дальнейшая стратегия компании направлена на вертикализацию — создание моделей, глубоко оптимизированных под специфический инструментарий сотрудников конкретных отраслей.

Ведущий отметил, что гиганты вроде Azure и AWS используют тактику выдачи бесплатных кредитов стартапам, чтобы навсегда привязать клиентов к своей инфраструктуре (vendor lock-in). Защитой Cohere от этой зависимости, по словам Гомеза, является сохранение полной кастомизации платформы: клиент всегда может развернуть ИИ строго в своем закрытом контуре, подтягивая собственные базы данных и кастомные инструменты, не привязываясь к монопольным экосистемам.


🛑 Критика культа экзистенциального риска (X-Risk) и крах института Бострома 33:36

Новость о закрытии Института будущего человечества (FHI) Ника Бострома в Оксфорде вызвала живой отклик у Гомеза. Будучи давним и последовательным критиком концепции экзистенциального риска (X-risk) — идеи о том, что языковые модели захватят мир и уничтожат человечество — Гомез тем не менее сожалеет о закрытии академического института. По его мнению, долгосрочные гипотетические риски — это легитимная зона для академических изысканий, но регуляторам и политикам категорически рано тратить на это ресурсы.

Гомез жестко критикует X-risk организации за агрессивное лоббирование регуляторных актов, угрожающих прогрессу:

Крах EA и e-acc: почему идеологические движения вредят ИИ

Собеседники сошлись во мнении, что дискуссия вокруг безопасности ИИ приобрела черты религиозного культа. Гомез считает одинаково отталкивающими оба радикальных лагеря: движение за безопасность ИИ (EA / эффективный альтруизм), превратившееся в изолированную секту со своими дейтинг-приложениями, и ироничное контрдвижение e-acc (эффективный акселерационизм), которое переросло в агрессивный либертарианский радикализм.

Примечательно, что Гомез лично инвестировал в стартап Гийома Вердона (основателя e-acc), назвав его блестящим человеком, однако саму идеологическую войну он считает утомительной и бессмысленной. По мнению спикера, оба движения (EA и e-acc) должны быть окончательно распущены.


🔍 Реальные угрозы: дезинформация, верификация граждан и цифровая грамотность 39:33

Айдан Гомез проводит прямую аналогию между искусственным интеллектом и изобретением центрального процессора или компьютера. По его оценке, те блага, что принесли человечеству компьютер и интернет, померкнут на фоне тотальной демократизации интеллекта, доступного каждому в любой момент времени.

Тем не менее, спикер выделяет реальные, а не вымышленные угрозы технологии. Главной опасностью Гомез считает масштабное распространение дезинформации. В качестве защитного механизма он видит обязательное внедрение систем верификации личности на социальных платформах. Гомез подчеркивает: читая политические посты о канадских выборах, он хочет быть уверен, что за текстом стоит реальный голосующий гражданин Канады, пусть даже имеющий противоположные взгляды, а не бот, запущенный иностранным противником.

К угрозам «интеллектуального вырождения» (enfeeblement) человечества из-за зависимости от ИИ глава Cohere относится скептически. Он напоминает, что аналогичные страхи высказывались при появлении калькуляторов (якобы люди разучатся считать). Гомез заявляет, что человек внутренне любопытен, а чтобы задавать машинам правильные вопросы, необходимо обладать глубокой базой знаний; таким образом, технологии лишь повысят уровень образования общества.

Ведущий упомянул статью покойного философа Дэниела Деннета «Фальшивые люди» (Counterfeit People) в журнале The Atlantic, где высказывалось опасение, что неотличимые от реальности боты уничтожат доверие к любой информации. Гомез возражает, отмечая, что у современного общества уже сформировался мощный внутренний скептицизм (strong prior) к любому контенту. По его мнению, люди адаптируются к ИИ точно так же, как адаптировались к кампаниям манипуляций в докомпьютерную эпоху: через фильтрацию источников и поиск объективных платформ.


⚖️ Отрезвление регуляторов и новая волна ИИ-стартапов 45:42

Непродуманные карательные меры в законодательстве могут уничтожить экосистему инноваций. В качестве примера Гомез приводит гипотетические штрафы в размере 100 миллионов долларов: для перспективного стартапа такая сумма означает мгновенное банкротство, тогда как для технологического гиганта из Кремниевой долины это эквивалентно 10 минутам выручки. Огульное регулирование приведет к прямо противоположному результату — укреплению олигополии.

Гомез отмечает, что европейский AI Act к моменту принятия удалось существенно смягчить по сравнению с первоначальной жесткой редакцией. Законодатели искренне хотят безопасности, но балансируют на тугом канате между давлением лоббистов и защитой конкуренции.

Ситуацию на рынке ИИ-стартапов Гомез описывает как фазу здоровой перегруппировки и очищения (churn):

Если прошлый год был периодом, когда мир только просыпался и знакомился с возможностями генеративного ИИ, то текущий этап станет временем массового вывода систем в промышленную эксплуатацию (продакшн). Cohere, создающая свои решения уже пятый год, долгое время сталкивалась со снисходительным отношением, но сейчас эти многолетние усилия начинают приносить реальные плоды.


🏢 Ошибки управления и уникальная культура локальных офисов Cohere 52:47

Делясь опытом руководства, Айдан Гомез иронично заявляет, что совершал промахи буквально на каждом этапе развития бизнеса. Cohere — его первая компания (как и для сооснователей Ника Фроста и Ивана Чжана), поэтому команда собрала все возможные ошибки новичков. Главным залогом выживания стартапа Гомез называет умение быстро признавать факапы, отсутствие самообмана и готовность слушать более опытных советников.

В вопросах управления Гомез практикует нетипичный подход к корпоративной иерархии:

На сегодняшний день штат Cohere превысил 350 человек. Спикер признается, что уже перестал узнавать в лицо некоторых сотрудников, что кажется ему странным опытом. Тем не менее, масштабирование не разрушило внутреннюю культуру, хотя в каждом мегаполисе сформировался свой уникальный микрокосм.

Лондонский офис напоминает уютный ламповый стартап на 30 человек, где принято ходить в паб после работы. Офис в Торонто — самый крупный, его отличает страстный трудоголизм инженеров, готовых засиживаться допоздна. Нью-Йорк характеризуется бешеной энергией в стиле «work hard, play hard».

Наименьшую симпатию у Айдана Гомеза вызывает Сан-Франциско, где расположен второй головной офис компании. По его признанию, он считает Сан-Франциско слишком однородным и монокультурным городом. В отличие от настоящих мультикультурных столиц (Лондона, Торонто или Нью-Йорка), где развито искусство и живут люди полярных профессий, в Сан-Франциско все крутится вокруг одной темы — технологий. Гомез ценит Силиконовую долину за соревновательный дух и концентрацию инвесторов, но предпочитает наезжать туда с короткими визитами, категорически отказываясь переезжать на постоянной основе.

💬 Цитаты

«Мы здесь не для того, чтобы строить AGI. То, чем мы занимаемся — это создание реальной ценности для мира.»

Айдан Гомез 01:54

«Они обучаются на выходных данных одной-единственной модели. Возникает какой-то эффект человеческой многоножки.»

Айдан Гомез 09:39

«Люди обычно не прописывают свой внутренний монолог в интернете, они публикуют только его финальный результат.»

Айдан Гомез 20:16
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
RAG (Retrieval-Augmented Generation)
Технология, позволяющая языковой модели искать актуальную информацию в закрытых базах данных перед генерацией ответа.
MoE (Mixture of Experts)
Архитектура нейросетей, состоящая из нескольких специализированных подсетей («экспертов»), из которых активируются только нужные под конкретную задачу.
Промпт-инжиниринг
Процесс подбора точных формулировок и текстовых инструкций для получения от ИИ корректного результата.
Синтетические данные
Информационные массивы, сгенерированные искусственно с помощью других программ или ИИ, а не созданные реальными людьми.
📊 Цифры
🗓 Хронология
  1. 2019 Основание компании Cohere Айданом Гомезом, Ником Фростом и Иваном Чжаном.
  2. 2023 Период застоя и внутренней реструктуризации Cohere, переход от неэффективных огромных моделей к их компрессии.
  3. 2024 Выпуск моделей Command R и R+, ознаменовавший смену фокуса на RAG, интеграцию внешних инструментов и вертикализацию.
⚖️ Другая сторона
Искусственный интеллект Cohere Aidan Gomez Command R Synthetic data Reasoning