Развитие генеративного искусственного интеллекта подошло к критической точке, где простая стратегия экстенсивного масштабирования вычислительных мощностей сталкивается с экономическими реалиями и дефицитом качественных данных. Сооснователь компании Cohere и один из авторов легендарной архитектуры Transformer Эйдан Гомес в беседе с инвестором Гарри Стеббингсом на подкасте 20VC подробно разбирает текущее состояние индустрии ИИ. Эксперт объясняет, почему рынок не прощает технологического отставания, как синтетические данные меняют правила игры и почему независимость от облачных гигантов становится ключевым фактором выживания для стартапов нового поколения.
🎮 От канадских лесов до архитектуры Transformer: истоки одержимости технологиями 0:27
Путь Эйдана Гомеса в мир высокой науки и передовых технологий начался в условиях, максимально изолированных от цифровой цивилизации. Он вырос в сельской глуши канадской провинции Онтарио, на участке площадью 100 акров, окруженном густым кленовым лесом. Дом, в котором жила семья, был построен вручную его отцом или дедом. В те годы скоростной интернет в те края еще не пришел: Гомесу приходилось пользоваться обычным dial-up соединением на протяжении многих лет после того, как его сверстники в городах уже перешли на высокоскоростной доступ.
Именно эта изоляция, по признанию Гомеса, и породила в нем настоящую одержимость технологиями. Наблюдая за тем, как пиксели веб-страниц медленно прорисовываются на экране строка за строкой, он отчаянно пытался оптимизировать работу домашнего компьютера и понять механизмы работы интернета. Стремление заставить сеть работать быстрее в конечном итоге привело его к изучению компьютерных наук и программированию.
Важным фактором формирования характера будущего основателя Cohere стало увлечение видеоиграми. По мнению Гомеса, между опытом в гейминге и успехом в качестве предпринимателя существует колоссальная корреляция.
Он выделяет ключевые качества, которые видеоигры прививают будущим лидерам:
- Готовность к рутине (grind): способность раз за разом выполнять монотонные, сложные и порой болезненные действия ради достижения глобальной цели.
- Культура второй попытки: понимание того, что любая неудача — это не конец пути, а лишь повод попробовать снова, совершив в следующий раз на одну ошибку меньше. Гомес противопоставляет это многим традиционным культурам, где у человека есть лишь один шанс, а провал полностью уничтожает его репутацию.
Ведущий подкаста Гарри Стеббингс проводит аналогию с гейм-дизайном, где сложность уровней нарастает постепенно (progressive overload), позволяя игроку укрепить уверенность в своих силах. Гомес соглашается с эффективностью этого метода для людей, однако отмечает курьезный факт из сферы машинного обучения: в ИИ аналогичная концепция «обучения по учебной программе» (curriculum learning) полностью провалилась. Разработчики ИИ выяснили, что нейросети обучаются гораздо лучше, если в них одновременно загружают как самые простые, так и самые сложные материалы, позволяя алгоритму самому разбираться в хаосе.
📈 Гипотеза масштабирования: самый надежный и самый «глупый» путь развития ИИ 4:28
Одним из центральных вопросов дискуссии стала так называемая гипотеза масштабирования (scaling hypothesis) — идея о том, что для улучшения моделей достаточно просто увеличивать объемы вычислений и параметров. Эйдан Гомес подтверждает, что наращивание вычислительных мощностей остается самым надежным и предсказуемым способом сделать модель умнее. Однако он называет эту стратегию «самой глупой», указывая на ее крайнюю неэффективность.
По словам Гомеса, для технологических гигантов с неограниченными бюджетами покупка огромного количества вычислительных мощностей — это привлекательная низкорисковая стратегия. Они точно знают, что вложив деньги, получат результат. Тем не менее, прогресс в методах оптимизации за последние полтора года оказался ошеломляющим.
Гомес приводит в пример модель GPT-4, которая, по слухам, на момент своего выхода содержала порядка 1,7 триллиона параметров. Сегодня на рынке существуют компактные открытые модели объемом всего в 13 миллиардов параметров, которые превосходят ту первоначальную версию GPT-4 по качеству работы. Скорость, с которой технологии становятся дешевле и доступнее, Гомес называет сюрреалистичной.
Экономический тупик экспоненциального роста
Главная проблема концепции тотального масштабирования заключается в том, что она требует экспоненциального увеличения ресурсов для достижения линейного прогресса в интеллектуальных возможностях моделей. Гомес полагает, что этот процесс может продолжаться еще долго, однако он быстро упирается в жесткие экономические ограничения.
Оригинальную версию GPT-4 практически никто не покупал на корпоративном рынке. Модель была колоссальной по размеру, невероятно дорогой в обслуживании (inference) и при этом недостаточно умной, чтобы оправдать подобные затраты для бизнеса. В результате рыночные силы создали мощное давление, заставив индустрию сфокусироваться на алгоритмических методах и качестве данных, позволяющих делать маленькие модели умнее.
Гомес прогнозирует, что мир ИИ продолжит существовать в условиях баланса двух типов систем:
- Огромные горизонтальные супермодели общего назначения.
- Специализированные, вертикально ориентированные и высокоэффективные компактные модели.
На рынке уже закрепился устойчивый паттерн поведения разработчиков: компании используют дорогие и крупные модели для быстрого прототипирования и доказательства жизнеспособности концепции. Как только ценность функции доказана, эти знания «дистиллируются» в сфокусированную и дешевую модель для конкретной бизнес-задачи.
💡 Инновации в данных и методах: как научить ИИ «думать» 8:02
Для компаний, не обладающих ресурсами Microsoft, Amazon, Google или Meta, путь слепого копирования масштабов вычислений закрыт. Единственный способ выжить в этой гонке — сфокусироваться на инновациях в области данных и методов обучения.
По оценке Гомеса, практически все ключевые прорывы в сегменте ИИ с открытым исходным кодом за последнее время были достигнуты не за счет железа, а благодаря улучшению качества данных. Разработчики научились создавать продвинутые алгоритмы скрейпинга и парсинга веб-страниц, отсеивать цифровой мусор и повторы, а также искусственно повышать значимость наиболее ценных сегментов интернета при обучении. Огромную роль начинают играть синтетические данные — тексты, масштабируемые ИИ-моделями без участия человека.
Второй важнейший вектор развития — это изменение самой методологии работы нейросетей. Текущий статус-кво в индустрии накладывает на модель невероятное бремя: пользователь задает сложный вопрос, и система обязана выдать правильный ответ мгновенно, с первого же токена. Подобное требование невыполнимо даже для человека.
Эйдан Гомес: «Вы не можете задать человеку сложнейший вопрос в ходе совета директоров и ожидать, что он тут же без единой запинки выпалит идеальное решение. Ему нужно подумать, порассуждать, поработать над проблемой».
Очередным фундаментальным шагом в эволюции ИИ Гомес считает интеграцию механизмов рассуждения (reasoning) и планирования. Модели должны получить возможность «думать перед тем, как говорить». Это подразумевает способность выстроить внутренний план решения задачи, совершить ошибку, осознать ее причину, сделать шаг назад и попробовать другой путь. Сейчас в коммерческих моделях такое системное решение проблем практически отсутствует.
Причина отсутствия полноценного логического рассуждения в современных ИИ кроется в дефиците специфических обучающих данных. Интернет переполнен готовыми результатами мыслительной деятельности человека — статьями, выводами, финальными текстами, но в нем почти нет демонстрации самого процесса мышления. Человек не выкладывает в сеть черновики своих метаний и логических цепочек. Именно поэтому Cohere, OpenAI, Anthropic и другие лидеры рынка сейчас активно инвестируют в ручной сбор и генерацию данных, наглядно демонстрирующих процесс человеческого рассуждения.
👥 Сражение за данные предприятий и феномен ценового демпинга 11:46
Конкуренция с OpenAI на корпоративном рынке имеет свою специфику. В отличие от потребительского сегмента, где OpenAI получает колоссальные объемы пользовательского контента (UGC), работа с бизнесом накладывает жесткие ограничения. Крупные предприятия никогда не разрешают разработчикам ИИ обучаться на своих данных. Бизнес справедливо рассматривает внутреннюю информацию как свою интеллектуальную собственность и коммерческую тайну.
Гомес относится к такой позиции клиентов с глубокой эмпатией. Чтобы обойти это ограничение, Cohere делает ставку на два инструмента:
- Генерация высококлассных синтетических данных.
- Привлечение масштабных штатов профессиональных аннотаторов (в том числе через партнерство с компанией Scale AI).
Поскольку Cohere не является потребительским B2C-сервисом, площадь покрытия ее моделей значительно меньше, что Гомес считает преимуществом. Компании не нужно учить модель рассуждать обо всем на свете — достаточно автоматизировать конкретные корпоративные паттерны, будь то функции HR или финансовый аудит.
В то же время на рынке LLM-интерфейсов наблюдаются тревожные тенденции. Отвечая на вопрос Гарри Стеббингса о возможном «беге наперегонки к нулевой маржинальности» из-за демпинга со стороны OpenAI и бесплатной раздачи моделей от Meta, Гомес признает, что продажа исключительно голых моделей через API в краткосрочной перспективе становится крайне низкомаржинальным бизнесом.
В данный момент основная финансовая ценность в индустрии концентрируется на двух полюсах:
- На уровне железа (chip layer): производители микросхем получают сверхприбыли, так как все игроки тратят астрономические суммы на закупку оборудования.
- На прикладном уровне (application layer): сервисы вроде Chat GPT, взимающие фиксированную подписку с каждого пользователя (например, $20 в месяц), демонстрируют отличную экономику.
Для стартапов вроде Cohere это сигнал к неизбежной трансформации продуктовой линейки в сторону более сложных комплексных предложений для бизнеса, выходящих за рамки простого доступа к API.
⚡ Железный суверенитет: чипы, облака и призрак монополии Nvidia 15:59
Затраты на чипы сейчас составляют колоссальную, по мнению Гомеса, даже слишком большую часть бюджета Cohere. Чтобы не попасть в рабскую зависимость от одного поставщика или конкретной облачной платформы, стартап выстраивает диверсифицированную экосистему взаимоотношений. Они работают напрямую с Nvidia, AMD, тестируют решения от перспективных хардверных стартапов и используют процессоры TPU от Google.
Рыночный спрос жестко диктует необходимость мультиоблачной архитектуры. Корпоративные клиенты хотят иметь выбор и категорически отказываются привязываться к одному облачному провайдеру.
Ситуация с доступностью железа начинает постепенно меняться. Острый дефицит графических процессоров (GPU), наблюдавшийся ранее, идет на спад. Рынок чипов для инференса (использования готовых моделей) уже стал достаточно гетерогенным, предлагая множество альтернатив.
В сфере обучения больших моделей долгое время доминировала исключительно Nvidia, однако сегодня, по словам Гомеса, на рынке реально присутствуют два сильных игрока. Google убедительно доказала, что ее платформы TPU полностью пригодны для обучения супермасштабных систем. В ближайшее время Гомес ожидает выхода на аналогичный уровень зрелости решений от AMD и чипов Trainium от Amazon.
При этом Cohere принципиально отказывается от строительства собственных дата-центров. Гомес подчеркивает, что компания ведет себя как экономически рациональный игрок: расчеты показывают, что партнерские цены от облачных провайдеров делают самостоятельное капитальное строительство нерентабельным. Собственная инфраструктура может потребоваться стартапу только в одном случае — если на рынке появится революционный по стоимости чип, который ни один из существующих провайдеров не захочет закупать для своих клиентов.
⏳ Эволюция интерфейсов: от текста на экране к «магии» голоса 19:45
Вспоминая 2017 год и работу над эпохальной научной статьей «Attention Is All You Need», заложившей основу архитектуры Transformer, Эйдан Гомес признается, что будучи в тот момент обычным стажером в Google Brain, он не осознавал масштаба грядущей революции. Для него это было чисто академическое исследование, призванное улучшить качество машинного перевода на символические 3%. Он не ожидал, что вся мировая индустрия ИИ консолидируется вокруг архитектуры Transformer как вокруг единого фундамента.
Более того, Гомес удивлен тем, как долго мир «спал». Потенциал языковых моделей стал очевиден разработчикам еще в 2017 году, когда обученная на Википедии нейросеть начала генерировать связные сложнейшие тексты, неотличимые от человеческих. Однако широкое общественное признание пришло только через 2–3 года, и триггером стал запуск ChatGPT. Секрет успеха заключался в правильном интерфейсе: технологию положили прямо перед пользователем, избавив от необходимости что-то объяснять на пальцах.
Гомес не считает чат-боты универсальным решением для любых задач. Традиционные графические интерфейсы (GUI) с кнопками и визуальными элементами управления остаются крайне эффективными, поскольку вводить детальные текстовые инструкции вручную каждый раз бывает банально неудобно.
Вместе с тем, Гомес испытывает колоссальный оптимизм по поводу развития голосовых интерфейсов. Инвестиции OpenAI и других игроков в это направление полностью оправданы.
Эйдан Гомес: «Любой, кто пробовал вести живой голосовой диалог с современными моделями, испытывает настоящий шок. Когда модель демонстрирует тонкие эмоции, меняет интонацию, делает мимолетный вдох перед началом фразы или причмокивает губами — в этом есть что-то невероятно завораживающее. Это абсолютно магический пользовательский опыт».
Однако у этой магии есть и обратная сторона — усложнение процесса обучения. Раньше модели были условно «глупыми», и любого человека с улицы было достаточно, чтобы находить в их ответах ошибки и обучать систему. Теперь же базовые знания ИИ соответствуют уровню обывателя. Для дальнейшего улучшения моделей компаниям приходится привлекать редких и дорогих экспертов в узких областях: медицине, высшей математике, квантовой физике.
Гарри Стеббингс проводит аналогию с изучением языков: освоить 95% языка можно за полгода, но на оставшиеся 3% перфекционизма уйдут годы. Стоит ли тратить миллиарды долларов ради прироста точности на 0,5%? Гомес убежден, что стоит. Рядовому потребителю может быть все равно, знает ли модель квантовую физику, но для исследователей это станет критически важным инструментом прорыва, способным двигать вперед всю цивилизацию. К тому же, стоимость вычислений на один FLOP (операцию с плавающей запятой) стремительно падает, частично нивелируя гигантские затраты.
В процессе обсуждения термина FLOP возник забавный межкультурный казус: Стеббингс, как уроженец Великобритании, сначала подумал, что Гомес использует британский сленг flop в значении «сокрушительный провал» или «ошибка», что привело к минутной путанице и искреннему смеху собеседников.
🤝 Корпоративный сектор: барьеры доверия, RAG и переход от PoC к продакшену 37:46
Обсуждая барьеры, препятствующие массовому внедрению ИИ в корпоративном секторе, Гомес выделяет главный фактор — отсутствие базового доверия к безопасности систем. Крупный бизнес панически боится утечки данных, раскрытия интеллектуальной собственности и возникновения уязвимостей в корпоративном контуре безопасности.
Чтобы снять эти страхи, Cohere предлагает модель развертывания внутри частного облака клиента (VPC) или непосредственно на локальных серверах компании (On-Premises).
Эйдан Гомес: «Мы не просим компании отправлять свои данные нам. Мы говорим: мы сами принесем наши модели туда, где лежат ваши данные, и мы никогда их не увидим».
Гомес отмечает интересную тенденцию: если большинство отраслей продолжают миграцию в облака, то сектор финансовых услуг сейчас демонстрирует обратное движение — банки активно изымают данные из публичных облачных сервисов и выстраивают собственные закрытые дата-центры из соображений безопасности.
Второй барьер для бизнеса — страх перед галлюцинациями ИИ. Гомес подчеркивает, что хотя бенчмарки фиксируют резкое снижение уровня вымысла у современных моделей, ИИ всегда сохранит минимальный шанс на ошибку. Впрочем, люди тоже постоянно ошибаются и неточно помнят факты, но человеческое общество выработало устойчивость к подобным погрешностям.
Настоящим прорывом в борьбе с галлюцинациями ИИ стала технология RAG (Retrieval-Augmented Generation — генерация с привлечением результатов поиска). В рамках этой архитектуры модель перестает генерировать ответы исключительно из своей «памяти». Вместо этого она обращается к внешней доверенной базе данных (например, внутренним документам компании или поисковой системе), извлекает релевантные куски текста и на их основе формирует ответ, обязательно прикрепляя кликабельные ссылки на первоисточники.
Это дает два важнейших преимущества:
- Пользователь или аудитор может мгновенно верифицировать ответ.
- Модель практически перестает лгать, так как имеет перед глазами четкий справочный материал.
Гомес констатирует тектонический сдвиг на рынке: если прошлый год был исключительно периодом экспериментов и создания пилотных проектов (Proof of Concept, PoC), то сейчас бизнес перешел в стадию экстренного вывода ИИ в реальный продакшен из страха оказаться за бортом прогресса.
Самым востребованным сценарием использования ИИ в enterprise-сегменте является концепция дополнения человеческого капитала (employee augmentation) — создание умных цифровых ассистентов для сотрудников. При этом Гомес критикует подход Microsoft Copilot за его экосистемную изоляцию. По его словам, Copilot отлично работает внутри Office, однако реальный бизнес использует хаотичный набор инструментов: Salesforce для CRM, SAP для ERP, специализированные HR-системы и собственное ПО. Настоящий корпоративный помощник должен быть платформой, независимой от конкретного вендора и умеющей бесшовно работать со всем стеком программного обеспечения компании.
🤖 Волна ИИ-агентов и тектонические сдвиги на рынке труда 43:43
Хайп вокруг темы ИИ-агентов (автономных систем, способных выполнять комплексные многоступенчатые задачи) Эйдан Гомес считает оправданным на все 100%. Возможность поручить ИИ самостоятельную работу на длинном временном горизонте — например, ведение исходящего маркетинга и наполнение воронки продаж в течение полугода — кардинально меняет экономику предприятий.
При этом Гомес убежден, что наиболее эффективные агентские системы будут создаваться непосредственно разработчиками базовых моделей, а не сторонними надстройками. Успех агента целиком зависит от качества «разума» (reasoner), который им управляет. Разработчик модели имеет возможность тонко настраивать и модифицировать внутренние веса нейросети под конкретные логические задачи, в то время как создатели сторонних приложений видят модель лишь через закрытое API и структурно проигрывают эту гонку.
Гомес категорически не согласен с паническими слухами о том, что развитие больших моделей платообразно замедлилось. Он утверждает, что технологии планирования и удержания долгосрочного контекста, над которыми инженеры плотно работали последний год, в ближайшие 12–24 месяца выйдут на стадию коммерческого использования и удивят рынок новыми возможностями.
Взгляд на проблему замещения людей машинами
Гомес транслирует взвешенный и оптимистичный взгляд на социальные последствия автоматизации, решительно отвергая сценарии апокалипсиса с 80%-й безработицей. По его мнению, ИИ приведет к росту общей продуктивности человечества, а не к тотальному вытеснению людей с рабочих мест.
Безусловно, возникнет локальное замещение в отдельных профессиях. Первой под удар попадает сфера клиентской поддержки (customer support). Однако Гомес предлагает взглянуть на это с гуманистической точки зрения: работа оператора колл-центра психологически ужасна и разрушительна для личности. Эти люди ежедневно сталкиваются с потоками агрессии, оскорблений и криков. Гомес считает правильным передать эту эмоционально истощающую рутину моделям, оставив людям решение верхнеуровневых, созидательных задач, где клиент не разгневан, а действительно нуждается в сложной интеллектуальной помощи.
В таких сферах, как B2B-продажи, человеческий фактор останется абсолютно незаменимым. Институциональный покупатель никогда не согласится заключать значимую для бизнеса сделку с роботом. В случае возникновения проблем на другой стороне контракта обязательно должен находиться человек, обладающий реальной властью, авторитетом и персональной ответственностью за исход дела.
Дополнительным драйвером тектонических сдвигов в физическом мире станет робототехника. Гомес отмечает, что внедрение больших языковых моделей в качестве динамических «планировщиков» вдохнуло новую жизнь в эту отрасль. Раньше роботы были крайне хрупкими системами: инженерам приходилось жестко прописывать код под каждый миллиметр пространства, и малейшее изменение геометрии комнаты ломало алгоритм. Использование Foundation Models позволило роботам гибко адаптироваться к меняющейся среде. Гомес прогнозирует появление дешевых и надежных гуманоидных роботов общего назначения в диапазоне от 5 до 10 лет.
⚡ Блиц-опрос: миллиардные раунды, доктрина Лекана и ловушка регуляций в Европе 55:55
В финальной части беседы, прошедшей в формате быстрого блица, сооснователь Cohere поделился рядом личных откровений и стратегических инсайтов:
- Главная переоценка года: Гомес признается, что кардинально пересмотрел свое отношение к данным, ранее недооценивая их значимость по сравнению с чистым масштабом вычислений. Оказалось, что современные модели обладают пугающей чувствительностью к обучающей выборке: один-единственный некачественный или ошибочный пример, затерянный среди миллиардов правильных, способен критически исказить поведение нейросети.
- Искажение восприятия денег: на сегодняшний день Cohere привлекла около 1 миллиарда долларов инвестиций, а ее рыночная стоимость, по сообщениям СМИ, оценивается более чем в 5,5 миллиарда долларов. Гомес иронично замечает, что ИИ-индустрия «сломала его мозг» в вопросах экономики. Сумма в полмиллиарда долларов в рамках одного раунда больше не кажется ему огромной, поскольку ближайшие конкуренты оперируют бюджетами совершенно другого масштаба. Тем не менее, Cohere сознательно идет по пути сохранения независимости, отказываясь превращаться в де-факто дочернюю структуру какого-либо облачного гиганта, как это произошло со стартапами Adept (поглощен Amazon) или Inflection (поглощен Microsoft).
- Отношение к OpenAI: Гомес выражает глубокое уважение к этой компании за их историческую «иррациональную веру» в гипотезу масштабирования. Он вспоминает свои беседы с Ильей Суцкевером в Торонто еще до релиза первой версии GPT — эта идея владела Суцкевером за годы до ее успешной реализации. При этом Гомес фиксирует тектонический сдвиг в текущей стратегии OpenAI: из исследовательской лаборатории по достижению AGI они превратились в жесткую продуктовую компанию, сфокусированную на потребительском B2C-рынке, поскольку это единственный способ заработать деньги на оплату колоссальных счетов за серверы.
- Идеологический раскол (Хинтон против Лекана): Гомес лично гораздо ближе к Джеффри Хинтону (его сооснователь Ник играет с Хинтоном в шахматы каждый понедельник). Однако в вопросах будущего ИИ Гомес категорически не разделяет паническую «допокалиптическую» позицию Хинтона, считая себя абсолютным единомышленником куда более оптимистичного Яна Лекана.
- Географический фактор: переехав в Лондон и развивая там сильное инженерное подразделение, Гомес отмечает технологический оптимизм и гибкость Великобритании. В то же время он весьма жестко отзывается о континентальной Европе (несмотря на наличие у него британского и испанского гражданства). По мнению Гомеса, европейская культура фундаментально враждебна к технологическому бизнесу, а единственным ментальным ответом местной бюрократии на любые инновации является немедленное закручивание регуляторных гаек. Некоторое исключение сейчас демонстрирует Франция, пытающаяся вести себя более прогрессивно. Напоследок Гомес подчеркивает важность физического присутствия сотрудников в офисах (в Лондоне, Торонто, Нью-Йорке и Сан-Франциско), утверждая, что колоссальный выигрыш в продуктивности от очной командной работы невозможно переоценить.
В качестве главного манифеста Эйдан Гомес обозначает проблему тотальной supply-constrained (ограниченной по предложению) структуры современного мира. Наше общество страдает от стагнации: в той же Канаде реальный GDP per capita не растет уже целое десятилетие, превращая экономику из расширяющегося пирога в фиксированный ресурс, за кусок которого люди вынуждены ожесточенно сражаться, что порождает социальное напряжение. Именно поэтому ключевым приоритетом человечества должно стать повсеместное внедрение ИИ ради взрывного роста производительности труда. Прирост эффективности условной национальной системы здравоохранения всего на 5% способен сэкономить миллиардные бюджеты и спасти миллионы жизней.