Почему крупные корпорации боятся внедрять генеративный искусственный интеллект

a16z (Andreessen Horowitz) 7,1 тыс. 24 мин 6 мин 25.09.2023
Главное

Внедрение генеративного искусственного интеллекта в крупный корпоративный сектор сталкивается со множеством скрытых технологических и организационных препятствий. В подкасте венчурного фонда a16z сооснователь и генеральный директор компании Databricks Али Годси обсуждает, почему крупные предприятия медлят с интеграцией ИИ, кто ведет внутреннюю борьбу за контроль над технологиями и почему будущее за специализированными моделями, а не за огромными универсальными системами.

🏢 Внутренние войны и страхи крупных корпораций 0:00

Крупный бизнес традиционно демонстрирует медлительность при внедрении инноваций, однако в случае с генеративным искусственным интеллектом задержка вызвана комплексом специфических факторов. По мнению Али Годси, руководители предприятий внезапно осознали истинную ценность накопленных ими массивов данных и теперь крайне неохотно готовы делиться ими с внешними провайдерами. Корпорации всерьез опасаются утечек конфиденциальной информации и интеллектуальной собственности, рассматривая сценарии, когда публичная языковая модель (LLM) начнет выдавать их собственный исходный код сторонним пользователям.

Помимо вопросов безопасности, внедрение технологий тормозит внутреннее политическое противостояние. Али Годси описывает эту ситуацию как «драку за еду» (food fight) внутри корпораций. Различные департаменты — от ИТ-отделов до продуктовых и бизнес-подразделений — ведут борьбу за право единоличного контроля над бюджетами и развитием ИИ в организации, что существенно парализует общие бизнес-процессы.

🎯 Стратегия топ-менеджмента и покупка MosaicML 3:16

Интерес к искусственному интеллекту изменил характер коммуникации между технологическими поставщиками и бизнесом. По словам Али Годси, если раньше переговоры велись преимущественно на уровне ИТ-директоров (CIO), то теперь обсуждением стратегий ИИ занимаются лично генеральные директора (CEO) и советы директоров крупных компаний. Руководители рассматривают проприетарные данные в сочетании с ИИ как уникальное конкурентное преимущество — своего рода «криптонит», способный обойти соперников на рынке. Из-за этого бизнес стремится создавать собственные модели и полностью владеть интеллектуальной собственностью, отказываясь передавать данные таким игрокам, как OpenAI или Anthropic.

Именно этим стратегическим запросом Али Годси объясняет покупку компании MosaicML со стороны Databricks. Данная сделка была направлена на то, чтобы предоставить клиентам инструменты для обучения собственных языковых моделей с нуля на их собственных данных. При этом глава Databricks признает, что этот процесс требует огромных вычислительных мощностей, значительных финансовых затрат и «не подходит для слабонервных» из-за дефицита и дороговизны графических процессоров (GPU).

⚖️ Оптимальный размер: почему огромные модели не нужны бизнесу 5:53

В индустрии существует заблуждение относительно необходимости использования исключительно гигантских ИИ-систем. Али Годси утверждает, что для решения конкретных корпоративных задач бизнесу не требуются модели сокрушительных масштабов. Даже при наличии неограниченного бюджета на обучение условной модели на 100 миллиардов параметров, её последующая эксплуатация (инференс) обойдется компании слишком дорого. Согласно законам масштабирования, увеличение числа параметров требует пропорционального расширения обучающей выборки, что далеко не всегда экономически оправдано.

Для большинства практических сценариев в бизнесе приоритетом является максимальная точность в узкой предметной области, например, при классификации производственных дефектов по фотографиям. В таких случаях, как считает Годси, небольшая специализированная модель, обученная на качественном корпоративном датасете, демонстрирует более высокую точность, работает с меньшей задержкой (latency) и обходится значительно дешевле крупных универсальных аналогов. Единственный минус такой системы — она не сможет развлечь пользователя в выходные или помочь ребенку с домашним заданием по физике.

🏆 «Священный Грааль» дообучения и дефицит видеокарт 7:50

Главным технологическим вызовом для исследовательского сообщества на данный момент является эффективное дообучение (fine-tuning) крупных базовых моделей. По мнению Али Годси, создание тысяч отдельных модифицированных версий одной большой модели экономически нецелесообразно, поскольку их одновременная загрузка в GPU для обслуживания клиентов требует колоссальных затрат. Настоящим «Священным Граалем» ИИ-индустрии спикер называет методы поверхностных микромодификаций, позволяющие накладывать специализированные надстройки на единый мощный «базовый мозг».

В качестве примеров таких подходов Годси приводит технологические методы:

Тем не менее, глава Databricks отмечает, что окончательный победитель среди этих технологий еще не определен. Ситуация усугубляется жесточайшим глобальным дефицитом вычислительных ресурсов. Али Годси признался, что сознательно запретил своей трехтысячной команде продаж активно предлагать решения MosaicML абсолютно всем клиентам, так как Databricks физически не способна удовлетворить гигантский спрос из-за нехватки видеокарт.

🌐 Противостояние Open Source и кризис академической науки 13:46

Разработчики закрытых коммерческих систем сегодня активно лоббируют законодательные ограничения против открытого программного обеспечения (open source), мотивируя это угрозами безопасности. Али Годси критически относится к этой позиции, заявляя, что без открытого релиза модели Llama мировая ИИ-индустрия сейчас находилась бы на гораздо более ранней стадии развития. По его прогнозам, развитие open source невозможно остановить: исходный код современных архитектур занимает всего несколько страниц, а веса моделей неизбежно утекают в сеть или воспроизводятся с помощью методов дистилляции знаний.

Парадели дефицит коммерческих ресурсов спровоцировал глубокий внутренний кризис в ведущих мировых университетах. По словам Годси, академическая наука чувствует себя выброшенной из игры, поскольку профессора и исследователи массово уходят в коммерческие корпорации вслед за финансированием, вычислительными мощностями и реальными данными. В попытке выжить университеты сейчас вынуждены экстренно искать альтернативные научные прорывы, направленные на радикальное удешевление процессов обучения ИИ.

📊 Иллюзия бенчмарков и человеческий фактор на пути к AGI 17:04

Существующие методики тестирования искусственного интеллекта вызывают серьезный скепсис у экспертов рынка. Али Годси прямо называет популярные бенчмарки (включая MMLU) «абсолютной чепухой» (BS). Он сравнивает прохождение тестов нейросетями с ситуацией, когда студентам накануне экзамена сливают все ответы. Модели попросту зазубривают текстовые данные, доступные в интернете, поэтому их успехи на медицинских или юридических экзаменах не имеют ничего общего с реальной способностью ставить диагнозы или вести судебные дела. Глава Databricks призывает медицинское сообщество создать секретные, закрытые от разработчиков тестовые базы данных для объективной оценки систем.

По оценке Годси, движение человечества в сторону сильного искусственного интеллекта (AGI) гарантировано, однако на этом пути индустрия неизбежно столкнется с эффектом убывающей отдачи от простого масштабирования. Он убежден, что в критически важных сферах, таких как медицина или юриспруденция, технология еще долгое время не сможет работать автономно и потребует обязательного участия человека в контуре управления (human-in-the-loop).

🛡️ Этика, автоматизация и экзистенциальные риски 19:30

Обсуждение угроз ИИ часто смещается в область чрезмерно спекулятивных гипотез. Комментируя проблему потери рабочих мест, Али Годси напоминает, что процессы автоматизации длятся уже 300 лет. Исторический опыт показывает, что государства с самым высоким уровнем автоматизации обладают наибольшим ВВП, максимальным количеством рабочих мест и самым высоким уровнем доходов населения. Главный экономический закон заключается в повышении эффективности, поэтому попытки остановить прогресс спикер считает глупостью.

Что касается экзистенциального риска уничтожения человечества сверхразумным ИИ, Годси призывает разделять фантастику и реальность. На сегодняшний день ни одна языковая модель не обладает свободой воли, сознанием или способностью самостоятельно принимать решения — они лишь выполняют математические вычисления.

По мнению Годси, сценарий катастрофы маловероятен в ближайшем будущем по двум ключевым причинам:

  1. Асимметрия стоимости обучения и использования. Обучение гигантской модели требует колоссальных денег и времени, в отличие от мгновенного обновления человеческого мозга информацией. Полноценный самовоспроизводящийся цикл ИИ (например, через Auto-GPT) упирается в экономические и infraestructura-ограничения.
  2. Отсутствие механизмов биологического или автономного самовоспроизводства машин. Технологии пока бесконечно далеки от того, чтобы роботы или программы могли самостоятельно создавать новые поколения самих себя без участия человека.

Именно эти барьеры, как резюмирует руководитель Databricks, на текущем этапе обеспечивают безопасность человеческой цивилизации.

💬 Цитаты

«Полноценный специализированный ИИ не сможет развлечь вас в выходные или помочь вашим детям с домашним заданием по физике.»

Али Годси 07:38

«Существующие бенчмарки — это абсолютная чепуха, напоминающая сдачу экзамена, ответы на который вам слили накануне.»

Али Годси 18:37
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Инференс (Inference)
Процесс работы обученной нейросети по выполнению конкретных задач и выдаче ответов пользователю.
Бенчмарк (Benchmark)
Стандартизированный тест или набор задач, используемый для оценки и сравнения производительности ИИ-моделей.
Дообучение (Fine-tuning)
Процесс точечной настройки уже готовой большой языковой модели под специфические задачи или данные конкретной индустрии.
MMLU (Massive Multitask Language Understanding)
Популярный англоязычный тест для оценки общих знаний и способностей языковых моделей к решению многозадачных тестов.
LoRA / QLoRA
Методы эффективной адаптации нейросетей, позволяющие дообучать модели с минимальными затратами памяти и вычислительной мощности.
📊 Цифры
🗓 Хронология
  1. 2000 год Пик стоимости компании Cisco на фоне ажиотажа вокруг интернет-инфраструктуры, когда её оценка превысила Microsoft.
⚖️ Другая сторона
Искусственный интеллект Ali Ghodsi Databricks MosaicML генеративный ИИ открытый код