Логан Килпатрик: «Рынок ИИ не станет пространством одного победителя»

The Cognitive Revolution 3,1 тыс. 1 ч 10 мин 8 мин 06.06.2024
Главное

Переход Логана Килпатрика (Logan Kilpatrick) из OpenAI в команду Google знаменует собой новый этап в глобальной технологической гонке за лидерство в сфере искусственного интеллекта. В рамках подкаста The Cognitive Revolution ведущий Нейтан Лабенц (Nathan Labenz) обсудил с гостем внутреннюю культуру ИТ-гиганта, скрытые механизмы работы исследовательских групп и тектонические сдвиги, которые принесло появление модели Gemini 1.5 Flash. Этот разговор приоткрывает завесу тайны над тем, как Google планирует сделать искусственный интеллект доступным и дешевым для миллионов разработчиков по всему миру.

🔄 Новый вызов: переход из OpenAI в Google 4:20

Переход Логана Килпатрика в Google произошел на удивление быстро для традиционно неповоротливой корпоративной машины. После его ухода из OpenAI к нему сразу обратились Мэтт Велосо (Matt Veloso) и Джош Вудворд (Josh Woodward), возглавляющий команду Google Labs. По словам Килпатрика, самому ему процесс найма даже показался медленным, поскольку он чувствовал, что «теряет световой день» в условиях стремительной ИИ-гонки. Однако внутри компании он сразу же ощутил колоссальный масштаб инвестиций и беспрецедентный уровень гибкости, сопоставимый со стартапами.

🏎️ Скорость принятия решений

В качестве подтверждения невероятной мобилизации менеджмента Google ведущий Нейтан Лабенц поделился личной историей. Когда была анонсирована модель Gemini 1.5, Лабенц в субботу утром отправил личное сообщение Джеффу Дину (Jeff Dean) в социальной сети Twitter с просьбой предоставить ранний доступ. К его удивлению, легендарный ученый ответил в течение часа, подключил Джоша Вудворда, и уже к утру воскресенья ведущий тестировал контекстное окно в миллион токенов. По мнению Лабенца, такая вовлеченность топ-менеджмента доказывает, что в Google полностью стерты барьеры ради достижения технологического превосходства.

🤝 Открытость против изоляции

Килпатрик отметил существенные различия в корпоративной культуре двух главных ИИ-лабораторий мира. Согласно его утверждению, в OpenAI после релиза GPT-4 и взрывного роста ChatGPT выстроилась жесткая стена между исследовательской группой (Research) и всеми остальными подразделениями. Если раньше любой сотрудник мог зайти на научное собрание, то позже организационная структура изолировала ученых ради защиты интеллектуальной собственности.

В Google, как считает гость, ситуация иная: команда DeepMind демонстрирует высокую готовность к коллаборации и искренне заботится о нуждах сторонних разработчиков. Килпатрик добавил, что в OpenAI фокус сместился на развитие собственного потребительского продукта ChatGPT («положили все яйца в одну корзину»), тогда как в Google команду разработчиков и API воспринимают как ключевой канал дистрибуции технологий.

🧠 Мультимодальность «из коробки» и семейство Gemini 1.5 15:59

Главным технологическим достижением новой линейки моделей Google стала нативная мультимодальность. Килпатрик пояснил суть этого термина для разработчиков: теперь система способна принимать любые типы контента (текст, аудио, изображения, видео) и выдавать текстовый ответ без необходимости перенаправлять запросы между разными специализированными моделями.

🔌 Конец эпохи костылей из цепочек моделей

Исторически создателям ИИ-сервисов приходилось выстраивать сложные цепочки (chains) из четырех различных архитектур. Это приводило к огромным задержкам (latency) и высокой стоимости вычислений, что делало мультимодальные сценарии неприменимыми в реальном бизнесе. Появление Gemini 1.5 Flash полностью решает эту проблему, обеспечивая колоссальную скорость обработки разнородных данных. На глубоком техническом уровне, как предполагают эксперты (хотя детальная архитектура в 150-страничном техническом отчете Gemini 1.5 не раскрывается), здесь может использоваться архитектура «раннего слияния» (early fusion) или смесь экспертов (MoE), позволяющая модели улавливать даже тонкие интонации и эмоции в аудиофайлах.

📊 Новая иерархия моделей

С выходом линейки 1.5 предыдущее поколение моделей Gemini 1.0 оказалось полностью неактуальным. Килпатрик подчеркнул, что Gemini 1.5 Pro превосходит прошлую флагманскую модель Gemini 1.0 Ultra практически по всем ключевым метрикам. При этом Ultra так и не вышла в широкий доступ именно из-за стремительного прогресса архитектуры 1.5. В актуальном рейтинге LMSYS Chatbot Arena новые версии Pro вплотную приблизились к показателям GPT-4o. Существует две версии 1.5 Pro:

⚡ Gemini 1.5 Flash: разрушение ценовых барьеров 32:19

Появление модели Gemini 1.5 Flash, по мнению Килпатрика, стало поворотным моментом для индустрии, так как до этого момента полноценное использование компьютерного зрения в коммерческих масштабах сдерживалось высокой стоимостью и задержками. Гость убежден, что 2024 год станет «годом мультимодальных моделей», и Flash доказывает этот тезис.

📧 Реальный тест на четверть миллиона токенов

Ведущий Нейтан Лабенц, выступающий ИИ-советником в компании Athena (сервис исполнительных ассистентов), поделился результатами собственного эксперимента с Gemini 1.5 Flash. Традиционный процесс составления профиля нового клиента в компании занимал около четырех часов работы человека. Лабенц решил расширить этот сценарий: он выгрузил 250 своих последних отправленных электронных писем из Gmail и без какой-либо сложной инженерии промптов загрузил их целиком в контекстное окно Flash, попросив составить свой детальный психологический портрет.

Объем данных составил около 250 000 токенов, что физически невозможно обработать в моделях конкурентов без предварительного дробления (chunking). Результат эксперимента поразил ведущего:

  1. Модель выдала глубокий двухстраничный аналитический очерк, точно отражающий его интересы, проекты и особенности характера.
  2. Сама генерация заняла всего 45 секунд (остальное время ушло на работу Gmail API).
  3. Стоимость этого сложнейшего запроса на четверть миллиона токенов составила менее 20 центов.

Для сравнения Лабенц напомнил, что оригинальная GPT-4 с окном в 8 000 токенов могла вместить максимум 8 подобных писем, а стоимость вычислений была несопоставимо выше. Килпатрик добавил, что Flash обошла оригинальную GPT-4 (версию 0314) в рейтинге LMSYS, при этом стоимость ввода у модели OpenAI составляла $30 за миллион токенов, тогда как у Flash она равна 35 центам для контекста до 128k и 70 центам для сверхдлинных контекстов. Интеллект, по выражению гостя, становится «слишком дешевым, чтобы его измерять».

👁️ Революция в компьютерном зрении

Важной технической особенностью Flash является способность выдавать координаты ограничивающих рамок (bounding boxes) для объектов на изображениях. По словам Килпатрика, это открывает дорогу для автоматизации кликов по интерфейсам (UI automation) и создания кастомных систем сегментации изображений, поскольку старые визуальные модели не понимали пространственных координат. Гость полагает, что на базе Flash разработчики уже сейчас могут полностью воссоздать функционал нашумевшей демонстрации Project Astra от DeepMind, просто подключив копеечный API к любым умным очкам со встроенной камерой.

🛠️ Экосистема разработки: AI Studio против Vertex AI 49:02

Многие разработчики до сих пор путаются в продуктовой линейке ИИ-инструментов Google, сталкиваясь со сложной структурой из Google Cloud, Vertex AI и AI Studio. Килпатрик признал, что компания прикладывает много усилий для упрощения этого ландшафта, и предложил четкое разделение.

🗺️ Путеводитель по платформам Google

Для навигации по ИИ-инструментам Google Килпатрик рекомендует использовать следующую ментальную модель, схожую с разделением между OpenAI API и Azure OpenAI:

🧪 Внутренняя кухня IT-гиганта

Отвечая на вопрос о том, создаются ли внутренние продукты Google (такие как Project Astra) на базе тех же инструментов, что доступны внешним клиентам, Килпатрик ответил утвердительно. Тысячи внутренних команд Google используют ровно тот же самый Gemini API. Единственное исключение составляют случаи, когда продуктовым группам (например, команде Google Maps) требуется специфическое кастомное дообучение (post-training) на закрытых внутренних данных для адаптации модели под узкие задачи картографии.

🚀 Будущее автоматизации: функции, RAG и тонкая настройка 55:47

В ходе беседы Логан Килпатрик эксклюзивно анонсировал запуск тонкой настройки (fine-tuning) для модели Gemini 1.5 Flash, который официально запланирован на четверг, 30 мая.

📈 Анонс кастомизации Gemini 1.5 Flash

Уникальность этого предложения от Google заключается в том, что разработчикам не придется платить за сам процесс обучения и, что еще важнее, стоимость инференса (вывода) дообученной модели останется базовой, без наценки за кастомизацию. На момент запуска это станет самым выгодным предложением на рынке среди моделей такого класса (дообучение для 1.5 Pro пока не планируется).

Корпорация также активно развивает сопутствующий инструментарий разработки:

  1. Готовится к выпуску вторая версия механизма вызова функций (Function Calling V2), нацеленная на радикальное повышение точности интеграции ИИ с внешним кодом и API.
  2. Внутри Gemini API уже развернут полноценный инструмент семантического поиска (Semantic Retrieval API), позволяющий загружать документы в изолированные корпуса данных и строить RAG-системы (архитектура генерации с дополненным поиском).

🧭 Тонкая настройка или контекстное наполнение?

Собеседники подробно разобрали дилемму между дообучением моделей и «фаршированием» контекста (context stuffing). По мнению Килпатрика, тонкая настройка идеальна для жесткого закрепления определенного формата поведения модели или узкой задачи, но при этом она лишает систему генеративных качеств и гибкости.

Гость рассказал, что думал о создании стартапа для решения проблемы «пиши как я» (создание цифрового двойника автора), но пришел к выводу, что чисто алгоритмически fine-tuning плохо справляется с запоминанием фактов. Для качественной имитации стиля автора или работы с корпоративной базой знаний критически необходимо сочетать RAG-системы, генерацию синтетических данных и гигантское контекстное окно, где Gemini удерживает лидерство.

⚖️ Динамика рынка: платформы против стартапов и мифы об AGI 1:01:23

В завершение дискуссии Лабенц и Килпатрик затронули тему будущего структуры рынка искусственного интеллекта. Ведущий выразил гипотезу о неизбежной консолидации рынка вокруг условных 10 глобальных игроков (фронтир-лабораторий, региональных чемпионов вроде Mistral в Европе и нескольких азиатских ИТ-гигантов). По мнению Лабенца, платформы обладают колоссальным преимуществом в дистрибуции. В качестве примера он привел встроенный инструмент протоколирования встреч в Google Meet, который мгновенно обесценивает бизнес десятков стартапов, создававших ИИ-нотариаты.

🥊 За кулисами гонки лабораторий

Килпатрик категорически не согласился с тезисом Сэма Альтмана о том, что лидеры рынка якобы «не думают о конкуренции». Гость подчеркнул, что все фронтир-лаборатории предельно жестко следят за анонсами друг друга.

При этом он уверен, что сценарий «победитель получает всё» (winner-take-all) невозможен. Объем рынка ИИ колоссален, и места хватит многим игрокам. Стартапы, с точки зрения Килпатрика, имеют фундаментальные преимущества перед корпорациями: отсутствие координационных издержек, высокую скорость тестирования гипотез и предельную сфокусированность маленьких команд.

🧩 Готово ли человечество к ИИ общего уровня?

Комментируя свой вирусный твит о том, что «если бы AGI появился сегодня, люди бы не знали, что с ним делать», Килпатрик пояснил глубинную мысль. ИИ-сообщество живет в информационном пузыре, в то время как подавляющее большинство населения планеты ни разу в жизни не запускало даже GPT-4 или Gemini 1.5.

Даже если завтра ученые предоставят полноценный автономный сверхинтеллект через API, инерция реального мира колоссальна. Изменение глобальных бизнес-процессов займет многие годы. Главная задача индустрии сейчас — не просто наращивать параметры моделей, а создавать интерфейсы, которые позволят нетехническим специалистам использовать ИИ как удобный и понятный повседневный инструмент.

💬 Цитаты

«Большинство людей в мире до сих пор никогда не использовали GPT-4 или Gemini 1.5, они вообще не вовлечены в эту технологию.»

Логан Килпатрик 1:04:58

«Если бы мне дали AGI прямо сейчас на моем компьютере, время, за которое мир изменится, все равно было бы очень долгим.»

Логан Килпатрик 1:05:10
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Нативная мультимодальность
Способность нейросети одновременно обрабатывать разные типы данных (текст, видео, аудио) в рамках единой архитектуры без пересылки между отдельными моделями.
Контекстное окно
Максимальный объем данных (слов, символов или токенов), который модель способна удерживать в оперативной памяти за один запрос.
RAG (Retrieval-Augmented Generation)
Технология генерации ответа ИИ с дополнением из внешней базы знаний, позволяющая модели оперировать точными и свежими фактами без дообучения.
Тонкая настройка (Fine-tuning)
Процесс дообучения готовой базовой нейросети на специфическом наборе данных для изменения ее поведения или адаптации под узкую задачу.
Инференс
Процесс работы обученной нейросети по выполнению вычислений и выдаче ответов на запросы пользователей.
📊 Цифры
🗓 Хронология
  1. Март 2023 года Официальный релиз модели GPT-4 компанией OpenAI и демонстрация возможностей компьютерного зрения со скетчем на салфетке.
  2. Середина 2023 года Выступление Логана Килпатрика на саммите AI Engineering Summit с прогнозом о том, что 2024 станет годом мультимодальных моделей.
  3. Май 2024 года Проведение конференции Google IO, масштабное обновление линейки Gemini 1.5 и появление Flash в рейтинге LMSYS.
  4. 30 мая 2024 года Запланированный официальный анонс запуска бесплатного обучения для тонкой настройки (fine-tuning) модели Gemini 1.5 Flash.
⚖️ Другая сторона
Искусственный интеллект Логан Килпатрик Google AI Studio Gemini 1.5 Flash OpenAI