В новом эпизоде подкаста The Cognitive Revolution ведущий Натан Лабенц обсуждает с Логаном Килпатриком (Logan Kilpatrick), руководителем по развитию ИИ в Google, беспрецедентную скорость изменений в индустрии. Основной темой разговора стала трансформация Google из «спящего гиганта» в доминирующую силу, чей объем обработки токенов вырос в 50 раз всего за один год.
📈 Феноменальный рост и организационная трансформация Google 0:39
За последний год объем использования ИИ в сервисах Google увеличился в 50 раз: с 10 триллионов токенов в месяц до 500 триллионов сегодня . По подсчетам ведущего, это эквивалентно 50 000 токенов в месяц на каждого жителя Земли . Логан Килпатрик отмечает, что за этими цифрами стоит глубокая внутренняя перестройка компании.
Ключевые этапы трансформации:
- Слияние подразделений: В середине 2023 года команды Google Brain и DeepMind объединились под руководством Демиса Хассабиса . Это позволило консолидировать ресурсы и сфокусироваться на едином векторе развития серии моделей Gemini.
- Смена парадигмы: DeepMind перешел от формата организации, занимающейся фундаментальными исследованиями, к созданию конкретных продуктов (Gemini App, Notebook LM, инструменты для разработчиков) .
- Инфраструктурный рывок: Рост потребления потребовал масштабного развертывания тензорных процессоров (TPU). Логан подчеркивает, что такие мощности невозможно создать мгновенно — это результат долгосрочного планирования циклов обучения и инференса .
По мнению Логана Килпатрика, Google всегда была ИИ-компанией (вспоминая архитектуру Transformer, созданную в ее стенах), но сейчас эта технология стала фундаментом всех продуктов — от поиска и Docs до Waymo и YouTube .
⚔️ Конвергенция или дивергенция: будущее рынка моделей 20:03
В индустрии ведутся споры о том, будут ли модели разных лабораторий становиться всё более похожими (конвергенция) или же начнут радикально различаться.
Логан Килпатрик склоняется к сценарию дивергенции по следующим причинам:
- Сложность инноваций: «Низковисящие фрукты» уже собраны . Дальнейшее улучшение моделей требует колоссальных инвестиций и уникальных архитектурных решений, которые под силу не всем.
- Инфраструктурные преимущества: Google обладает одной из самых мощных вычислительных инфраструктур в мире, что дает компании возможность делать ставки, недоступные конкурентам .
- Специализация: Хотя крупные лаборатории стремятся к универсальности (AGI), Логан Килпатрик допускает, что некоторые игроки (например, Anthropic) могут сфокусироваться на узких нишах, таких как идеальное написание кода, чтобы построить устойчивый бизнес .
🚀 Стартапы против Big Tech: в чем преимущество малых команд? 24:25
Несмотря на доминирование гигантов, Логан Килпатрик утверждает, что сейчас — лучшее время в истории человечества для запуска стартапа .
Его аргументы в пользу стартапов:
- Фокус и скорость: Большие компании обременены процессами безопасности, комплаенса и необходимостью поддерживать продукты с миллиардами пользователей. Стартап может сфокусироваться на одной задаче и итерировать её в разы быстрее .
- Инструментарий: Барьер входа в разработку ПО никогда не был таким низким. ИИ-агенты позволяют маленьким командам создавать продукты, которые раньше требовали десятков инженеров .
- Кастомизация: Стартапы могут глубже погружаться в специфические сегменты пользователей, предлагая решения, которые слишком узки для универсальных моделей Google или OpenAI .
Ведущий Натан Лабенц приводит в пример компанию Cursor (AI-редактор кода), которая недавно объявила о достижении выручки (ARR) в $500 млн . Логан признает их успех, но отмечает, что Google Cloud стремится быть партнером для таких компаний, предоставляя им инфраструктуру через API, а не просто конкурировать с ними .
🧠 Технологические прорывы: Gemini 2.5 Pro и длинный контекст 40:21
Одной из самых обсуждаемых тем стала способность моделей работать с огромными объемами данных. Gemini 2.5 Pro демонстрирует значительный отрыв в тестах на «длинный контекст» (long context).
Технические детали и наблюдения:
- Превосходство в бенчмарках: Логан демонстрирует данные теста OpenAI MRCR (8 иголок в стоге сена), где новая Gemini 2.5 Pro работает на 20% лучше конкурентов при извлечении множественных фактов из контекста .
- Слияние контекста и рассуждений: По словам Логана, именно улучшение способностей к рассуждению (reasoning) позволяет модели эффективно использовать всё окно контекста, не теряя нить повествования .
- Смена паттернов использования: Раньше пользователи редко загружали огромные файлы, не веря в возможности моделей. С выходом 2.5 Pro Google наблюдает резкий рост запросов с использованием миллионов токенов .
Натан Лабенц делится личным опытом: он загрузил в Gemini всю историю своей переписки в Gmail (около 1 млн токенов), и модель смогла сформировать удивительно точный портрет его личности и рабочих привычек .
⚡ Диффузионные языковые модели: конец эпохи трансформеров? 1:07:04
Логан Килпатрик анонсировал работу Google над новым типом языковых моделей, основанных на диффузии (аналогично генераторам изображений, таким как Imagen).
Преимущества диффузионных LLM:
- Невероятная скорость: Они генерируют текст в разы быстрее традиционных авторегрессионных моделей (как GPT) .
- Нелинейность: В отличие от посимвольной генерации, диффузионная модель формирует ответ «целиком», постепенно уточняя детали, что ближе к человеческому мышлению .
- Персонализированный интерфейс: Такая скорость позволяет создавать UI, который перерисовывается мгновенно в ответ на действия пользователя .
🤖 Путь к AGI и будущее человеческого труда 1:09:45
Обсуждая путь к сильному искусственному интеллекту (AGI), Логан Килпатрик выдвигает тезис: AGI станет не просто мощной моделью, а «продуктовым опытом» . Он считает, что мы не проснемся в один день с «готовым AGI», а увидим, как существующие системы обрастают памятью и инструментами, пока их поведение не станет неотличимым от разумного.
Отношение Логана к ИИ в личной жизни:
- Отказ от помощи ИИ: Логан утверждает, что 95% его писем и твитов написаны им самим без участия ИИ . Для него критически важно сохранять собственную «агентность» и уникальный тон.
- Ценность человеческого контента: По мнению гостя, в мире, где ИИ может генерировать бесконечный объем контента, ценность человеческого взгляда и опыта будет только расти . Мы слушаем подкасты не ради сухих фактов, а ради личности ведущего.
- Новые возможности: ИИ может взять на себя рутину, позволяя людям больше фокусироваться на межличностных связях .
В завершение Логан Килпатрик пригласил разработчиков обращаться к нему напрямую (lkilpatrick@google.com), чтобы получить ранний доступ к новым API Google, подчеркнув, что компания стремится быть максимально открытой к фидбеку от комьюнити .