Как Пейдж Бейли и команда Google создавали PaLM-2

Выпуск подкаста The Cognitive Revolution посвящен детальному разбору создания и масштабного внедрения одной из флагманских языковых моделей — PaLM-2 от компании Google. Ведущий Натан Лабенц обсуждает с главным продукт-менеджером проекта Пейдж Бейли внутренние механизмы разработки, организацию колоссальных вычислительных мощностей и интеграцию технологии в десятки продуктов экосистемы Alphabet. Интервью приоткрывает завесу над слиянием команд Google Brain и DeepMind, а также будущим мультимодальных систем уровня Gemini.

🤝 Слияние гигантов: создание Google DeepMind 4:13

Одним из важнейших стратегических шагов Alphabet за последнее время стало официальное слияние двух ведущих исследовательских подразделений в области искусственного интеллекта — Google Brain и DeepMind. Исторически внутри холдинга существовало несколько обособленных научных структур. Команда Google Brain развивалась непосредственно внутри Google Research, в то время как лондонская DeepMind под руководством Демиса Хассабиса вела самостоятельные фундаментальные исследования, заслужившие публикации в журнале Nature, такие как AlphaFold и AlphaGo.

Решение объединить эти ресурсы исходило от сооснователя Google Сергея Брина и высшего руководства Alphabet. Как отмечает Пейдж Бейли, этот шаг устранил барьеры между учеными, которые долгое время были разделены внутренней структурой корпорации. За первые месяцы совместной работы возникли десятки органических коллабораций. По мнению гостьи, объединение стало лучшим решением, которое Alphabet могла принять для своих исследовательских команд, резко повысив интенсивность, фокус и продуктивность работы.

🛠️ Продукт-менеджмент на острие науки 6:53

Роль продукт-менеджера (PM) в сфере фундаментальных исследований искусственного интеллекта кардинально отличается от классического управления веб-продуктами. Пейдж Бейли пришла в сферу управления продуктами из инженерии: свой первый алгоритм машинного обучения она написала еще в 2009 или 2010 году. Прошлое в качестве ML-инженера и дата-сайентиста помогает ей находить общий язык с исследователями. Пейдж признается, что не смогла бы работать над продуктом, лишенным глубокой технической составляющей, поскольку до сих пор программирует каждый день.

Управление большой языковой моделью уровня PaLM-2 включает в себя контроль огромного спектра процессов:

Формирование обучающей выборки (Pre-training data mixture): необходимо учитывать вопросы комплаенса и одновременно закладывать данные, которые понадобятся пользователям на этапе эксплуатации.
Тестирование и оценка (Evaluations): проверка модели делится на оценку безопасности (responsibilities) и оценку возможностей (capabilities). Модель тестируют на умение писать и объяснять код, искать уязвимости и решать математические задачи.
Тонкая настройка инструкций (Instruction tuning): подготовка датасетов, которые заставляют модель выдавать точные ответы без предварительных примеров (zero-shot) вместо обучения на примерах в контексте (few-shot).
Оптимизация развертывания: учет жестких ограничений по задержке ответа (latency) и оптимизация размеров модели под конкретные сценарии.
Обратная связь (RLHF): внедрение систем обучения с подкреплением на основе отзывов людей для непрерывного улучшения модели.

🚀 Эпический масштаб: «Программа Аполлон» для ИИ 10:53

Пейдж Бейли сравнивает процесс обучения современной ИИ-модели фронтирного уровня с космической программой «Аполлон». Это колоссальные инвестиции, требующие одобрения множества команд внутри холдинга для выделения огромных кластеров тензорных процессоров (TPU).

В процессе обучения инженерам приходится буквально «нянчить» модель: непрерывно отслеживать графики потерь, реагировать на сбои, перезапускать процесс, откатываться к предыдущим чекпоинтам и корректировать параметры. Роль PM здесь сводится к координации информационных потоков между изолированными рабочими группами. Например, критически важно следить, чтобы данные из тестовых наборов (evals) случайно не утекли в обучающую выборку на этапе претрейна.

Главным достижением команды, по словам Бейли, стало то, что к моменту официального анонса PaLM-2 на конференции Google I/O модель уже была интегрирована и развернута более чем в 25 продуктах и сервисах экосистемы. Ранее Alphabet никогда не демонстрировала подобной синергии науки и продуктовой дистрибуции.

🎯 Персоны, выравнивание и преодоление бюрократии 16:36

Разрабатывая базовую модель, команда стремилась создать универсальное ядро. Дальнейшая адаптация под конкретных пользователей ложится на плечи продуктовых команд. Например, интерфейс Bard требует одной «персоны» (стиля общения), инструменты автодополнения кода в средах разработки (IDE) — другой, а специализированные медицинские модели вроде Med-PaLM 2 — третьей. Пейдж Бейли подчеркивает, что огромный объем работы уходит именно на «выравнивание» (alignment) ИИ, отмечая, что ее восхищают исследования компании Anthropic в этой области.

Ведущий Натан Лабенц затронул популярный в индустрии нарратив о том, что Google якобы забюрократизирован и потерял способность быстро поставлять инновации на рынок. По мнению Бейли, эта критика сильно преувеличена. Google годами внедрял ИИ во все свои ключевые сервисы (от алгоритмов поиска до Google Фото), но это были более простые в обслуживании модели.

Взрывной интерес к PaLM-2 и семейству GPT-3+, как утверждает гостья, стал возможен благодаря двум технологическим факторам:

Резкому скачку в эффективности инференса и обслуживания таких моделей на стороне серверов.
Развитию техник дистилляции, которые позволяют упаковать производительность гигантской модели на сотни миллиардов параметров в компактный вариант объемом всего в пару десятков миллиардов.

Благодаря этому сверхмощные модели теперь могут эффективно работать на обычных CPU или на одном ускорителе, что демократизирует доступ к технологиям.

💡 Моменты озарения: от GitHub Copilot до PaLM-2 24:18

Вспоминая свой личный ИИ-момент «эврики», Пейдж Бейли рассказывает о работе в GitHub над первыми версиями инструмента Copilot. До этого на рынке существовали решения вроде Intellicode или TabNine на базе GPT-2, способные дописывать лишь одну-две строки кода в зависимости от языка (например, неплохо в Python, но слабо в .NET).

Когда же Пейдж увидела, как Copilot прямо из коробки выдает 5–7 строк чистого, контекстного кода и даже помогает спланировать маршрут на выходные в Сан-Франциско, она поняла, что мир изменился. Именно тогда она осознала, что хочет посвятить свою жизнь исключительно созданию генеративных моделей и обучению их математике и программированию, поскольку эти навыки сильнее всего двигают общий прогресс.

🔮 Жизнь в будущем: опережая графики 27:10

Оценивая ландшафт современных моделей, Пейдж Бейли выражает восхищение открытыми релизами вроде Llama 2 от Meta. Открытый исходный код позволяет разработчикам проводить глубокую низкоуровневую оптимизацию и продолжать претрейн под свои задачи, что невозможно сделать через закрытые API.

Работа в Google DeepMind, по признанию Бейли, напоминает жизнь в будущем, которая иногда дезориентирует своей скоростью. Команда регулярно сталкивается с ситуациями, когда разрабатываемая версия модели внезапно преодолевает человеческий уровень в тестах, где такого прорыва не ожидали еще года полтора. Применение новых подходов или удачный этап RLHF могут мгновенно поднять качество ответов на 10 или 25 процентов. Пейдж констатирует, что вся индустрия находится в режиме непрерывного, ускоряющегося спринта с декабря прошлого года. Сейчас все усилия направлены на проект Gemini — мультимодальную с первого дня систему, превосходящую возможности PaLM-2.

🧠 Иллюзия рассуждений и феномен «Гроккинга» 31:54

Одной из самых горячих и спорных тем ИИ-индустрии остается вопрос: умеют ли большие языковые модели действительно логически мыслить? Пейдж Бейли ссылается на недавний воркшоп конференции ACML (с участием Сами Бенджио), посвященный этой проблеме.

Несмотря на обилие научных публикаций, утверждающих, что GPT-4 или другие модели способны к рассуждениям (reasoning), реальность оказывается прозаичнее. Существует каноническая задача о пяти блоках, лежащих на полке, которые нужно переместить. Модели идеально справляются с ней, поскольку заучили структуру подобных тестов. Однако, как объясняет гостья, если слегка изменить сущности — заменить «блоки» на «сыр и яблоко», а «полку» на «пол» — модель мгновенно ошибается. Это доказывает, что перед нами не подлинное логическое мышление, а продвинутое сопоставление паттернов (pattern matching) и зазубривание из интернета.

С другой стороны, в процессе масштабирования проявляются удивительные скрытые возможности. Включение в претрейн исходного кода вместе с историей изменений (diffs) и сообщениями к коммитам (commit messages) неожиданно научило модель решать сложные инженерные задачи: генерировать патчи для оптимизации производительности или автоматически мигрировать код со старых версий API на новые. Такие эмерджентные свойства невозможно предсказать до окончания обучения.

🌍 Народная наука и языковое многообразие 35:46

По мнению Бейли, сегодня любой увлеченный человек может стать «гражданским ученым» (citizen scientist) и внести вклад в исследование ИИ. Огромное количество открытий совершается обычными пользователями в процессе кастомизации интерфейсов. В качестве примера она приводит интеграцию функции компьютерного зрения Lens в чат-бот Bard: разработчики в Google даже не предполагали, что пользователи начнут загружать туда небрежные карандашные наброски сайтов и просить ИИ сгенерировать по ним готовый веб-код. Весь научный мир сегодня пристально следит за социальными сетями, собирая подобные пользовательские находки для улучшения инструкций.

Другим ярким примером скрытого потенциала стал эксперимент инженера Google Рохана Анила. Он попросил PaLM-2 написать код, а затем снабдить каждую строчку комментариями на редком индийском языке малаялам. К удивлению команды, модель блестяще справилась. Подобный мультиязычный перенос навыков происходит спонтанно (аналогичный феномен ранее фиксировала OpenAI в своей статье про InstructGPT).

При этом гостья предостерегает от чрезмерного оптимизма, упоминая доклид "Avenging Polanyi's Revenge". Часто иллюзия того, что модель «умнеет» в процессе долгого диалога с аспирантом, вызвана тем, что сам человек своими подсказками непрерывно корректирует курс ИИ. Это не врожденная логика модели, а результат внешнего управления.

🤖 Внутренние механизмы и эволюция агентов 42:57

Пейдж Бейли честно признает, что не является глубоким экспертом в области интерпретируемости нейросетей, но отмечает важные сдвиги. Команды Anthropic и Google DeepMind публикуют исследования, позволяющие увидеть, какие именно участки контекстного окна и какие слова имеют наибольший вес при принятии моделью финального решения.

Главной целью индустрии на данный момент является создание полноценных автономных агентов. Для этого ИИ должен научиться разбивать высокоуровневую абстрактную задачу на последовательные шаги, генерировать код для их выполнения и осуществлять поиск во внешних базах данных.

Сегодня экспертиза Пейдж сосредоточена на проекте Code AI в Google DeepMind, объединяющем более 150 исследователей и инженеров. Они развивают целую линейку специализированных инструментов:

Codey: специализированная версия PaLM-2, обученная на колоссальных объемах исходного кода и доступная компаниям через Google Cloud Platform.
Duet AI для разработчиков: ИИ-ассистент, глубоко интегрированный в инфраструктуру Google Cloud, помогающий с devops-активностями, анализом логов, поиском уязвимостей и навигацией по сложным консолям управления.
Интеграция в Colab: внедрение API Codey в среду Google Colab для автодополнения и автоматического исправления ошибок в коде.

По оценке гостьи, такие инструменты критически важны для современной науки. Сегодня биологи, физики и химики тратят большую часть времени на рутинную обработку данных (data munging). ИИ-ассистенты избавят их от необходимости получать вторую ученую степень по компьютерным наукам ради продвижения своих профильных исследований.

🚀 Будущее за рамками Трансформеров 49:43

Рассуждая о технологиях следующего поколения, собеседники обсуждают концепцию Tree of Thought («Дерево мыслей») и интеграцию ИИ с алгоритмами планирования. Огромные перспективы лежат в плоскости создания контуров обратной связи от среды выполнения (execution feedback). Модель генерирует код, тот автоматически отправляется в компилятор или инструмент статического анализа, а полученная ошибка возвращается ИИ для рекурсивного исправления. Накопленные цепочки таких успешных исправлений затем используются в качестве новых данных для обучения.

Отвечая на вопрос о возможном преемнике архитектуры Transformer, Пейдж Бейли заявляет, что не удивится его скорому появлению, поскольку над этой задачей бьются лучшие умы, включая Ноама Шазира и команду Character.ai.

В заключение Пейдж делится ключевым выводом «учебного плана» (curriculum learning) для нейросетей: опыт обучения PaLM-2 показал, что чем больше качественного исходного кода и математических данных добавляется в обучающую выборку, тем лучше модель становится абсолютно во всех сферах, включая логику и естественный язык.