# «Создавайте данные для себя будущих»: Ким Брэнсон об ИИ-трансформации GSK

Источник: https://www.youtube.com/watch?v=v6WOeOHVer0
Канал: The TWIML AI Podcast
Опубликовано: 15.11.2021

---

Применение искусственного интеллекта и машинного обучения кардинально меняет подходы к созданию лекарственных препаратов в крупнейших фармацевтических корпорациях. В рамках подкаста *The TWIML AI Podcast* Ким Брэнсон (Kim Branson), старший вице-президент и глобальный руководитель направления искусственного интеллекта в GSK, рассказал о том, как трехсотлетняя компания трансформирует свои исследовательские процессы. Эксперт подробно описал интеграцию генетики, функциональной геномики и передовых вычислительных методов для ускорения поиска терапевтических мишеней и создания персонализированных лекарств.

## 🧬 Из Кремниевой долины в Big Pharma: Эволюция подходов GSK
[[JUMP:0:01]]

Ким Брэнсон начал свой путь в сфере машинного обучения еще в начале 2000-х годов. Защитив в 2003 году кандидатскую диссертацию (PhD), посвященную применению ML для поиска и дизайна малых молекул, он застал эпоху, когда передовыми инструментами считались метод опорных векторов (SVM) и случайные леса (random forests). После академической работы в Стэнфордском университете, где велись ранние исследования в области графовых сверточных сетей, Брэнсон успел поработать в Vertex Pharmaceuticals и нескольких стартапах. Один из его поисковых стартапов был приобретен Twitter, а другая компания, занимавшаяся агрегацией медицинских карт и дифференциальной приватностью, — корпорацией Apple. По воспоминаниям эксперта, в тот период до 90% времени уходило на рутинные инженерные задачи: построение ETL-конвейеров и извлечение таблиц из PDF-документов. Позже он занимался анализом медицинских данных в Genentech, откуда его и пригласили в GSK.

Решающим фактором для перехода Брэнсона в GSK стало назначение Хэла Барона (Hal Baron) на пост руководителя отдела исследований и разработок (R&D). Барон, имевший опыт работы в Calico, четко понимал потребности и масштабы современного машинного обучения. Он пообещал Брэнсону, что ИИ станет фундаментальной частью стратегии компании, а не просто скромной командой из десятка человек, работающей на половинном ресурсе.

GSK — это старейшая фармацевтическая компания с 300-летней историей, производящая лекарства и вакцины. По словам Кима Брэнсона, подобные крупные организации периодически проходят через внутренние революции, полностью перестраивая и перепозиционируя себя. Нынешняя технологическая трансформация GSK опирается на три ключевых элемента:

* **Генетические базы данных:** снижение стоимости секвенирования ДНК позволило собирать масштабные массивы данных тысяч пациентов, сравнивая геномы больных и здоровых людей для поиска первопричин заболеваний.
* **Функциональная геномика:** технологии редактирования генома (CRISPR, TALENs) позволяют точечно регулировать (подавлять или усиливать) экспрессию конкретных генов на уровне отдельных клеток, генерируя огромные объемы мультимодальных измерений (RNA-seq, протеомика, клеточный имиджинг).
* **Искусственный интеллект и машинное обучение:** ИИ выступает центральным интегратором, который связывает генетические зацепки с результатами клеточного редактирования, помогая находить валидные биологические мишени.

Как поясняет гость, если 20 лет назад у человечества был расшифрован лишь один эталонный геном, то сегодня наука оперирует популяционными масштабами. Генетика дает ученым первичные подсказки, но для создания эффективного лекарства необходимо точно понимать механизмы работы белков, кодируемых этими генами.

## 🎯 Поиск биологических мишеней: Задача «вариант—ген» и последовательное обучение
[[JUMP:7:49]]

Одной из сложнейших фундаментальных проблем современной биологии Ким Брэнсон называет разрыв между генетическими вариациями и их функциональным проявлением. В масштабных генетических базах данных ученые понимают, что делать, лишь с 15–20% обнаруженных вариантов (мутаций). Если мутация находится внутри открытой рамки считывания гена, кодирующего белок, эффект предсказуем — он влияет на структуру или активность белка. Однако подавляющее большинство вариаций расположено вне этих зон, в регуляторных областях ДНК, и могут оказывать долгосрочное влияние на гены, находящиеся на значительном удалении.

Для решения этой задачи в GSK разработали подход, основанный на последовательном обучении (sequential learning) и замкнутом экспериментальном цикле, который Брэнсон описывает как «эксперименты как код» (experiments as code). Процесс выглядит следующим образом:

1.  ИИ-модель анализирует имеющиеся данные под условием неопределенности и формирует адаптивную выборку мишеней.
2.  Модель выдает команды роботизированным лабораторным системам на проведение биологических экспериментов.
3.  Автоматизированные лаборатории проводят манипуляции с клеточными моделями, например, с индуцированными плюрипотентными стволовыми клетками (iPSC) пациентов.
4.  В этих клетках с помощью CRISPR отключаются или активируются определенные гены, после чего фиксируются изменения (визуальные фенотипы, паттерны экспрессии генов).
5.  Полученные результаты возвращаются в модель для ее дообучения.

По мнению Брэнсона, традиционный подход, предполагающий проведение полногеномного скрининга всех 20 000 генов подряд, неэффективен для сложных клеточных систем. Последовательное обучение превращает поиск мишени в задачу многокритериальной оптимизации с минимальным количеством итераций. Система должна найти решение, которое одновременно:

* Эффективно корректирует болезненное состояние ткани, возвращая ее к нормальному фенотипу.
* Обладает низкой токсичностью (например, исключает кардиотоксичность).
* Является «трактабельным» (tractable), то есть потенциально доступным для воздействия малыми молекулами или антителами.

В качестве примера труднодоступной мишени Брэнсон приводит онкобелок K-RAS: ученым потребовались десятилетия, чтобы создать его селективный ингибитор, хотя ценность этой мишени была очевидна изначально.

## 📊 Архитектура моделей ранжирования и генетические прорывы
[[JUMP:16:49]]

В деталях архитектуры конкретного проекта по картированию «вариант—ген» (V2G) система GSK трактует задачу как проблему ранжирования, аналогичную поисковой выдаче в вебе. ИИ должен составить упорядоченный список генов, где на первом месте будет находиться наиболее вероятный причинно-следственный (каузальный) ген, вызвавший патологию при конкретной мутации.

В этот мастер-алгоритм ранжирования стекаются признаки из нескольких специализированных субмоделей:

* **Стековые энкодеры:** нейросети, обрабатывающие сырую последовательность ДНК и предсказывающие, свяжется ли в этом месте фактор транскрипции и находится ли данный участок в открытом или закрытом хроматине.
* **Модели тканеспецифичной экспрессии:** оценивают, активен ли целевой ген в конкретном типе тканей, поскольку поведение генов в кардиомиоцитах, нейронах или клетках кожи кардинально различается.
* **Эмбеддинги графов знаний:** кодируют информацию о взаимосвязях биологических сущностей, извлеченную из огромной базы знаний.

Обучение такой системы сильно осложнено дефицитом эталонных («золотых») размеченных данных. Чтобы преодолеть это ограничение, команда GSK использует первичные Т-клетки человека от здоровых доноров, в которых проводятся точечные генетические изменения с последующим секвенированием мРНК. Оценка точности проста: если модель права, экспрессия целевого гена падает, что подтверждается экспериментально.

По данным Кима Брэнсона, базовые прямолинейные модели, предполагающие, что мутация влияет на самый близкий к ней ген, оказываются верными лишь в 45% случаев. В остальное время каузальный ген находится далеко, а в трети случаев — на экстремальном удалении, ломая стандартную логику генетиков. Благодаря итеративному циклу генерации данных и обучения, GSK удалось поднять долю расшифрованных генетических вариантов в базе данных UK Biobank с исходных 15% сначала до 24%, а к текущему моменту — до 40%.

## 🩺 Онкология и синтетическая летальность
[[JUMP:21:49]]

Другим важным прикладным направлением ИИ-подразделения GSK является поиск лекарств на основе концепции синтетической летальности (synthetic lethality). Живые организмы обладают высокой степенью избыточности биологических путей для подстраховки критических функций. Однако раковые клетки делятся чрезвычайно быстро и часто теряют одну из дублирующих копий защитного механизма. По словам Брэнсона, если ученым удается идентифицировать этот сломанный путь и искусственно заблокировать второй, оставшийся, раковая клетка гибнет, в то время как здоровые ткани выживают.

Успешным примером реализации этого принципа Брэнсон называет препарат нирапариб (Niraparib) — ингибитор PARP, блокирующий механизмы репарации ДНК в опухолевых клетках. Разрабатываемая в GSK специализированная ML-система нацелена на автоматический поиск таких «синтетически летальных пар»: она прогнозирует, какую именно мишень нужно атаковать при наличии конкретной мутации в опухоли.

Для валидации предсказаний ИИ проводятся масштабные тесты на выживаемость множества различных линий раковых клеток, где гены целенаправленно отключаются или активируются. При этом Брэнсон подчеркивает, что выводы алгоритмов не преобразуются автоматически в готовое распоряжение для кодирования антител или синтеза малых молекул. Системы машинного обучения остаются узкоспециализированными инструментами, результаты которых обязательно проходят верификацию учеными-экспертами, способными учесть колоссальный бэкграунд биологии и отсеять ошибки из зашумленной научной литературы.

## 📚 Графы знаний на 500 миллиардов узлов: NLP-анализ научной литературы
[[JUMP:24:22]]

Чтобы алгоритмы машинного обучения не изобретали велосипед и опирались на вековой опыт человечества, команда Брэнсона создала отдельное подразделение по обработке естественного языка (NLP). Они разработали специализированные модели на базе архитектуры BERT (энкодеры), которые непрерывно сканируют миллионы научных статей из репозиториев BioRxiv, PubMed и издательства Elsevier.

Задача этих NLP-систем заключается в извлечении сущностей и связей между ними в формате семантических триплетов (субъект — предикат — объект). Научный язык структурирован строже разговорного, поэтому предикаты сводятся к ограниченному набору выражений вроде «А выполняет функцию Б», «X активирует Y» или «X не влияет на Z». На основе этих триплетов GSK построила гигантский внутренний граф знаний, насчитывающий 500 миллиардов узлов.

Использование графа знаний дает компании несколько стратегических преимуществ:

* **Высокая эффективность выборки (sample efficiency):** ИИ-алгоритмам не нужно заново обучаться общеизвестным фактам взаимодействия белков — эти знания подаются на вход в виде нодовых эмбеддингов (node embeddings). Модели могут концентрироваться исключительно на поиске неизвестных взаимосвязей с помощью алгоритмов предсказания ссылок (link prediction).
* **Цифровая память корпорации:** граф выполняет роль «коллективного мозга» GSK. Из-за огромного масштаба компании за 300 лет многие исследования стираются из памяти сотрудников. Анализ графа позволяет находить архивные эксперименты 20-летней давности и обнаруживать на складах забытые малые молекулы, эффективные против новых мишеней.
* **Интеграция промышленных скринингов:** помимо текстовых публикаций, в граф импортируются результаты масштабных роботизированных скринингов генов, формируя постоянно растущую эталонную базу данных.

## 💻 Инфраструктура, Cerebras и оптимизация вычислений
[[JUMP:34:59]]

ИИ-подразделение GSK представляет собой глобально распределенную исследовательскую группу численностью около 120 человек, работающих в Сан-Франциско, Бостоне, Филадельфии, Лондоне, Тель-Авиве, Гейдельберге и Швейцарии. Брэнсон отмечает, что во многих областях им приходится вести фундаментальные изыскания, например, в сфере причинно-следственного (каузального) машинного обучения (causal ML). Это необходимо для поиска мишеней с минимальным «клиническим гистерезисом» — когда снижение уровня белка всего на 10% радикально меняет ход болезни, что значительно упрощает синтез лекарства по сравнению с мишенями, требующими 99%-го подавления. Другим примером инноваций является вычислительная патология: ИИ обучают прогнозировать генетический статус опухоли исключительно по гигапиксельным сканам медицинских стекол объемом 4 терабайта, улавливая микроизменения плотности окрашивания, недоступные человеческому глазу.

Масштабные биологические задачи требуют беспрецедентных вычислительных мощностей. Платформенная ИИ-команда GSK стандартизировала разработку на базе PyTorch. Ключевым элементом их ИИ-хаба стало стратегическое партнерство с компанией Cerebras.

Для обучения моделей-энкодеров на сырых последовательностях ДНК критически важен гигантский размер контекстного окна. Традиционный параллелизм данных и моделей на стандартных кластерах GPU сталкивается со строгими архитектурными ограничениями при обработке геномных датасетов. Использование систем Cerebras CS-1 (с запланированным переходом на CS-2) позволило GSK задействовать гигантские цельнокремниевые чипы, обладающие колоссальной пропускной способностью и минимальной задержкой доступа к памяти.

Параллельно GSK тесно сотрудничает с инженерами NVIDIA непосредственно в Лондоне, оптимизируя низкоуровневые библиотеки (такие как cuDNN) под свои нужды. По убеждению Брэнсона, исследователи должны быть полностью освобождены от инженерных проблем и сфокусированы на науке. Главная метрика эффективности инфраструктуры — количество итерационных циклов, которые специалист по ML может провести за день. Брэнсон стремится к тому, чтобы исследователь получал результаты вычислений за один вечер, а не ждал двое суток. Ради этого компания расширяет стек графических ускорителей, добавляя вычислительные карты (такие как A100) под каждого нового сотрудника.

## 🛡️ Надежность против объяснимости: Валидация вероятностных систем
[[JUMP:40:43]]

Внедрение вероятностных систем в медицину наталкивается на жесткие требования регуляторов и вопросы безопасности. Ким Брэнсон высказывает скептическую позицию относительно повального увлечения интерпретируемостью (interpretability) ИИ. По его мнению, требования объяснить логику нейросети часто служат лишь суррогатом отсутствия доверия к качеству инженерной валидации. Спикер подчеркивает, что люди ежедневно используют массу сложных технологий, не понимая принципов их работы, и в ИИ главным критерием должна выступать жесткая проверка надежности на выходе.

При обучении моделей для клинических задач, например, классификации патологий, GSK закладывает строгие требования к поведению на состязательных (adversarial) данных. Модель должна деградировать изящно (fail gracefully): если снимок размыт, содержит отметку маркером или на нем не хватает опухолевой стромы, система не должна выдавать ложные категоричные ответы.

Важнейшим вектором развития Брэнсон считает сквозное мультимодальное обучение (end-to-end multimodal learning). Биологические процессы разворачиваются во времени (временные ряды измерений через 6, 12, 24 часа после воздействия). В клинике данные также поступают на разных масштабах: биопсия берется единожды, КТ и МРТ выполняются каждые 7–8 недель, а анализы крови на циркулирующую опухолевую ДНК (ctDNA от таких провайдеров, как Grail, Freenome или Guardant Health) могут собираться регулярно. 

Интеграция этих разнородных слоев в единую модель — огромный вызов. Сейчас разработчики вынуждены тренировать отдельные сверточные сети для изображений и модели для экспрессии генов, объединяя лишь их верхние слои без сквозного распространения ошибки (backpropagation), из-за экстремальной вычислительной сложности.

В этой сфере GSK активно развивает партнерства. В частности, в рамках сотрудничества с Королевским колледжем Лондона (King's College) ученые культивируют образцы опухолей реальных пациентов вместе с компонентами их собственной иммунной системы. Обучаемые на этих данных модели позволяют оценивать динамику ответа на терапию и прогнозировать индивидуальные риски метастазирования при раке легкого.

Для обеспечения безопасности в промышленной эксплуатации ИИ в GSK введено жесткое правило: любая модель обязана выдавать не только предсказанное значение, но и доверительный интервал (confidence bound), а также иметь право на отказ от ответа, если входной вектор находится за пределами изученного пространства признаков.

## 🏢 Управление талантами и три главные проблемы руководителя ИИ
[[JUMP:54:55]]

Создание передовой ИИ-команды внутри консервативного фармацевтического гиганта потребовало от Брэнсона слома устоявшихся корпоративных практик. Для успешной конкуренции за кадры с ИТ-гигантами GSK пришлось полностью перестроить HR-процессы: внедрить тестирование через HackerRank и сократить цикл вынесения оффера до трех дней вместо стандартных для индустрии нескольких месяцев. Разработка ведется по гибким методологиям в рамках двухнедельных спринтов, что изначально вызывало недоумение у классических биологов, привыкших к долгосрочному планированию. 

Тем не менее, Брэнсон отмечает, что Big Pharma имеет колоссальное преимущество перед академической средой — исследователям здесь не нужно тратить время на написание грантов, они обеспечены неограниченными вычислительными ресурсами и видят прямой путь от своих моделей до спасения жизней пациентов.

В завершение беседы Ким Брэнсон выделил три главные проблемы, которые сильнее всего беспокоят его на посту руководителя направления:

1.  **Каденция и стоимость генерации данных:** в отличие от сферы обучения с подкреплением, где симуляторы поставляют миллионы бесплатных сэмплов, биологические данные поступают медленно — около 300 точек каждые 4–6 недель, причем получение каждой точки обходится компании чрезвычайно дорого. Необходимо постоянно оптимизировать прирост информации на единицу затраченного времени.
2.  **Повторное использование и непрерывность данных (Longitudinal corpus):** исторические данные клинических испытаний часто оказываются заперты в изолированных архивах без метаданных. Брэнсон призывает сотрудников «создавать данные для себя будущих», формируя сквозные кумулятивные датасеты, чтобы даже неудачные клинические исследования приносили пользу для последующих разработок.
3.  **Инфраструктурное неравенство и «холодная цепь данных»:** существует колоссальный риск создания передовых медицинских ИИ-технологий, которые смогут работать только в развитых странах с цифровизированным здравоохранением. По аналогии с холодной цепью для транспортировки вакцин, миру необходима унифицированная инфраструктура сбора и передачи данных, чтобы жители развивающихся регионов не были лишены доступа к медицине будущего.