В области современной биологии происходит фундаментальный сдвиг: традиционные «мокрые» лаборатории (wet labs) дополняются и во многих аспектах замещаются вычислительными методами. Сиюй Хэ, исследователь из Стэнфорда, работает на острие этой трансформации, создавая ИИ-архитектуры, способные предсказывать поведение клеток и реконструировать структуру тканей с беспрецедентной точностью. В центре внимания — два прорывных проекта: Squidiff, использующий диффузионные модели для симуляции реакции клеток на внешние раздражители, и CORAL, решающий проблему интеграции пространственных данных разного разрешения.
🧬 Клетка как массив данных: Основы транскриптомики 7:30
Для понимания работы Squidiff необходимо пересмотреть биологическое определение клетки. Сиюй Хэ цитирует своего научного руководителя Стивена Куэйка, который называет клетку «мешком с РНК» . Хотя почти все клетки организма содержат одинаковую ДНК, именно процессы транскрипции (превращение ДНК в РНК) определяют их функции и состояние.
- Масштаб данных: Современные технологии секвенирования РНК единичных клеток позволяют измерять уровень экспрессии от 30 000 до 60 000 генов в одной клетке .
- Размерность: Результатом измерения является матрица, где столбцы — это гены, а строки — отдельные клетки . Это создает данные сверхвысокой размерности, идеально подходящие для обучения нейросетей.
- Традиционный подход: Выращивание культур клеток (например, органоидов мозга) для экспериментов может занимать месяцы или даже больше года . Это дорогостоящий и подверженный ошибкам процесс.
🦑 Squidiff: Диффузионные модели для симуляции жизни 14:44
Squidiff — это генеративная модель, предназначенная для создания «цифровых транскриптомов». Вместо того чтобы ждать месяцы в лаборатории, исследователи могут использовать ИИ для предсказания того, как клетка ответит на химическое воздействие или генетическую модификацию.
- Архитектура: В отличие от популярных сегодня трансформеров, Сиюй Хэ выбрал диффузионную модель (DDIM), соединенную с семантическим энкодером . Это позволяет лучше моделировать сложные распределения данных и учитывать стохастическую (случайную) природу биологических процессов .
- Эффективность обучения: Модель способна обучаться на относительно небольших наборах данных. Для стабильной работы достаточно выборки из 5 000 клеток, а процесс обучения занимает всего около 15 минут .
- Преимущество перед трансформерами: По словам Сиюй Хэ, диффузионные модели более гибко работают с непрерывными значениями экспрессии генов, в то время как многие биомедицинские трансформеры опираются на ранжирование генов, что может приводить к потере точности .
🧪 Эксперименты in-silico: Векторная арифметика в биологии 48:18
Одной из самых впечатляющих возможностей Squidiff является проведение виртуальных экспериментов через манипуляции в латентном (скрытом) пространстве. Это работает по аналогии со знаменитым примером из лингвистических моделей: «Король - Мужчина + Женщина = Королева».
- Линейная аппроксимация: Несмотря на нелинейность биологии, Сиюй Хэ утверждает, что латентное пространство модели достаточно структурировано, чтобы выполнять векторные операции . Например, можно взять вектор воздействия стимула на один тип клеток и применить его к другому.
- Предсказание промежуточных состояний: В эксперименте с дифференциацией стволовых клеток модель обучали только на данных Дня 0 и Дня 3. С помощью линейной интерполяции в семантическом пространстве Squidiff смог реконструировать состояния клеток в Дни 1 и 2, которые позже были подтверждены реальными измерениями .
- Адаптеры для новых лекарств: Для работы с веществами, которых не было в обучающей выборке, Сиюй Хэ разработал систему адаптеров. Они кодируют химическую структуру молекулы и её дозировку, позволяя модели предсказывать эффект «невидимых» ранее препаратов .
🪸 CORAL: Сшивание тканей и решение проблемы разрешения 1:11:48
Если Squidiff работает на уровне отдельных клеток, то проект CORAL (COherent Reconstruction and Alignment) нацелен на уровень тканей. Главная проблема здесь — «разрыв масштабов».
- Технологический конфликт: Существующие методы позволяют получить либо высокое разрешение по генам при низком пространственном разрешении (размытая картина), либо четкое пространственное разрешение, но только для ограниченного числа белков .
- Метод деконволюции: CORAL использует графовые нейронные сети (GNN) для «распутывания» низкоразрешенных данных ткани в детализированную поклеточную картину .
- Моделирование взаимодействий: Модель учитывает не только состояние конкретной клетки, но и её «соседей» (K-nearest neighbors), что критически важно для понимания развития опухолей или структуры органов .
- Комбинированная функция потерь: Для обучения используется баланс между точностью реконструкции и гладкостью переходов. Это позволяет сохранять четкие границы там, где они есть (например, в кровеносных сосудах), и моделировать постепенные изменения в инфильтрированных опухолях .
🤖 Будущее: Синтетические данные и «Манхэттенский проект» для биологии 1:30:36
Сиюй Хэ и ведущий обсудили перспективы масштабирования этих технологий. Одной из ключевых тем стало использование синтетических данных для обучения.
- Валидация через синтетику: Сиюй Хэ использует модели вроде Splatter или I-Design для генерации данных с известным «истинным значением» (ground truth), чтобы проверить, корректно ли алгоритм идентифицирует биологические паттерны .
- Глобальные инициативы: Исследователь упомянул проекты «Виртуальная клетка» от Google DeepMind и инициативу Чан-Цукерберга (CZI) по созданию атласа из миллиарда клеток .
- Персонализированная медицина: По мнению Сиюй Хэ, в ближайшем будущем ИИ позволит создавать «цифровых двойников» пациентов. Это позволит тестировать тысячи комбинаций лекарств на виртуальных клетках конкретного человека, прежде чем назначать реальное лечение .
Оба собеседника сошлись во мнении, что биология данных переживает экспоненциальный рост. Сиюй Хэ подчеркнул, что хотя ИИ развивается пугающе быстро, в медицине он является инструментом «чистого созидания», который поможет значительно ускорить разработку методов лечения тяжелых заболеваний .