# Сиюй Хэ: «Биологический ИИ позволит прожить столетие прогресса за десять лет»

Источник: https://www.youtube.com/watch?v=tmyuSya_hUM
Канал: The Cognitive Revolution
Опубликовано: 23.03.2025

---

В области современной биологии происходит фундаментальный сдвиг: традиционные «мокрые» лаборатории (wet labs) дополняются и во многих аспектах замещаются вычислительными методами. Сиюй Хэ, исследователь из Стэнфорда, работает на острие этой трансформации, создавая ИИ-архитектуры, способные предсказывать поведение клеток и реконструировать структуру тканей с беспрецедентной точностью. В центре внимания — два прорывных проекта: Squidiff, использующий диффузионные модели для симуляции реакции клеток на внешние раздражители, и CORAL, решающий проблему интеграции пространственных данных разного разрешения.

## 🧬 Клетка как массив данных: Основы транскриптомики
[[JUMP:07:30]]

Для понимания работы Squidiff необходимо пересмотреть биологическое определение клетки. Сиюй Хэ цитирует своего научного руководителя Стивена Куэйка, который называет клетку «мешком с РНК» [10:40]. Хотя почти все клетки организма содержат одинаковую ДНК, именно процессы транскрипции (превращение ДНК в РНК) определяют их функции и состояние.

*   **Масштаб данных:** Современные технологии секвенирования РНК единичных клеток позволяют измерять уровень экспрессии от 30 000 до 60 000 генов в одной клетке [11:47].
*   **Размерность:** Результатом измерения является матрица, где столбцы — это гены, а строки — отдельные клетки [12:13]. Это создает данные сверхвысокой размерности, идеально подходящие для обучения нейросетей.
*   **Традиционный подход:** Выращивание культур клеток (например, органоидов мозга) для экспериментов может занимать месяцы или даже больше года [20:42]. Это дорогостоящий и подверженный ошибкам процесс.

## 🦑 Squidiff: Диффузионные модели для симуляции жизни
[[JUMP:14:44]]

Squidiff — это генеративная модель, предназначенная для создания «цифровых транскриптомов». Вместо того чтобы ждать месяцы в лаборатории, исследователи могут использовать ИИ для предсказания того, как клетка ответит на химическое воздействие или генетическую модификацию.

*   **Архитектура:** В отличие от популярных сегодня трансформеров, Сиюй Хэ выбрал диффузионную модель (DDIM), соединенную с семантическим энкодером [34:21]. Это позволяет лучше моделировать сложные распределения данных и учитывать стохастическую (случайную) природу биологических процессов [35:31].
*   **Эффективность обучения:** Модель способна обучаться на относительно небольших наборах данных. Для стабильной работы достаточно выборки из 5 000 клеток, а процесс обучения занимает всего около 15 минут [30:17].
*   **Преимущество перед трансформерами:** По словам Сиюй Хэ, диффузионные модели более гибко работают с непрерывными значениями экспрессии генов, в то время как многие биомедицинские трансформеры опираются на ранжирование генов, что может приводить к потере точности [36:09].

## 🧪 Эксперименты in-silico: Векторная арифметика в биологии
[[JUMP:48:18]]

Одной из самых впечатляющих возможностей Squidiff является проведение виртуальных экспериментов через манипуляции в латентном (скрытом) пространстве. Это работает по аналогии со знаменитым примером из лингвистических моделей: «Король - Мужчина + Женщина = Королева».

*   **Линейная аппроксимация:** Несмотря на нелинейность биологии, Сиюй Хэ утверждает, что латентное пространство модели достаточно структурировано, чтобы выполнять векторные операции [49:23]. Например, можно взять вектор воздействия стимула на один тип клеток и применить его к другому.
*   **Предсказание промежуточных состояний:** В эксперименте с дифференциацией стволовых клеток модель обучали только на данных Дня 0 и Дня 3. С помощью линейной интерполяции в семантическом пространстве Squidiff смог реконструировать состояния клеток в Дни 1 и 2, которые позже были подтверждены реальными измерениями [55:45].
*   **Адаптеры для новых лекарств:** Для работы с веществами, которых не было в обучающей выборке, Сиюй Хэ разработал систему адаптеров. Они кодируют химическую структуру молекулы и её дозировку, позволяя модели предсказывать эффект «невидимых» ранее препаратов [1:01:39].

## 🪸 CORAL: Сшивание тканей и решение проблемы разрешения
[[JUMP:1:11:48]]

Если Squidiff работает на уровне отдельных клеток, то проект CORAL (COherent Reconstruction and Alignment) нацелен на уровень тканей. Главная проблема здесь — «разрыв масштабов».

*   **Технологический конфликт:** Существующие методы позволяют получить либо высокое разрешение по генам при низком пространственном разрешении (размытая картина), либо четкое пространственное разрешение, но только для ограниченного числа белков [1:15:39].
*   **Метод деконволюции:** CORAL использует графовые нейронные сети (GNN) для «распутывания» низкоразрешенных данных ткани в детализированную поклеточную картину [1:22:41].
*   **Моделирование взаимодействий:** Модель учитывает не только состояние конкретной клетки, но и её «соседей» (K-nearest neighbors), что критически важно для понимания развития опухолей или структуры органов [1:27:40].
*   **Комбинированная функция потерь:** Для обучения используется баланс между точностью реконструкции и гладкостью переходов. Это позволяет сохранять четкие границы там, где они есть (например, в кровеносных сосудах), и моделировать постепенные изменения в инфильтрированных опухолях [1:29:17].

## 🤖 Будущее: Синтетические данные и «Манхэттенский проект» для биологии
[[JUMP:1:30:36]]

Сиюй Хэ и ведущий обсудили перспективы масштабирования этих технологий. Одной из ключевых тем стало использование синтетических данных для обучения.

*   **Валидация через синтетику:** Сиюй Хэ использует модели вроде Splatter или I-Design для генерации данных с известным «истинным значением» (ground truth), чтобы проверить, корректно ли алгоритм идентифицирует биологические паттерны [1:32:58].
*   **Глобальные инициативы:** Исследователь упомянул проекты «Виртуальная клетка» от Google DeepMind и инициативу Чан-Цукерберга (CZI) по созданию атласа из миллиарда клеток [1:39:46].
*   **Персонализированная медицина:** По мнению Сиюй Хэ, в ближайшем будущем ИИ позволит создавать «цифровых двойников» пациентов. Это позволит тестировать тысячи комбинаций лекарств на виртуальных клетках конкретного человека, прежде чем назначать реальное лечение [1:41:07].

Оба собеседника сошлись во мнении, что биология данных переживает экспоненциальный рост. Сиюй Хэ подчеркнул, что хотя ИИ развивается пугающе быстро, в медицине он является инструментом «чистого созидания», который поможет значительно ускорить разработку методов лечения тяжелых заболеваний [1:42:44].