Эшед Маргалит: «Мы создали симулятор для 6 миллиардов виртуальных клеток опухоли»

Stanford Online 11 тыс. 1 ч 10 мин 4 мин 13.06.2025
Главное

Использование искусственного интеллекта в биомедицине переходит от простых классификаторов к созданию полноценных «моделей мира» (World Models). Исследователь и нейробиолог Эшед Маргалит (Eshed Margalit) из стартапа Noetik в рамках лекции в Стэнфордском университете представил концепцию мультимодальных трансформеров, способных симулировать биологию опухоли и предсказывать ответ пациента на терапию.

🌍 Концепция моделей мира в биологии 4:37

Основная цель современного ИИ, по мнению Эшеда Маргалита, — построение моделей мира, способных симулировать будущее состояние системы на основе текущих наблюдений и предполагаемых действий . В контексте борьбы с раком это означает создание симулятора, который ответит на вопрос: «Что произойдет с опухолью конкретного пациента, если мы введем определенный препарат?» .

Спикер выделяет две ключевые задачи мультимодального обучения:

🛠 5 стратегий слияния данных в трансформерах 10:05

В современной литературе по машинному обучению Маргалит выделяет пять основных подходов к интеграции мультимодальных потоков, варьирующихся от раннего до позднего слияния (fusion):

  1. Совместные пространства эмбеддингов (Joint Embedding Spaces): Метод контрастивного обучения (как в CLIP или ImageBind), где изображения и текст проецируются в единое пространство .
  2. Прямая конкатенация raw-данных: Самое раннее слияние, когда разные каналы (например, RGB и карта глубины) просто сшиваются в один входной тензор .
  3. Перекрестное внимание (Cross-attention): Промежуточное слияние, где один поток данных генерирует «запросы» (queries), а другой — «ключи» (keys) и «значения» (values) .
  4. Смешивание токенов (Token Slapping): Превращение всех типов данных в токены и их подача в единую последовательность (как в DALL-E 1) .
  5. Адаптивная нормализация слоев (Adaptive LayerNorm): Использование параметров (альфа, бета, гамма) для управления работой основного трансформера на основе дополнительной модальности . Этот метод Маргалит называет наиболее эффективным по параметрам .

🧬 Данные Noetik: От микроскопии до транскриптомики 22:25

Для обучения моделей компания Noetik собирает уникальный массив данных из человеческих опухолей легких . Процесс включает четыре уровня анализа одного и того же образца ткани диаметром 1 мм:

Маргалит продемонстрировал облако точек из 11 миллионов транскриптов РНК в крошечном фрагменте ткани, подчеркивая невероятную плотность биологической информации .

🧠 Модель OCTO: Виртуальные клетки и маскирование 32:17

Основная модель Noetik, получившая название OCTO, построена на архитектуре маскированных автоэнкодеров (MAE) .

Ключевые особенности архитектуры:

💊 In Silico Drug Discovery: Контрфактуальные симуляции 43:21

Модель OCTO позволяет проводить «цифровые эксперименты». Например, исследователи могут взять реальный снимок ткани пациента и спросить модель: «Что будет, если мы искусственно подавим (knockout) определенный ген в окружении Т-клетки?» .

Результаты таких симуляций:

🚀 Будущее: ИИ-агенты и новые горизонты 55:44

Маргалит представил результаты работы с интерпретируемостью моделей через разреженные автоэнкодеры (SAE). Это позволяет автоматически сегментировать ткани и присваивать им биологические метки, понятные ученым .

В дискуссии о будущем отрасли спикер отметил:

По мнению Маргалита, трансформеры — это идеальный «игровой полигон» для биологии, так как они позволяют объединять данные разных масштабов: от молекул до целых органов .

💬 Цитаты

«Если вы можете сформулировать свою гипотезу о действии лекарства на языке входных данных модели, вы сможете увидеть, эффективно оно или нет.»

Эшед Маргалит 53:13

«Трансформеры — отличный субстрат для объединения произвольно креативных идей о том, как интегрировать различные измерения.»

Эшед Маргалит 22:11
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Пространственная транскриптомика
Метод измерения активности генов (РНК) с сохранением информации о точном местоположении молекул в ткани.
H&E (Гематоксилин и эозин)
Стандартный метод окрашивания тканей в медицине для изучения их структуры под микроскопом.
Masked Autoencoder (MAE)
Архитектура нейросети, которая учится восстанавливать скрытые (замаскированные) части входных данных.
In silico
Эксперименты, проводимые исключительно с помощью компьютерного моделирования.
📊 Цифры
🗓 Хронология
  1. 2024 Выступление Эшеда Маргалита в рамках курса CS25 в Стэнфорде.
⚖️ Другая сторона
Биология и медицина Eshed Margalit Noetik Transformers Spatial Transcriptomics Drug Discovery