Эшед Маргалит: «Мы создали симулятор для 6 миллиардов виртуальных клеток опухоли»

Использование искусственного интеллекта в биомедицине переходит от простых классификаторов к созданию полноценных «моделей мира» (World Models). Исследователь и нейробиолог Эшед Маргалит (Eshed Margalit) из стартапа Noetik в рамках лекции в Стэнфордском университете представил концепцию мультимодальных трансформеров, способных симулировать биологию опухоли и предсказывать ответ пациента на терапию.

🌍 Концепция моделей мира в биологии 4:37

Основная цель современного ИИ, по мнению Эшеда Маргалита, — построение моделей мира, способных симулировать будущее состояние системы на основе текущих наблюдений и предполагаемых действий . В контексте борьбы с раком это означает создание симулятора, который ответит на вопрос: «Что произойдет с опухолью конкретного пациента, если мы введем определенный препарат?» .

Спикер выделяет две ключевые задачи мультимодального обучения:

Перевод (Translation): Перенос информации из одной модальности в другую (например, генерация изображений по тексту) .
Устранение двусмысленности (Disambiguation): Использование дополнительных потоков данных для восполнения «слепых зон» одной модальности. Маргалит приводит аналогию с пожарной тревогой: вид бегущих людей из здания двусмысленен, но звук сирены мгновенно проясняет ситуацию .

🛠 5 стратегий слияния данных в трансформерах 10:05

В современной литературе по машинному обучению Маргалит выделяет пять основных подходов к интеграции мультимодальных потоков, варьирующихся от раннего до позднего слияния (fusion):

Совместные пространства эмбеддингов (Joint Embedding Spaces): Метод контрастивного обучения (как в CLIP или ImageBind), где изображения и текст проецируются в единое пространство .
Прямая конкатенация raw-данных: Самое раннее слияние, когда разные каналы (например, RGB и карта глубины) просто сшиваются в один входной тензор .
Перекрестное внимание (Cross-attention): Промежуточное слияние, где один поток данных генерирует «запросы» (queries), а другой — «ключи» (keys) и «значения» (values) .
Смешивание токенов (Token Slapping): Превращение всех типов данных в токены и их подача в единую последовательность (как в DALL-E 1) .
Адаптивная нормализация слоев (Adaptive LayerNorm): Использование параметров (альфа, бета, гамма) для управления работой основного трансформера на основе дополнительной модальности . Этот метод Маргалит называет наиболее эффективным по параметрам .

🧬 Данные Noetik: От микроскопии до транскриптомики 22:25

Для обучения моделей компания Noetik собирает уникальный массив данных из человеческих опухолей легких . Процесс включает четыре уровня анализа одного и того же образца ткани диаметром 1 мм:

H&E (Гематоксилин и эозин): Стандартные изображения морфологии ткани. Они дешевы и широко доступны .
IF (Иммунофлуоресценция): 16-канальные изображения белков, позволяющие идентифицировать типы клеток (Т-клетки, В-клетки, опухолевые клетки) .
Пространственная транскриптомика (Spatial Transcriptomics): Измерение экспрессии от 1 000 до 18 000 генов с сохранением их точных координат в ткани . По оценке Маргалита, Noetik владеет более чем 1% (возможно, до 2%) всех мировых данных, полученных на платформе CosMx .
Генетическое секвенирование (WES): Анализ мутаций в ДНК пациента .

Маргалит продемонстрировал облако точек из 11 миллионов транскриптов РНК в крошечном фрагменте ткани, подчеркивая невероятную плотность биологической информации .

🧠 Модель OCTO: Виртуальные клетки и маскирование 32:17

Основная модель Noetik, получившая название OCTO, построена на архитектуре маскированных автоэнкодеров (MAE) .

Ключевые особенности архитектуры:

Агрессивное маскирование: В процессе обучения маскируется более 90% токенов (генов). Модель должна восстановить экспрессию гена, основываясь на минимальном контексте . Это заставляет систему «учить» фундаментальную биологию, а не просто корреляции .
Пространственный контекст: Для каждой клетки модель анализирует 8 ближайших соседей . Информация о соседях пропускается через отдельный трансформер-бутылочное горлышко и подается в основную сеть через Adaptive LayerNorm .
Масштаб симуляций: На текущий момент команда провела более 6 миллиардов симуляций виртуальных клеток .

💊 In Silico Drug Discovery: Контрфактуальные симуляции 43:21

Модель OCTO позволяет проводить «цифровые эксперименты». Например, исследователи могут взять реальный снимок ткани пациента и спросить модель: «Что будет, если мы искусственно подавим (knockout) определенный ген в окружении Т-клетки?» .

Результаты таких симуляций:

Предсказание экспрессии: Модель может генерировать карту экспрессии 1 000 генов, имея на входе только дешевое изображение H&E .
Восстановление генетики: Кластеризация предсказанных профилей (через t-SNE) позволяет группировать пациентов по генетическим мутациям, даже если модель никогда не видела данных ДНК напрямую .
Выбор мишеней: Симуляции показывают, какие манипуляции с генами переводят Т-клетки в состояние активного уничтожения опухоли (например, повышают уровень гранзима К) .

🚀 Будущее: ИИ-агенты и новые горизонты 55:44

Маргалит представил результаты работы с интерпретируемостью моделей через разреженные автоэнкодеры (SAE). Это позволяет автоматически сегментировать ткани и присваивать им биологические метки, понятные ученым .

В дискуссии о будущем отрасли спикер отметил:

Проблема «здоровых» данных: В распоряжении ученых в основном «снимки поля боя» (больные ткани), тогда как данных о том, как работает иммунная система в норме, крайне мало .
ИИ-агенты: Маргалит оптимистичен в отношении использования LLM, обученных на всей научной литературе, для планирования экспериментов и использования инструментов симуляции .
Full-stack подход: Noetik не просто создает модели, но и проверяет гипотезы в собственной лаборатории на мышиных моделях (in vivo) .

По мнению Маргалита, трансформеры — это идеальный «игровой полигон» для биологии, так как они позволяют объединять данные разных масштабов: от молекул до целых органов .