Использование искусственного интеллекта в биомедицине переходит от простых классификаторов к созданию полноценных «моделей мира» (World Models). Исследователь и нейробиолог Эшед Маргалит (Eshed Margalit) из стартапа Noetik в рамках лекции в Стэнфордском университете представил концепцию мультимодальных трансформеров, способных симулировать биологию опухоли и предсказывать ответ пациента на терапию.
🌍 Концепция моделей мира в биологии 4:37
Основная цель современного ИИ, по мнению Эшеда Маргалита, — построение моделей мира, способных симулировать будущее состояние системы на основе текущих наблюдений и предполагаемых действий . В контексте борьбы с раком это означает создание симулятора, который ответит на вопрос: «Что произойдет с опухолью конкретного пациента, если мы введем определенный препарат?» .
Спикер выделяет две ключевые задачи мультимодального обучения:
- Перевод (Translation): Перенос информации из одной модальности в другую (например, генерация изображений по тексту) .
- Устранение двусмысленности (Disambiguation): Использование дополнительных потоков данных для восполнения «слепых зон» одной модальности. Маргалит приводит аналогию с пожарной тревогой: вид бегущих людей из здания двусмысленен, но звук сирены мгновенно проясняет ситуацию .
🛠 5 стратегий слияния данных в трансформерах 10:05
В современной литературе по машинному обучению Маргалит выделяет пять основных подходов к интеграции мультимодальных потоков, варьирующихся от раннего до позднего слияния (fusion):
- Совместные пространства эмбеддингов (Joint Embedding Spaces): Метод контрастивного обучения (как в CLIP или ImageBind), где изображения и текст проецируются в единое пространство .
- Прямая конкатенация raw-данных: Самое раннее слияние, когда разные каналы (например, RGB и карта глубины) просто сшиваются в один входной тензор .
- Перекрестное внимание (Cross-attention): Промежуточное слияние, где один поток данных генерирует «запросы» (queries), а другой — «ключи» (keys) и «значения» (values) .
- Смешивание токенов (Token Slapping): Превращение всех типов данных в токены и их подача в единую последовательность (как в DALL-E 1) .
- Адаптивная нормализация слоев (Adaptive LayerNorm): Использование параметров (альфа, бета, гамма) для управления работой основного трансформера на основе дополнительной модальности . Этот метод Маргалит называет наиболее эффективным по параметрам .
🧬 Данные Noetik: От микроскопии до транскриптомики 22:25
Для обучения моделей компания Noetik собирает уникальный массив данных из человеческих опухолей легких . Процесс включает четыре уровня анализа одного и того же образца ткани диаметром 1 мм:
- H&E (Гематоксилин и эозин): Стандартные изображения морфологии ткани. Они дешевы и широко доступны .
- IF (Иммунофлуоресценция): 16-канальные изображения белков, позволяющие идентифицировать типы клеток (Т-клетки, В-клетки, опухолевые клетки) .
- Пространственная транскриптомика (Spatial Transcriptomics): Измерение экспрессии от 1 000 до 18 000 генов с сохранением их точных координат в ткани . По оценке Маргалита, Noetik владеет более чем 1% (возможно, до 2%) всех мировых данных, полученных на платформе CosMx .
- Генетическое секвенирование (WES): Анализ мутаций в ДНК пациента .
Маргалит продемонстрировал облако точек из 11 миллионов транскриптов РНК в крошечном фрагменте ткани, подчеркивая невероятную плотность биологической информации .
🧠 Модель OCTO: Виртуальные клетки и маскирование 32:17
Основная модель Noetik, получившая название OCTO, построена на архитектуре маскированных автоэнкодеров (MAE) .
Ключевые особенности архитектуры:
- Агрессивное маскирование: В процессе обучения маскируется более 90% токенов (генов). Модель должна восстановить экспрессию гена, основываясь на минимальном контексте . Это заставляет систему «учить» фундаментальную биологию, а не просто корреляции .
- Пространственный контекст: Для каждой клетки модель анализирует 8 ближайших соседей . Информация о соседях пропускается через отдельный трансформер-бутылочное горлышко и подается в основную сеть через Adaptive LayerNorm .
- Масштаб симуляций: На текущий момент команда провела более 6 миллиардов симуляций виртуальных клеток .
💊 In Silico Drug Discovery: Контрфактуальные симуляции 43:21
Модель OCTO позволяет проводить «цифровые эксперименты». Например, исследователи могут взять реальный снимок ткани пациента и спросить модель: «Что будет, если мы искусственно подавим (knockout) определенный ген в окружении Т-клетки?» .
Результаты таких симуляций:
- Предсказание экспрессии: Модель может генерировать карту экспрессии 1 000 генов, имея на входе только дешевое изображение H&E .
- Восстановление генетики: Кластеризация предсказанных профилей (через t-SNE) позволяет группировать пациентов по генетическим мутациям, даже если модель никогда не видела данных ДНК напрямую .
- Выбор мишеней: Симуляции показывают, какие манипуляции с генами переводят Т-клетки в состояние активного уничтожения опухоли (например, повышают уровень гранзима К) .
🚀 Будущее: ИИ-агенты и новые горизонты 55:44
Маргалит представил результаты работы с интерпретируемостью моделей через разреженные автоэнкодеры (SAE). Это позволяет автоматически сегментировать ткани и присваивать им биологические метки, понятные ученым .
В дискуссии о будущем отрасли спикер отметил:
- Проблема «здоровых» данных: В распоряжении ученых в основном «снимки поля боя» (больные ткани), тогда как данных о том, как работает иммунная система в норме, крайне мало .
- ИИ-агенты: Маргалит оптимистичен в отношении использования LLM, обученных на всей научной литературе, для планирования экспериментов и использования инструментов симуляции .
- Full-stack подход: Noetik не просто создает модели, но и проверяет гипотезы в собственной лаборатории на мышиных моделях (in vivo) .
По мнению Маргалита, трансформеры — это идеальный «игровой полигон» для биологии, так как они позволяют объединять данные разных масштабов: от молекул до целых органов .