Как трансформеры строят мультимодальные модели мира в онкологии: опыт Noetik.ai

Stanford Online 11 тыс. 1 ч 10 мин 5 мин 13.06.2025
Главное

В рамках курса Стэнфордского университета CS25 «Трансформеры повсюду» Эшед Маргалит (Eshed Margalit), научный сотрудник стартапа Noetik, представил амбициозный проект по созданию мультимодальных «моделей мира» для биологии рака. Используя архитектуры трансформеров и огромные массивы данных о микроокружении опухолей, Noetik стремится превратить разработку лекарств из процесса проб и ошибок в предсказуемую симуляцию.

🧠 Концепция моделей мира в биологии 4:37

Центральная идея выступления Эшеда Маргалита заключается в том, что ИИ должен строить «модели мира» — системы, способные предсказывать будущее состояние среды на основе текущих наблюдений и планируемых действий . В контексте беспилотных автомобилей это означает предсказание траектории движения велосипедиста. В контексте биомедицины — предсказание того, как опухоль отреагирует на конкретный препарат .

Мир воспринимается мультимодально: мы видим, слышим и читаем текстовые описания событий. Эшед Маргалит выделяет две основные роли мультимодальности в обучении моделей:

По мнению спикера, лучшие модели мира будут интегрировать все доступные потоки информации для принятия максимально точных решений .

🛠 Методы слияния данных в трансформерах 9:52

Спикер провел краткий обзор современных подходов к объединению мультимодальных потоков данных в архитектурах на базе внимания:

  1. Совместные пространства эмбеддингов (CLIP): Контрастивное обучение, где изображения и текст проецируются в общее пространство. Это считается «поздним слиянием», так как энкодеры работают раздельно до финального этапа .
  2. Прямая конкатенация raw-данных: Самое раннее слияние, когда дополнительные данные (например, карта глубины) просто добавляются как четвертый канал к RGB-изображению .
  3. Перекрестное внимание (Cross-attention): Асимметричная операция, где одна модальность предоставляет «запросы» (queries), а другая — «ключи» и «значения» (keys, values) .
  4. Токенизация: Преобразование любых данных (изображений, текста, генетического кода) в единый «суп из токенов», где декодеру не важно происхождение каждого элемента .
  5. Адаптивная нормализация слоев (AdaLN): Использование параметров сдвига и масштабирования (альфа, бета, гамма) для управления основным потоком данных с помощью дополнительного токена-условия . Этот метод используется в моделях Diffusion Transformer и активно применяется в Noetik .

🧪 Рак как вычислительная задача 22:37

Эшед Маргалит утверждает, что иммунотерапия рака — это область, идеально подходящая для мультимодального машинного обучения . Основная проблема современной онкологии заключается в том, что иммунная система способна уничтожать опухоли, но опухоли «учатся» скрываться или подавлять иммунный ответ .

Многие препараты проваливаются в клинических испытаниях не из-за полной неэффективности, а из-за смешанного ответа: они помогают 10 пациентам из 200, но врачи не знают, как заранее выявить эту группу . Noetik строит модель-симулятор, которая должна отвечать на вопрос: «Если мы дадим этот препарат этому конкретному пациенту, исчезнет ли опухоль?» .

Для обучения такой модели Noetik собирает уникальный набор данных, используя микроскопические фрагменты опухолей легких диаметром всего 1 миллиметр :

🐙 Модель OCTO: Маскирование как ключ к биологии 31:22

Основная архитектура Noetik, получившая название OCTO (по аналогии с осьминогом с множеством манипуляторов-модальностей), представляет собой маскированный автоэнкодер на базе трансформера .

Механизм обучения включает экстремальное маскирование: из клетки удаляется более 90% данных об экспрессии генов . Модель должна восстановить недостающую информацию, используя оставшиеся крупицы данных и — что критически важно — пространственный контекст.

Для учета окружения используется специальный «бутылочное горлышко» (bottleneck):

Такой подход позволяет модели понимать, что если 7 соседей являются Т-киллерами, то и 8-я клетка, скорее всего, относится к тому же типу . На сегодняшний день компания провела более 6 миллиардов симуляций виртуальных клеток .

🧬 Виртуальные эксперименты и «синтетические нокауты» 39:51

Обладая обученной моделью, ученые Noetik проводят контрфактуальные симуляции (анализ «что, если»). Они создают синтетические окрестности клеток и имитируют действие лекарств, «выключая» определенные гены в модели .

В одном из примеров Маргалит продемонстрировал, как симуляция предсказывает изменение уровня гранзима K (инструмента Т-клеток для атаки на опухоль) при подавлении целевого гена . Это позволяет быстро проверять тысячи гипотез о мишенях для лекарств, не заходя в реальную лабораторию на ранних этапах.

Еще одно важное применение — трансляция данных. Поскольку H&E-снимки стоят дешево, а пространственная транскриптомика — дорого, Noetik научила модель OCTO предсказывать экспрессию 1000 генов, основываясь только на визуальной морфологии ткани . Это может превратить обычный микроскоп в мощный инструмент генетического анализа. Модель настолько успешно выучила биологию, что при кластеризации ее предсказаний пациенты с похожими генетическими мутациями автоматически группируются вместе, хотя модель никогда не видела их генотипа напрямую .

🚀 Будущее: ИИ-агенты и облака точек 55:44

В финальной части лекции Эшед Маргалит представил текущие направления исследований Noetik:

Несмотря на грандиозность планов, Эшед Маргалит подчеркивает, что Noetik — это компания «полного цикла» (full stack). Они не просто создают модели, но и имеют собственную лабораторию и виварий для проверки предсказаний ИИ на живых системах, поскольку окончательное подтверждение безопасности и эффективности всегда будет требовать биологических испытаний .


💬 Цитаты

«Мы получаем снимки поля боя. Если нам повезет, мы видим, как система работает в нормальном режиме, но чаще мы изучаем состояние болезни.»

Эшед Маргалит 1:02:31

«Биология рака — это просто фантастическое место для проведения исследований в области машинного обучения.»

Эшед Маргалит 03:57
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Пространственная транскриптомика
Метод анализа, позволяющий измерять активность генов (РНК) с сохранением информации о точном местоположении каждой молекулы в ткани.
H&E (Гематоксилин и эозин)
Стандартный и дешевый метод окрашивания тканей для изучения их структуры под микроскопом.
Маскированный автоэнкодер (MAE)
Архитектура нейросети, которая учится восстанавливать пропущенные (замаскированные) части входных данных.
Контрфактуальная симуляция
Мысленный или компьютерный эксперимент в формате «что было бы, если изменить один параметр», например, выключить ген.
📊 Цифры
⚖️ Другая сторона
Биология и медицина Eshed Margalit Noetik пространственная транскриптомика мультимодальное обучение иммунотерапия