Как трансформеры строят мультимодальные модели мира в онкологии: опыт Noetik.ai

В рамках курса Стэнфордского университета CS25 «Трансформеры повсюду» Эшед Маргалит (Eshed Margalit), научный сотрудник стартапа Noetik, представил амбициозный проект по созданию мультимодальных «моделей мира» для биологии рака. Используя архитектуры трансформеров и огромные массивы данных о микроокружении опухолей, Noetik стремится превратить разработку лекарств из процесса проб и ошибок в предсказуемую симуляцию.

🧠 Концепция моделей мира в биологии 4:37

Центральная идея выступления Эшеда Маргалита заключается в том, что ИИ должен строить «модели мира» — системы, способные предсказывать будущее состояние среды на основе текущих наблюдений и планируемых действий . В контексте беспилотных автомобилей это означает предсказание траектории движения велосипедиста. В контексте биомедицины — предсказание того, как опухоль отреагирует на конкретный препарат .

Мир воспринимается мультимодально: мы видим, слышим и читаем текстовые описания событий. Эшед Маргалит выделяет две основные роли мультимодальности в обучении моделей:

Трансляция: Перенос информации из одного домена в другой (например, генерация изображения по тексту), где целью является захват всей полноты данных одной модальности в другой .
Устранение неоднозначности (Disambiguation): Использование дополнительных потоков данных для заполнения «слепых зон». Например, вид бегущих из здания людей может означать либо пожар, либо раздачу бесплатного чая боба — звук сирены или объявление по громкоговорителю мгновенно проясняют ситуацию .

По мнению спикера, лучшие модели мира будут интегрировать все доступные потоки информации для принятия максимально точных решений .

🛠 Методы слияния данных в трансформерах 9:52

Спикер провел краткий обзор современных подходов к объединению мультимодальных потоков данных в архитектурах на базе внимания:

Совместные пространства эмбеддингов (CLIP): Контрастивное обучение, где изображения и текст проецируются в общее пространство. Это считается «поздним слиянием», так как энкодеры работают раздельно до финального этапа .
Прямая конкатенация raw-данных: Самое раннее слияние, когда дополнительные данные (например, карта глубины) просто добавляются как четвертый канал к RGB-изображению .
Перекрестное внимание (Cross-attention): Асимметричная операция, где одна модальность предоставляет «запросы» (queries), а другая — «ключи» и «значения» (keys, values) .
Токенизация: Преобразование любых данных (изображений, текста, генетического кода) в единый «суп из токенов», где декодеру не важно происхождение каждого элемента .
Адаптивная нормализация слоев (AdaLN): Использование параметров сдвига и масштабирования (альфа, бета, гамма) для управления основным потоком данных с помощью дополнительного токена-условия . Этот метод используется в моделях Diffusion Transformer и активно применяется в Noetik .

🧪 Рак как вычислительная задача 22:37

Эшед Маргалит утверждает, что иммунотерапия рака — это область, идеально подходящая для мультимодального машинного обучения . Основная проблема современной онкологии заключается в том, что иммунная система способна уничтожать опухоли, но опухоли «учатся» скрываться или подавлять иммунный ответ .

Многие препараты проваливаются в клинических испытаниях не из-за полной неэффективности, а из-за смешанного ответа: они помогают 10 пациентам из 200, но врачи не знают, как заранее выявить эту группу . Noetik строит модель-симулятор, которая должна отвечать на вопрос: «Если мы дадим этот препарат этому конкретному пациенту, исчезнет ли опухоль?» .

Для обучения такой модели Noetik собирает уникальный набор данных, используя микроскопические фрагменты опухолей легких диаметром всего 1 миллиметр :

Изображения H&E (гематоксилин и эозин): Дешевые и распространенные гистологические снимки, показывающие общую морфологию тканей .
16-канальная иммунофлуоресценция: Позволяет видеть расположение конкретных типов клеток (Т-клеток, В-клеток, опухолевых клеток) .
Пространственная транскриптомика (1000+ генов): Самый дорогой и редкий тип данных, показывающий активность РНК в каждой точке образца. Noetik владеет примерно 1–2% всех мировых данных, полученных на платформе CosMx .
Генетическое секвенирование (WES): Информация о мутациях конкретного пациента .

🐙 Модель OCTO: Маскирование как ключ к биологии 31:22

Основная архитектура Noetik, получившая название OCTO (по аналогии с осьминогом с множеством манипуляторов-модальностей), представляет собой маскированный автоэнкодер на базе трансформера .

Механизм обучения включает экстремальное маскирование: из клетки удаляется более 90% данных об экспрессии генов . Модель должна восстановить недостающую информацию, используя оставшиеся крупицы данных и — что критически важно — пространственный контекст.

Для учета окружения используется специальный «бутылочное горлышко» (bottleneck):

Модель берет 8 ближайших соседей каждой клетки .
Информация об их экспрессии сжимается в один токен через отдельный трансформер .
Этот токен подается в основную модель через AdaLN или конкатенацию, помогая ей «угадать» состояние центральной клетки .

Такой подход позволяет модели понимать, что если 7 соседей являются Т-киллерами, то и 8-я клетка, скорее всего, относится к тому же типу . На сегодняшний день компания провела более 6 миллиардов симуляций виртуальных клеток .

🧬 Виртуальные эксперименты и «синтетические нокауты» 39:51

Обладая обученной моделью, ученые Noetik проводят контрфактуальные симуляции (анализ «что, если»). Они создают синтетические окрестности клеток и имитируют действие лекарств, «выключая» определенные гены в модели .

В одном из примеров Маргалит продемонстрировал, как симуляция предсказывает изменение уровня гранзима K (инструмента Т-клеток для атаки на опухоль) при подавлении целевого гена . Это позволяет быстро проверять тысячи гипотез о мишенях для лекарств, не заходя в реальную лабораторию на ранних этапах.

Еще одно важное применение — трансляция данных. Поскольку H&E-снимки стоят дешево, а пространственная транскриптомика — дорого, Noetik научила модель OCTO предсказывать экспрессию 1000 генов, основываясь только на визуальной морфологии ткани . Это может превратить обычный микроскоп в мощный инструмент генетического анализа. Модель настолько успешно выучила биологию, что при кластеризации ее предсказаний пациенты с похожими генетическими мутациями автоматически группируются вместе, хотя модель никогда не видела их генотипа напрямую .

🚀 Будущее: ИИ-агенты и облака точек 55:44

В финальной части лекции Эшед Маргалит представил текущие направления исследований Noetik:

Отказ от сегментации клеток: Вместо того чтобы пытаться определить границы клеток (что часто ведет к ошибкам), новые модели работают напрямую с «облаком точек» — миллионами индивидуальных молекул РНК в пространстве .
Интерпретируемость через разреженные автоэнкодеры (SAE): Использование методов, аналогичных тем, что применяются для интерпретации больших языковых моделей (LLM), чтобы выделить в биологических данных повторяющиеся «темы» или концепты .
ИИ-ученые: Спикер допускает, что в будущем LLM, обученные на всей научной литературе, смогут выступать в роли агентов, которые сами планируют эксперименты в виртуальном симуляторе Noetik, проверяют их в реальности (на мышах) и итерируют до нахождения лекарства .

Несмотря на грандиозность планов, Эшед Маргалит подчеркивает, что Noetik — это компания «полного цикла» (full stack). Они не просто создают модели, но и имеют собственную лабораторию и виварий для проверки предсказаний ИИ на живых системах, поскольку окончательное подтверждение безопасности и эффективности всегда будет требовать биологических испытаний .