# Как трансформеры строят мультимодальные модели мира в онкологии: опыт Noetik.ai

Источник: https://www.youtube.com/watch?v=8kXIaUM3h1E
Канал: Stanford Online
Опубликовано: 13.06.2025

---

В рамках курса Стэнфордского университета CS25 «Трансформеры повсюду» Эшед Маргалит (Eshed Margalit), научный сотрудник стартапа Noetik, представил амбициозный проект по созданию мультимодальных «моделей мира» для биологии рака. Используя архитектуры трансформеров и огромные массивы данных о микроокружении опухолей, Noetik стремится превратить разработку лекарств из процесса проб и ошибок в предсказуемую симуляцию.

## 🧠 Концепция моделей мира в биологии
[[JUMP:04:37]]

Центральная идея выступления Эшеда Маргалита заключается в том, что ИИ должен строить «модели мира» — системы, способные предсказывать будущее состояние среды на основе текущих наблюдений и планируемых действий [04:51]. В контексте беспилотных автомобилей это означает предсказание траектории движения велосипедиста. В контексте биомедицины — предсказание того, как опухоль отреагирует на конкретный препарат [05:05].

Мир воспринимается мультимодально: мы видим, слышим и читаем текстовые описания событий. Эшед Маргалит выделяет две основные роли мультимодальности в обучении моделей:

*   **Трансляция:** Перенос информации из одного домена в другой (например, генерация изображения по тексту), где целью является захват всей полноты данных одной модальности в другой [07:36].
*   **Устранение неоднозначности (Disambiguation):** Использование дополнительных потоков данных для заполнения «слепых зон». Например, вид бегущих из здания людей может означать либо пожар, либо раздачу бесплатного чая боба — звук сирены или объявление по громкоговорителю мгновенно проясняют ситуацию [09:12].

По мнению спикера, лучшие модели мира будут интегрировать все доступные потоки информации для принятия максимально точных решений [06:28].

## 🛠 Методы слияния данных в трансформерах
[[JUMP:09:52]]

Спикер провел краткий обзор современных подходов к объединению мультимодальных потоков данных в архитектурах на базе внимания:

1.  **Совместные пространства эмбеддингов (CLIP):** Контрастивное обучение, где изображения и текст проецируются в общее пространство. Это считается «поздним слиянием», так как энкодеры работают раздельно до финального этапа [11:36].
2.  **Прямая конкатенация raw-данных:** Самое раннее слияние, когда дополнительные данные (например, карта глубины) просто добавляются как четвертый канал к RGB-изображению [13:51].
3.  **Перекрестное внимание (Cross-attention):** Асимметричная операция, где одна модальность предоставляет «запросы» (queries), а другая — «ключи» и «значения» (keys, values) [15:22].
4.  **Токенизация:** Преобразование любых данных (изображений, текста, генетического кода) в единый «суп из токенов», где декодеру не важно происхождение каждого элемента [17:31].
5.  **Адаптивная нормализация слоев (AdaLN):** Использование параметров сдвига и масштабирования (альфа, бета, гамма) для управления основным потоком данных с помощью дополнительного токена-условия [19:02]. Этот метод используется в моделях Diffusion Transformer и активно применяется в Noetik [18:50].

## 🧪 Рак как вычислительная задача
[[JUMP:22:37]]

Эшед Маргалит утверждает, что иммунотерапия рака — это область, идеально подходящая для мультимодального машинного обучения [03:57]. Основная проблема современной онкологии заключается в том, что иммунная система способна уничтожать опухоли, но опухоли «учатся» скрываться или подавлять иммунный ответ [24:00].

Многие препараты проваливаются в клинических испытаниях не из-за полной неэффективности, а из-за смешанного ответа: они помогают 10 пациентам из 200, но врачи не знают, как заранее выявить эту группу [1:05:13]. Noetik строит модель-симулятор, которая должна отвечать на вопрос: «Если мы дадим этот препарат этому конкретному пациенту, исчезнет ли опухоль?» [25:05].

Для обучения такой модели Noetik собирает уникальный набор данных, используя микроскопические фрагменты опухолей легких диаметром всего 1 миллиметр [25:43]:

*   **Изображения H&E (гематоксилин и эозин):** Дешевые и распространенные гистологические снимки, показывающие общую морфологию тканей [26:08].
*   **16-канальная иммунофлуоресценция:** Позволяет видеть расположение конкретных типов клеток (Т-клеток, В-клеток, опухолевых клеток) [27:15].
*   **Пространственная транскриптомика (1000+ генов):** Самый дорогой и редкий тип данных, показывающий активность РНК в каждой точке образца. Noetik владеет примерно 1–2% всех мировых данных, полученных на платформе CosMx [28:50].
*   **Генетическое секвенирование (WES):** Информация о мутациях конкретного пациента [29:03].

## 🐙 Модель OCTO: Маскирование как ключ к биологии
[[JUMP:31:22]]

Основная архитектура Noetik, получившая название OCTO (по аналогии с осьминогом с множеством манипуляторов-модальностей), представляет собой маскированный автоэнкодер на базе трансформера [31:35].

Механизм обучения включает экстремальное маскирование: из клетки удаляется более 90% данных об экспрессии генов [33:10]. Модель должна восстановить недостающую информацию, используя оставшиеся крупицы данных и — что критически важно — пространственный контекст.

Для учета окружения используется специальный «бутылочное горлышко» (bottleneck):

*   Модель берет 8 ближайших соседей каждой клетки [35:20].
*   Информация об их экспрессии сжимается в один токен через отдельный трансформер [35:35].
*   Этот токен подается в основную модель через AdaLN или конкатенацию, помогая ей «угадать» состояние центральной клетки [35:48].

Такой подход позволяет модели понимать, что если 7 соседей являются Т-киллерами, то и 8-я клетка, скорее всего, относится к тому же типу [36:13]. На сегодняшний день компания провела более 6 миллиардов симуляций виртуальных клеток [37:23].

## 🧬 Виртуальные эксперименты и «синтетические нокауты»
[[JUMP:39:51]]

Обладая обученной моделью, ученые Noetik проводят контрфактуальные симуляции (анализ «что, если»). Они создают синтетические окрестности клеток и имитируют действие лекарств, «выключая» определенные гены в модели [40:17].

В одном из примеров Маргалит продемонстрировал, как симуляция предсказывает изменение уровня гранзима K (инструмента Т-клеток для атаки на опухоль) при подавлении целевого гена [40:44]. Это позволяет быстро проверять тысячи гипотез о мишенях для лекарств, не заходя в реальную лабораторию на ранних этапах.

Еще одно важное применение — трансляция данных. Поскольку H&E-снимки стоят дешево, а пространственная транскриптомика — дорого, Noetik научила модель OCTO предсказывать экспрессию 1000 генов, основываясь только на визуальной морфологии ткани [45:27]. Это может превратить обычный микроскоп в мощный инструмент генетического анализа. Модель настолько успешно выучила биологию, что при кластеризации ее предсказаний пациенты с похожими генетическими мутациями автоматически группируются вместе, хотя модель никогда не видела их генотипа напрямую [49:37].

## 🚀 Будущее: ИИ-агенты и облака точек
[[JUMP:55:44]]

В финальной части лекции Эшед Маргалит представил текущие направления исследований Noetik:

*   **Отказ от сегментации клеток:** Вместо того чтобы пытаться определить границы клеток (что часто ведет к ошибкам), новые модели работают напрямую с «облаком точек» — миллионами индивидуальных молекул РНК в пространстве [54:37].
*   **Интерпретируемость через разреженные автоэнкодеры (SAE):** Использование методов, аналогичных тем, что применяются для интерпретации больших языковых моделей (LLM), чтобы выделить в биологических данных повторяющиеся «темы» или концепты [56:12].
*   **ИИ-ученые:** Спикер допускает, что в будущем LLM, обученные на всей научной литературе, смогут выступать в роли агентов, которые сами планируют эксперименты в виртуальном симуляторе Noetik, проверяют их в реальности (на мышах) и итерируют до нахождения лекарства [1:07:11].

Несмотря на грандиозность планов, Эшед Маргалит подчеркивает, что Noetik — это компания «полного цикла» (full stack). Они не просто создают модели, но и имеют собственную лабораторию и виварий для проверки предсказаний ИИ на живых системах, поскольку окончательное подтверждение безопасности и эффективности всегда будет требовать биологических испытаний [1:03:41].

---