В рамках курса Стэнфордского университета CS25 «Трансформеры повсюду» Эшед Маргалит (Eshed Margalit), научный сотрудник стартапа Noetik, представил амбициозный проект по созданию мультимодальных «моделей мира» для биологии рака. Используя архитектуры трансформеров и огромные массивы данных о микроокружении опухолей, Noetik стремится превратить разработку лекарств из процесса проб и ошибок в предсказуемую симуляцию.
🧠 Концепция моделей мира в биологии 4:37
Центральная идея выступления Эшеда Маргалита заключается в том, что ИИ должен строить «модели мира» — системы, способные предсказывать будущее состояние среды на основе текущих наблюдений и планируемых действий . В контексте беспилотных автомобилей это означает предсказание траектории движения велосипедиста. В контексте биомедицины — предсказание того, как опухоль отреагирует на конкретный препарат .
Мир воспринимается мультимодально: мы видим, слышим и читаем текстовые описания событий. Эшед Маргалит выделяет две основные роли мультимодальности в обучении моделей:
- Трансляция: Перенос информации из одного домена в другой (например, генерация изображения по тексту), где целью является захват всей полноты данных одной модальности в другой .
- Устранение неоднозначности (Disambiguation): Использование дополнительных потоков данных для заполнения «слепых зон». Например, вид бегущих из здания людей может означать либо пожар, либо раздачу бесплатного чая боба — звук сирены или объявление по громкоговорителю мгновенно проясняют ситуацию .
По мнению спикера, лучшие модели мира будут интегрировать все доступные потоки информации для принятия максимально точных решений .
🛠 Методы слияния данных в трансформерах 9:52
Спикер провел краткий обзор современных подходов к объединению мультимодальных потоков данных в архитектурах на базе внимания:
- Совместные пространства эмбеддингов (CLIP): Контрастивное обучение, где изображения и текст проецируются в общее пространство. Это считается «поздним слиянием», так как энкодеры работают раздельно до финального этапа .
- Прямая конкатенация raw-данных: Самое раннее слияние, когда дополнительные данные (например, карта глубины) просто добавляются как четвертый канал к RGB-изображению .
- Перекрестное внимание (Cross-attention): Асимметричная операция, где одна модальность предоставляет «запросы» (queries), а другая — «ключи» и «значения» (keys, values) .
- Токенизация: Преобразование любых данных (изображений, текста, генетического кода) в единый «суп из токенов», где декодеру не важно происхождение каждого элемента .
- Адаптивная нормализация слоев (AdaLN): Использование параметров сдвига и масштабирования (альфа, бета, гамма) для управления основным потоком данных с помощью дополнительного токена-условия . Этот метод используется в моделях Diffusion Transformer и активно применяется в Noetik .
🧪 Рак как вычислительная задача 22:37
Эшед Маргалит утверждает, что иммунотерапия рака — это область, идеально подходящая для мультимодального машинного обучения . Основная проблема современной онкологии заключается в том, что иммунная система способна уничтожать опухоли, но опухоли «учатся» скрываться или подавлять иммунный ответ .
Многие препараты проваливаются в клинических испытаниях не из-за полной неэффективности, а из-за смешанного ответа: они помогают 10 пациентам из 200, но врачи не знают, как заранее выявить эту группу . Noetik строит модель-симулятор, которая должна отвечать на вопрос: «Если мы дадим этот препарат этому конкретному пациенту, исчезнет ли опухоль?» .
Для обучения такой модели Noetik собирает уникальный набор данных, используя микроскопические фрагменты опухолей легких диаметром всего 1 миллиметр :
- Изображения H&E (гематоксилин и эозин): Дешевые и распространенные гистологические снимки, показывающие общую морфологию тканей .
- 16-канальная иммунофлуоресценция: Позволяет видеть расположение конкретных типов клеток (Т-клеток, В-клеток, опухолевых клеток) .
- Пространственная транскриптомика (1000+ генов): Самый дорогой и редкий тип данных, показывающий активность РНК в каждой точке образца. Noetik владеет примерно 1–2% всех мировых данных, полученных на платформе CosMx .
- Генетическое секвенирование (WES): Информация о мутациях конкретного пациента .
🐙 Модель OCTO: Маскирование как ключ к биологии 31:22
Основная архитектура Noetik, получившая название OCTO (по аналогии с осьминогом с множеством манипуляторов-модальностей), представляет собой маскированный автоэнкодер на базе трансформера .
Механизм обучения включает экстремальное маскирование: из клетки удаляется более 90% данных об экспрессии генов . Модель должна восстановить недостающую информацию, используя оставшиеся крупицы данных и — что критически важно — пространственный контекст.
Для учета окружения используется специальный «бутылочное горлышко» (bottleneck):
- Модель берет 8 ближайших соседей каждой клетки .
- Информация об их экспрессии сжимается в один токен через отдельный трансформер .
- Этот токен подается в основную модель через AdaLN или конкатенацию, помогая ей «угадать» состояние центральной клетки .
Такой подход позволяет модели понимать, что если 7 соседей являются Т-киллерами, то и 8-я клетка, скорее всего, относится к тому же типу . На сегодняшний день компания провела более 6 миллиардов симуляций виртуальных клеток .
🧬 Виртуальные эксперименты и «синтетические нокауты» 39:51
Обладая обученной моделью, ученые Noetik проводят контрфактуальные симуляции (анализ «что, если»). Они создают синтетические окрестности клеток и имитируют действие лекарств, «выключая» определенные гены в модели .
В одном из примеров Маргалит продемонстрировал, как симуляция предсказывает изменение уровня гранзима K (инструмента Т-клеток для атаки на опухоль) при подавлении целевого гена . Это позволяет быстро проверять тысячи гипотез о мишенях для лекарств, не заходя в реальную лабораторию на ранних этапах.
Еще одно важное применение — трансляция данных. Поскольку H&E-снимки стоят дешево, а пространственная транскриптомика — дорого, Noetik научила модель OCTO предсказывать экспрессию 1000 генов, основываясь только на визуальной морфологии ткани . Это может превратить обычный микроскоп в мощный инструмент генетического анализа. Модель настолько успешно выучила биологию, что при кластеризации ее предсказаний пациенты с похожими генетическими мутациями автоматически группируются вместе, хотя модель никогда не видела их генотипа напрямую .
🚀 Будущее: ИИ-агенты и облака точек 55:44
В финальной части лекции Эшед Маргалит представил текущие направления исследований Noetik:
- Отказ от сегментации клеток: Вместо того чтобы пытаться определить границы клеток (что часто ведет к ошибкам), новые модели работают напрямую с «облаком точек» — миллионами индивидуальных молекул РНК в пространстве .
- Интерпретируемость через разреженные автоэнкодеры (SAE): Использование методов, аналогичных тем, что применяются для интерпретации больших языковых моделей (LLM), чтобы выделить в биологических данных повторяющиеся «темы» или концепты .
- ИИ-ученые: Спикер допускает, что в будущем LLM, обученные на всей научной литературе, смогут выступать в роли агентов, которые сами планируют эксперименты в виртуальном симуляторе Noetik, проверяют их в реальности (на мышах) и итерируют до нахождения лекарства .
Несмотря на грандиозность планов, Эшед Маргалит подчеркивает, что Noetik — это компания «полного цикла» (full stack). Они не просто создают модели, но и имеют собственную лабораторию и виварий для проверки предсказаний ИИ на живых системах, поскольку окончательное подтверждение безопасности и эффективности всегда будет требовать биологических испытаний .