ИИ в роли ученого: как Virtual Lab и разреженные автокодировщики совершают революцию в биологии

В последние годы искусственный интеллект совершает тектонические сдвиги в биологических науках, переходя от роли вспомогательного инструмента к полноценному партнеру в научных исследованиях. В эфире подкаста «The Cognitive Revolution» профессор биомедицинских данных Стэнфордского университета Джеймс Цзоу рассказал о двух прорывных работах своей лаборатории, расширяющих границы возможностей ИИ: фреймворке «Virtual Lab» для создания автономных научных групп и проекте «InterPLM» по интерпретации белковых языковых моделей. Эти исследования доказывают, что современные нейросети способны не только автоматизировать рутину, но и совершать открытия, опережающие человеческое знание.

🤖 Виртуальная лаборатория: как ИИ-агенты проектируют лекарства 1:30

Идея использования ИИ для проведения научных исследований часто упирается либо в слишком узкую специализацию агентов, либо в их неспособность генерировать практически проверяемые результаты. Чтобы преодолеть эти ограничения, команда Джеймса Цзоу разработала «Virtual Lab» — гибкий фреймворк, моделирующий работу реальной научной группы . Система состоит из нескольких агентов на базе GPT-4o с четко разделенными ролями :

«ИИ-профессор» (руководитель лаборатории или PI), который координирует работу, ставит задачи и принимает решения .
Профильные «ИИ-студенты» — эксперты в узких областях, таких как иммунология, компьютерные науки и вычислительная биология .
«ИИ-критик», чья единственная задача — давать жесткую конструктивную обратную связь на каждом этапе .

В качестве практического испытания перед Virtual Lab поставили задачу разработать новые препараты против эволюционирующих штаммов вируса SARS-CoV-2 . ИИ-агенты приняли неожиданное и неортодоксальное для большинства людей-исследователей решение: вместо разработки стандартных антител они сфокусировались на нанотелах (nanobodies) . Нанотела — это уменьшенные версии антител, встречающиеся у некоторых животных, например у верблюдов . Свой выбор агенты аргументировали тем, что нанотела более стабильны, их проще предсказывать и легче проектировать в лабораторных условиях . При этом участие человека в проекте было минимальным: люди написали лишь около 1,3% от общего объема токенов, задавая общие высокоуровневые рамки исследования .

🧬 Уникальный конвейер: интеграция ESM, AlphaFold и Rosetta 6:48

Главным достижением ИИ-лаборатории стала не просто генерация идей, а создание принципиально нового вычислительного конвейера (workflow) . Агенты объединили три мощных инструмента, которые ранее использовались в биологии разрозненно:

ESM (Evolutionary Scale Modeling) — крупную белковую языковую модель, обученную на миллионах эволюционных последовательностей .
AlphaFold Multimer — модель для предсказания трехмерной структуры белковых комплексов .
Rosetta — физико-химический инструмент для оптимизации структуры и расчета энергии связывания молекул .

По словам Джеймса Цзоу, агенты не просто соединили эти программы, но и внесли локальные модификации в их математический аппарат . Так, для модели ESM они разработали новую формулу расчета отношения правдоподобия (likelihood ratio) для оценки стабильности белков при последовательном внесении мутаций .

Конвейер работал следующим образом:

На первом этапе ESM оценивала базу мутаций дикого типа нанотела, отбирая наиболее стабильные варианты .
На втором этапе AlphaFold Multimer строила 3D-модель взаимодействия нанотела со спайк-белком вируса .
На третьем этапе Rosetta корректировала геометрию структуры с учетом законов физики и рассчитывала энергию связывания .

Система рассчитывала взвешенный балл по всем трем параметрам и провела четыре итерационных раунда отбора . В результате было спроектировано более 90 перспективных кандидатов . Физические эксперименты в Chan Zuckerberg Biohub подтвердили, что два нанотела обладают высочайшим терапевтическим потенциалом: они эффективно нейтрализуют новые варианты коронавируса (включая штамм JN.1), сохраняя при этом активность против ранних версий , .

👥 Социальная динамика ИИ: вежливые оппоненты и параллельные миры 23:35

Архитектура Virtual Lab симулирует реальные процессы взаимодействия в академических группах Стэнфордского университета . Агенты общаются между собой на естественном языке, проводя встречи двух типов: групповые планерки и индивидуальные консультации «один на один» . В конце каждой сессии «ИИ-профессор» формирует протокол собрания (meeting minutes) и отправляет его человеку-куратору .

Уникальное преимущество цифровой лаборатории заключается в ее масштабируемости и скорости. Пока живые ученые пьют кофе перед началом работы, ИИ успевает провести сотни виртуальных совещаний . Для повышения точности решений команда внедрила концепцию параллельных встреч:

Каждый ключевой вопрос обсуждается в пяти параллельных сессиях одновременно .
Разные «параллельные миры» могут приходить к разным выводам, подобно тому, как группа людей принимает разные решения в разные дни .
«ИИ-профессор» анализирует логи всех пяти дискуссий и формирует итоговый консенсус .

Профессор Джеймс Цзоу отмечает интересную социологическую деталь: из-за обучения с подкреплением на основе отзывов людей (RLHF) ИИ-агенты ведут себя излишне вежливо . «ИИ-критик» часто сглаживает углы, вместо того чтобы прямо заявить коллеге о несостоятельности его идеи . В будущих версиях ученые планируют протестировать более «агрессивных» критиков, не заботящихся о чувствах других агентов, чтобы проверить, повысит ли это продуктивность науки . Весь проект обошелся лаборатории менее чем в 100 долларов США в пересчете на API-запросы OpenAI .

🔍 InterPLM и разреженные автокодировщики: взлом «черного ящика» белков 2:37

Если Virtual Lab — это инструмент для планирования и интеграции, то второй проект лаборатории, InterPLM, нацелен на фундаментальные научные открытия через интерпретацию нейросетей . Ученые применили метод разреженных автокодировщиков (Sparse Autoencoders, SAE) к белковой языковой модели ESM-2 , .

Белковые языковые модели обучаются исключительно на линейных последовательностях аминокислот, представляющих собой «тексты» из аминокислотных остатков . В этих данных нет явной информации о трехмерной структуре или функциях белков . Тем не менее, проходя обучение на эволюционном масштабе данных, модели неявно выстраивают сложную «грамматику» биологии в своих эмбеддингах .

Применив SAE к скрытым слоям модели, исследователи выделили около 10 000 дискретных признаков (features) . Анализ показал, что около 2500 из них поддаются прямой человеческой интерпретации . Эти признаки разделились на три категории :

Последовательные (sequential) — активируются на конкретных участках линейной аминокислотной цепи.
Структурные (structural) — реагируют на пространственно сближенные аминокислоты, которые находятся далеко друг от друга в линейной цепи, но физически соприкасаются при сворачивании белка .
Концептуальные (conceptual) — активируются при анализе целых белков, определяя их функциональный класс или роль в организме.

💡 Открытие нового белкового мотива: ИИ знает больше, чем человек 3:02

Главная ценность проекта InterPLM заключается в том, что он доказывает способность машинного обучения обнаруживать природные закономерности, которые до сих пор не были известны человечеству . При анализе скрытых признаков ESM-2 автокодировщик зафиксировал паттерны, соответствующие как минимум одному абсолютно новому белковому мотиву (protein motif), который ранее никогда не упоминался в научной литературе . Белковый мотив — это устойчивая трехмерная структура белка, повторяющаяся в различных молекулах в природе .

Для систематической разметки и анализа гигантского массива данных исследователи использовали ИИ-помощника Claude от Anthropic . Нейросеть автоматически сопоставляла данные активаций с существующими биологическими базами данных, помогая идентифицировать белые пятна в наших знаниях . Результаты работы выложены в открытый доступ на интерактивном портале interplm.ai, где каждый ученый может визуализировать скрытые концепты в 3D-формате . По мнению Джеймса Цзоу, существующие модели уже содержат в себе настоящую «золотую жилу» скрытых биологических знаний, и задача ученых — извлечь их с помощью методов интерпретируемости .

🔮 Пределы возможностей и будущее биологии 58:29

Отвечая на вопрос о границах применимости новых методов, Джеймс Цзоу подчеркивает, что биологический ИИ все еще сталкивается с жестким дефицитом данных в ряде областей, таких как малые молекулы и внутренне неупорядоченные белки (disordered proteins) . В этих сферах прогресс сдерживается не вычислительными мощностями, а отсутствием достаточного объема надежной экспериментальной информации .

Тем не менее, комментируя прогнозы генерального директора Anthropic Дарио Амодеи о возможном наступлении «сжатого века открытий» (когда за 5–10 лет биология благодаря ИИ пройдет путь, эквивалентный 100 годам развития) , профессор Цзоу выражает оптимизм . По его мнению, сближение систем ИИ-рассуждений с прорывными методами клеточных измерений действительно способно радикально ускорить научный прогресс в ближайшее десятилетие . Следующим шагом его лаборатории станет переход от молекулярного масштаба к многоуровневому (multiscale) моделированию на уровне целых клеток, тканей и органов человека .