# ИИ в роли ученого: как Virtual Lab и разреженные автокодировщики совершают революцию в биологии

Источник: https://www.youtube.com/watch?v=plq7R9KtDFk
Канал: Cognitive Revolution "How AI Changes Everything"
Опубликовано: 18.12.2024

---

В последние годы искусственный интеллект совершает тектонические сдвиги в биологических науках, переходя от роли вспомогательного инструмента к полноценному партнеру в научных исследованиях. В эфире подкаста «The Cognitive Revolution» профессор биомедицинских данных Стэнфордского университета Джеймс Цзоу рассказал о двух прорывных работах своей лаборатории, расширяющих границы возможностей ИИ: фреймворке «Virtual Lab» для создания автономных научных групп и проекте «InterPLM» по интерпретации белковых языковых моделей. Эти исследования доказывают, что современные нейросети способны не только автоматизировать рутину, но и совершать открытия, опережающие человеческое знание.

## 🤖 Виртуальная лаборатория: как ИИ-агенты проектируют лекарства
[[JUMP:1:30]]

Идея использования ИИ для проведения научных исследований часто упирается либо в слишком узкую специализацию агентов, либо в их неспособность генерировать практически проверяемые результаты. Чтобы преодолеть эти ограничения, команда Джеймса Цзоу разработала «Virtual Lab» — гибкий фреймворк, моделирующий работу реальной научной группы [1:30]. Система состоит из нескольких агентов на базе GPT-4o с четко разделенными ролями [12:01]:

*   «ИИ-профессор» (руководитель лаборатории или PI), который координирует работу, ставит задачи и принимает решения [5:41].
*   Профильные «ИИ-студенты» — эксперты в узких областях, таких как иммунология, компьютерные науки и вычислительная биология [5:54].
*   «ИИ-критик», чья единственная задача — давать жесткую конструктивную обратную связь на каждом этапе [1:30].

В качестве практического испытания перед Virtual Lab поставили задачу разработать новые препараты против эволюционирующих штаммов вируса SARS-CoV-2 [6:20]. ИИ-агенты приняли неожиданное и неортодоксальное для большинства людей-исследователей решение: вместо разработки стандартных антител они сфокусировались на нанотелах (nanobodies) [10:29]. Нанотела — это уменьшенные версии антител, встречающиеся у некоторых животных, например у верблюдов [10:54]. Свой выбор агенты аргументировали тем, что нанотела более стабильны, их проще предсказывать и легче проектировать в лабораторных условиях [11:08]. При этом участие человека в проекте было минимальным: люди написали лишь около 1,3% от общего объема токенов, задавая общие высокоуровневые рамки исследования [2:10].

## 🧬 Уникальный конвейер: интеграция ESM, AlphaFold и Rosetta
[[JUMP:6:48]]

Главным достижением ИИ-лаборатории стала не просто генерация идей, а создание принципиально нового вычислительного конвейера (workflow) [7:00]. Агенты объединили три мощных инструмента, которые ранее использовались в биологии разрозненно:

1.  ESM (Evolutionary Scale Modeling) — крупную белковую языковую модель, обученную на миллионах эволюционных последовательностей [15:21].
2.  AlphaFold Multimer — модель для предсказания трехмерной структуры белковых комплексов [18:50].
3.  Rosetta — физико-химический инструмент для оптимизации структуры и расчета энергии связывания молекул [19:16].

По словам Джеймса Цзоу, агенты не просто соединили эти программы, но и внесли локальные модификации в их математический аппарат [12:40]. Так, для модели ESM они разработали новую формулу расчета отношения правдоподобия (likelihood ratio) для оценки стабильности белков при последовательном внесении мутаций [16:14].

Конвейер работал следующим образом:

*   На первом этапе ESM оценивала базу мутаций дикого типа нанотела, отбирая наиболее стабильные варианты [18:37].
*   На втором этапе AlphaFold Multimer строила 3D-модель взаимодействия нанотела со спайк-белком вируса [19:02].
*   На третьем этапе Rosetta корректировала геометрию структуры с учетом законов физики и рассчитывала энергию связывания [19:16].

Система рассчитывала взвешенный балл по всем трем параметрам и провела четыре итерационных раунда отбора [19:42]. В результате было спроектировано более 90 перспективных кандидатов [2:10]. Физические эксперименты в Chan Zuckerberg Biohub подтвердили, что два нанотела обладают высочайшим терапевтическим потенциалом: они эффективно нейтрализуют новые варианты коронавируса (включая штамм JN.1), сохраняя при этом активность против ранних версий [2:10], [38:17].

## 👥 Социальная динамика ИИ: вежливые оппоненты и параллельные миры
[[JUMP:23:35]]

Архитектура Virtual Lab симулирует реальные процессы взаимодействия в академических группах Стэнфордского университета [24:40]. Агенты общаются между собой на естественном языке, проводя встречи двух типов: групповые планерки и индивидуальные консультации «один на один» [24:28]. В конце каждой сессии «ИИ-профессор» формирует протокол собрания (meeting minutes) и отправляет его человеку-куратору [28:19].

Уникальное преимущество цифровой лаборатории заключается в ее масштабируемости и скорости. Пока живые ученые пьют кофе перед началом работы, ИИ успевает провести сотни виртуальных совещаний [36:04]. Для повышения точности решений команда внедрила концепцию параллельных встреч:

*   Каждый ключевой вопрос обсуждается в пяти параллельных сессиях одновременно [36:16].
*   Разные «параллельные миры» могут приходить к разным выводам, подобно тому, как группа людей принимает разные решения в разные дни [36:16].
*   «ИИ-профессор» анализирует логи всех пяти дискуссий и формирует итоговый консенсус [36:54].

Профессор Джеймс Цзоу отмечает интересную социологическую деталь: из-за обучения с подкреплением на основе отзывов людей (RLHF) ИИ-агенты ведут себя излишне вежливо [43:44]. «ИИ-критик» часто сглаживает углы, вместо того чтобы прямо заявить коллеге о несостоятельности его идеи [45:04]. В будущих версиях ученые планируют протестировать более «агрессивных» критиков, не заботящихся о чувствах других агентов, чтобы проверить, повысит ли это продуктивность науки [45:18]. Весь проект обошелся лаборатории менее чем в 100 долларов США в пересчете на API-запросы OpenAI [37:22].

## 🔍 InterPLM и разреженные автокодировщики: взлом «черного ящика» белков
[[JUMP:2:37]]

Если Virtual Lab — это инструмент для планирования и интеграции, то второй проект лаборатории, InterPLM, нацелен на фундаментальные научные открытия через интерпретацию нейросетей [2:37]. Ученые применили метод разреженных автокодировщиков (Sparse Autoencoders, SAE) к белковой языковой модели ESM-2 [2:49], [46:36].

Белковые языковые модели обучаются исключительно на линейных последовательностях аминокислот, представляющих собой «тексты» из аминокислотных остатков [47:41]. В этих данных нет явной информации о трехмерной структуре или функциях белков [51:33]. Тем не менее, проходя обучение на эволюционном масштабе данных, модели неявно выстраивают сложную «грамматику» биологии в своих эмбеддингах [47:54].

Применив SAE к скрытым слоям модели, исследователи выделили около 10 000 дискретных признаков (features) [51:47]. Анализ показал, что около 2500 из них поддаются прямой человеческой интерпретации [51:47]. Эти признаки разделились на три категории [53:44]:

*   Последовательные (sequential) — активируются на конкретных участках линейной аминокислотной цепи.
*   Структурные (structural) — реагируют на пространственно сближенные аминокислоты, которые находятся далеко друг от друга в линейной цепи, но физически соприкасаются при сворачивании белка [54:10].
*   Концептуальные (conceptual) — активируются при анализе целых белков, определяя их функциональный класс или роль в организме.

## 💡 Открытие нового белкового мотива: ИИ знает больше, чем человек
[[JUMP:3:02]]

Главная ценность проекта InterPLM заключается в том, что он доказывает способность машинного обучения обнаруживать природные закономерности, которые до сих пор не были известны человечеству [3:15]. При анализе скрытых признаков ESM-2 автокодировщик зафиксировал паттерны, соответствующие как минимум одному абсолютно новому белковому мотиву (protein motif), который ранее никогда не упоминался в научной литературе [3:15]. Белковый мотив — это устойчивая трехмерная структура белка, повторяющаяся в различных молекулах в природе [55:15].

Для систематической разметки и анализа гигантского массива данных исследователи использовали ИИ-помощника Claude от Anthropic [56:45]. Нейросеть автоматически сопоставляла данные активаций с существующими биологическими базами данных, помогая идентифицировать белые пятна в наших знаниях [56:45]. Результаты работы выложены в открытый доступ на интерактивном портале `interplm.ai`, где каждый ученый может визуализировать скрытые концепты в 3D-формате [56:07]. По мнению Джеймса Цзоу, существующие модели уже содержат в себе настоящую «золотую жилу» скрытых биологических знаний, и задача ученых — извлечь их с помощью методов интерпретируемости [0:24].

## 🔮 Пределы возможностей и будущее биологии
[[JUMP:58:29]]

Отвечая на вопрос о границах применимости новых методов, Джеймс Цзоу подчеркивает, что биологический ИИ все еще сталкивается с жестким дефицитом данных в ряде областей, таких как малые молекулы и внутренне неупорядоченные белки (disordered proteins) [59:23]. В этих сферах прогресс сдерживается не вычислительными мощностями, а отсутствием достаточного объема надежной экспериментальной информации [59:23].

Тем не менее, комментируя прогнозы генерального директора Anthropic Дарио Амодеи о возможном наступлении «сжатого века открытий» (когда за 5–10 лет биология благодаря ИИ пройдет путь, эквивалентный 100 годам развития) [42:35], профессор Цзоу выражает оптимизм [42:49]. По его мнению, сближение систем ИИ-рассуждений с прорывными методами клеточных измерений действительно способно радикально ускорить научный прогресс в ближайшее десятилетие [42:49]. Следующим шагом его лаборатории станет переход от молекулярного масштаба к многоуровневому (multiscale) моделированию на уровне целых клеток, тканей и органов человека [1:00:16].