Амели Шрайбер: «Машина движется очень быстро, всё меняется за полгода»

The Cognitive Revolution 17,5 тыс. 1 ч 45 мин 10 мин 14.12.2024
Главное

В новом выпуске подкаста «The Cognitive Revolution» ведущий обсуждает тектонические сдвиги в области ИИ для биологии с вычислительным биохимиком и исследователем искусственного интеллекта Амели Шрайбер. Всего за шесть месяцев со времени их прошлой встречи индустрия совершила масштабный рывок от предсказания статических форм к полноценному моделированию молекулярной динамики. Главным вектором развития становится переход от единичных нейросетей к сложным ИИ-агентным экосистемам, способным полностью автоматизировать дизайн новых лекарств и ферментов под конкретные нужды биотеха.

🏆 Нобелевский триумф Дэвида Бейкера и скрытая история ИИ-биохимии 7:11

Присуждение Нобелевской премии по химии Дэвиду Бейкеру стало важнейшей вехой для мирового научного сообщества. По мнению Амели Шрайбер, в массовой культуре и мейнстримных медиа возник определенный перекос: проект AlphaFold от DeepMind получил несоразмерно больше хайпа, тогда как многолетние заслуги лаборатории Бейкера часто упоминались лишь вскользь. Собеседники сошлись во мнении, что это несправедливо, поскольку Бейкер занимался дизайном белков задолго до появления AlphaFold, используя строгие физические и химические методы расчета.

Ситуация радикально изменилась, когда лаборатория Бейкера интегрировала нейросети в свои процессы. Практически одновременно с релизом AlphaFold 2 они создали собственную архитектуру предсказания структур RosettaFold 2, а затем пошли еще дальше, адаптировав её в мощную диффузионную модель RF Diffusion. Этот инструмент, по биохимическим меркам существующий уже «целую вечность» — около двух с половиной лет — до сих пор остается незаменимым стандартом в индустрии для генерации белковых скелетов.

Всплеск ИИ-технологий затронул не только биологию. Амели Шрайбер подчеркивает знаковую деталь: в текущем году сразу пять нобелевских лауреатов в категориях физики и химии получили свои награды за решения, опирающиеся на методы искусственного интеллекта. По словам исследовательницы, несмотря на обилие рыночного шума, реальный технологический сигнал в биохимии невероятно силен, и человечество находится лишь у самого подножия экспоненциальной кривой роста.

🧬 Новые горизонты AlphaFold 3 и барьеры закрытого кода 11:47

Вышедшая на арену модель AlphaFold 3 расширила парадигму предсказания структур. В отличие от предшественников, она способна моделировать сложные комплексы, включающие в себя не только белки, но также РНК, ДНК, малые молекулы и даже металлические ионы. По оценке Амели Шрайбер, включение ионов потенциально открывает колоссальные возможности для моделирования защитных систем и сетей взаимодействий, хотя качество этих вычислений еще предстоит тщательно протестировать на практике.

Однако у этого прорыва есть и обратная, прагматичная сторона. Из-за политики разработчиков AlphaFold 3 не имеет открытого исходного кода на GitHub. Доступный коммерческий API накладывает жесткие лицензионные ограничения: исследователи не могут использовать модель непосредственно в пайплайнах создания лекарств, если планируют патентовать молекулы или выводить их на рынок. Полноценно применять инструмент сейчас разрешено лишь академическим ученым в рамках чистой науки, полностью выведенной за рамки коммерческой машины извлечения прибыли.

Ведущий подкаста привел расчетную оценку, согласно которой на текущий момент человечество картировало и детально понимает лишь от 5% до 10% всех межмолекулярных взаимодействий внутри живой клетки. В ответ на вопрос о возможности тотального «брутфорса» — массового цифрового перебора всех потенциальных связей — Амели Шрайбер подтвердила, что подобные попытки уже предпринимаются. Модифицированная, облегченная версия RosettaFold от лаборатории Бейкера была запущена для анализа всего человеческого протеома. Модель успешно спрогнозировала множество ранее неизвестных парных взаимодействий, продемонстрировав высокую точность и отличные показатели на кривой полноты и точности (Precision-Recall).

🔍 Проблема MSA и эволюционный поиск в «сумеречной зоне» белков 19:21

Стандартный современный воркфлоу цифрового дизайна выглядит следующим образом: исследователь берет белковую мишень, генерирует форму связующего агента (биндера) через RF Diffusion, рассчитывает аминокислотные последовательности с помощью ProteinMPNN или Лиганного MPNN (LigandMPNN), а затем валидирует результат через AlphaFold. На этапе фильтрации кандидатов ключевую роль играет карта предсказанной выровненной ошибки (PAE score): вычисление среднего значения PAE на интерфейсе связывания помогает отсеять неэффективные варианты.

Главным «бутылочным горлышком», радикально замедляющим этот высокопроизводительный скрининг, Амели Шрайбер называет процедуру построения множественных выравниваний последовательностей (MSA). Расчет MSA требует колоссального времени, особенно когда речь заходит о так называемых белках «сумеречной зоны» (Twilight Zone proteins). Это уникальные последовательности с крайне низкой степенью идентичности к другим известным белкам, для которых физически невозможно выстроить глубокое выравнивание стандартными методами поиска гомологов.

Для преодоления этого тупика Амели Шрайбер разрабатывает и тестирует оригинальный подход:

Поскольку пространственная структура белков в эволюции сохраняется гораздо лучше, чем их текстовая последовательность, этот метод позволяет улавливать скрытые структурные сходства. Если тестирование подтвердит высокую скорость алгоритма, биохимики получат инструмент сквозного скрининга интерактомов без изнурительного вычисления классических MSA.

🎬 Молекулярное кино: переход к динамике с моделями MDGen и EnzymeFlow 34:57

Любое статическое предсказание белковых форм, включая AlphaFold 3, фундаментально ограничено при решении сложных инженерных задач — например, при деново проектировании искусственных ферментов. Катализ по своей природе является динамическим процессом. По словам Амели Шрайбер, исследования доказывают, что для успешного прохождения химической реакции критически важна не только геометрия активного центра, но и подвижность белковой цепи в радиусе до 20 ангстрем вокруг него.

Современный стек инструментов для создания ферментов претерпел качественную эволюцию:

  1. EnzymeFlow: генеративная модель на базе потокового сопоставления (Flow Matching), которая создает каталитические карманы с нуля, опираясь на заданный тип химической реакции и классификационный номер фермента (EC-номер).
  2. RF Diffusion: «достраивает» полноценный объемный белковый каркас вокруг сгенерированного активного центра.
  3. LigandMPNN: подбирает оптимальную аминокислотную последовательность, учитывая параметры молекулы-субстрата.
  4. ChemNet: рассчитывает конформационный ансамбль полученного комплекса и оценивает стабильность боковых цепей, ранжируя наиболее жизнеспособные дизайны.

Настоящим технологическим прорывом в этой цепочке Амели Шрайбер считает модель MDGen. Это генеративная нейросеть потокового сопоставления, которую исследовательница метафорически называет «молекулярной нейросетью Sora». Обученная на датасете Atlas, MDGen способна генерировать полноценные траектории движения атомов на основе единственного статического снимка белка.

Уникальный функционал MDGen включает в себя возможности, недоступные классической физико-математической молекулярной динамике:

Главное преимущество нейросетевого подхода — скорость. MDGen выполняет расчеты примерно в 1000 раз быстрее традиционных численных методов решения волновых уравнений на суперкомпьютерах. Симуляция, которая раньше требовала месяца вычислений, теперь завершается за несколько часов. По мнению Шрайбер, незначительная потеря точности полностью компенсируется возможностью проверять тысячи альтернативных гипотез в высокопроизводительном режиме, что неизбежно отвоюет огромный кусок рынка у классического софта для молекулярного моделирования.

⚙️ Проектирование наномеханизмов: стереоселективность и молекулярное оружие 51:07

Ведущий подкаста предложил аналогию, сравнив работу сложных ферментов с конвейерной сборочной линией, где каждый элемент должен двигаться в строгой последовательности. В живой клетке ферменты выступают в роли пространственных манипуляторов: они захватывают молекулы, сближают их в жестко заданной геометрии и заставляют реагировать при комнатной температуре, не убивая клетку экстремальным нагревом.

На ежегодной конференции RosettaCon биохимическое сообщество продемонстрировало проекты, которые еще недавно казались чистой научной фантастикой:

Практическая работа инженеров во многом опирается на визуальный анализ PDB-файлов в специализированном софте. Амели Шрайбер отмечает, что вопреки догмам, детальное моделирование динамики требуется далеко не всегда. Если у белка есть известное открытое и закрытое состояния, задача сводится к чистой геометрии: спроектировать жесткий биндер, который сработает как механический замок и заблокирует белок в открытом виде, остановив его биологическую функцию.

💉 Секреты пептидного дизайна: математическая элегантность PepFlow 1:21:20

Исторически фармакология опиралась либо на малые молекулы, либо на массивные антитела. Маленькие цепочки аминокислот — пептиды (обычно менее 30 остатков) — крайне перспективны: они проще и дешевле в производстве, легче проникают в ткани организма, но их невероятно трудно моделировать. Причина кроется в их «неупорядоченности» (disordered peptides): у них нет стабильной вторичной структуры (альфа-спиралей или бета-листов), они постоянно колеблются и ведут себя как свободные нити.

Амели Шрайбер указывает на близкое структурное сходство между свободными неупорядоченными пептидами и вариабельными CDR-петлями антител, отвечающими за распознавание чужеродных антигенов. Прорывом в этой области стал релиз специализированных моделей GoAb (для антител) и PepFlow (для пептидов).

Архитектура PepFlow восхищает исследовательницу своей изощренной математической красотой, поскольку задействует сразу четыре разных типа потокового сопоставления для одновременного ко-дизайна структуры и последовательности:

Тем не менее, Амели Шрайбер призывает к осторожности. В отличие от проверенной временем RF Diffusion, модели GoAb и PepFlow на сегодняшний день лишены масштабной верификации в «мокрой» лаборатории. По её мнению, какими бы впечатляющими ни были сухие цифровые метрики (in silico), консервативное фармацевтическое сообщество не станет массово внедрять эти инструменты без прямых тестов на живых клеточных культурах.

⏳ Эволюционные иллюзии и скрытый потенциал мультимодальной ESM3 1:30:37

Мультимодальная нейросеть ESM3 привлекла колоссальное внимание индустрии, объединив в себе три фундаментальных биологических измерения: последовательность, структуру и функцию белка. Разработчикам удалось доказать силу модели, создав с нуля новый флуоресцентный белок, практически не имеющий близких аналогов в живой природе.

Однако Амели Шрайбер относится к некоторым элементам архитектуры ESM3 критически. В частности, модальность белковой функции была упакована создателями в фиксированный, ограниченный словарь из нескольких сотен дискретных токенов. По мнению исследовательницы, это сильно сдерживает экстраполяционные возможности ИИ. Гораздо более перспективным решением Шрайбер считает подход с открытым словарем (как в модели ProteinDT), где ученый может задавать желаемую функцию белка произвольным текстовым промптом на естественном английском языке, что позволяет гибко смешивать и комбинировать свойства.

Громкое название научной статьи создателей ESM3 — «Моделирование 500 миллионов лет эволюции с помощью языковой модели» — Амели Шрайбер назвала откровенно вводящим в заблуждение. С точки зрения биохимика, реальное моделирование эволюции подразумевает направленный отбор (directed evolution) в цифровой среде, чего авторы не делали: они лишь извлекли удачную удаленную точку из предсказанного белкового пространства.

Куда более захватывающим событием Шрайбер считает недавний независимый релиз от команды нобелевского лауреата Йошуа Бенджио, института Mila и Национального исследовательского совета Канады (NRC). Ученые успешно дообучили ESM3 как диффузионную модель, заставив её эффективно генерировать конформационные ансамбли, добавив статическому гиганту долгожданное измерение молекулярной динамики.

🤖 Восхождение ИИ-агентов: от генерации посредственных статей к управлению биотехом 1:37:03

Обсуждая нашумевшие проекты в духе «AI Scientist» от Sakana AI, обещающие полностью автоматизировать написание научных статей, собеседники проявили здоровый скептицизм. По оценке ведущего и гостя, тексты и гипотезы, которые подобные системы выдают на текущем этапе развития технологий, выглядят весьма посредственно («mid») и пока не угрожают рабочим местам квалифицированных ученых.

Однако Амели Шрайбер призывает смотреть глубже: ценность ИИ лежит вовсе не в генерации финального текста публикации. Настоящая революция, разворачивающаяся прямо сейчас, заключается в создании специализированных мультиагентных систем для управления реальными биохимическими пайплайнами.

В эффективных современных воркфлоу роли распределяются между несколькими компактными ИИ-компонентами:

Эффективность ИИ-дизайна неуклонно растет. Если при классическом поиске биспецифичных биндеров успехом считается получение одного «хита» (рабочей молекулы) на 50 лабораторных тестов (эффективность около 2%), а для сложнейших ферментов результативность может падать до 1 на 1000, то новые коммерческие агентские системы (вроде AlphaProteo от Google DeepMind) демонстрируют точность попадания от 9% до феноменальных 80% в зависимости от сложности мишени.

Переход от слепого перебора к осознанному агентскому проектированию автономен и масштабируем. Главное напутствие Амели Шрайбер молодым специалистам — приходить в индустрию незамедлительно: мир остро нуждается в кадрах, способных строить мосты между алгоритмами машинного обучения и фундаментальной химией жизни.

💬 Цитаты

«В биохимии всё только начинается, мы находимся у самого начала кривой роста.»

Амели Шрайбер 11:32

«Вместо долгого процесса «угадай и проверь» мы переходим к тщательному проектированию под конкретную задачу.»

Амели Шрайбер 1:39:30
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Множественное выравнивание последовательностей (MSA)
Метод сопоставления родственных биопоследовательностей для поиска консервативных участков.
Потоковое сопоставление (Flow Matching)
Генеративный метод машинного обучения, являющийся обобщением диффузии и обеспечивающий более стабильное обучение и быстрый инференс.
Конформационный ансамбль
Набор различных пространственных форм, которые молекула белка принимает в процессе теплового движения.
Белки «сумеречной зоны» (Twilight Zone proteins)
Белковые последовательности с крайне низким уровнем идентичности к известным структурам, но сохраняющие схожую геометрию.
📊 Цифры
⚖️ Другая сторона
Биология и медицина Амели Шрайбер AlphaFold 3 MDGen PepFlow