Джанет Торнтон: „AlphaFold решил проблему свернутого белка, а не сворачивания“

Искусственный интеллект совершает революцию в фундаментальной науке, меняя подходы к сложнейшим биологическим исследованиям. Программа машинного обучения AlphaFold от лаборатории DeepMind смогла предсказать структуру миллионов белков, решив задачу, над которой ученые бились более полувека. В интервью для Королевского института (The Royal Institution) всемирно известный биоинформатик Джанет Торнтон рассказывает об истории этой научной проблемы, значении открытых данных и о том, почему успех ИИ — это лишь начало долгого пути в понимании динамики живых систем.

🧬 От шнурков до фабрики жизни: что такое белки 4:06

Каждая клетка живого организма наполнена белками, которые определяют практически все жизненно важные процессы. Как объясняет Джанет Торнтон, за исключением молекул ДНК, переносящих генетическую информацию из поколения в поколение, белки делают в организме абсолютно всю работу. Внешне человек состоит преимущественно из белковых структур — это волосы, ногти и кожа. На внутреннем уровне белки функционируют как молекулярная фабрика: ферменты катализируют биохимические реакции, антитела обеспечивают иммунную защиту, а другие специализированные белки участвуют в синтезе новых белковых цепочек, позволяя развиваться человеку, дереву или синему киту.

Несмотря на свою сложность, эти биологические макромолекулы имеют ничтожно малые физические размеры. Торнтон приводит наглядную аналогию: если взять обычную пластиковую кредитную карту, то в пределах ее толщины можно вертикально уложить друг на друга около 8000 отдельных белковых молекул.

Основой любого белка является уникальная линейная цепочка из 20 видов аминокислот. Внутри клетки эта цепочка естественным образом, практически без посторонней помощи, сворачивается в компактную трехмерную глобулярную структуру. Именно пространственная 3D-форма полностью определяет функцию белка; если цепочка развернута или свернута неправильно, молекула теряет работоспособность. Более того, по словам Торнтон, такие тяжелые патологии, как деменция, вызываются именно процессами аномального разворачивания или агрегации белков в головном мозге. Понимание точной геометрии этих молекул критически важно для науки — от разработки точечных лекарственных препаратов до создания ферментов, способных утилизировать пластиковые отходы.

🏆 «Олимпиада» CASP и революционный прорыв ИИ 12:21

История попыток разгадать загадку сворачивания белков началась еще в 1963 году, когда в Кембридже экспериментально расшифровали структуру первого белка. С тех пор исследователи пытались понять, как по линейной формуле предсказать итоговую трехмерную форму. Джанет Торнтон демонстрирует эту задачу с помощью простого шнурка для обуви: зная химический состав, необходимо математически рассчитать, во что именно он превратится. Проблема традиционно разделялась на два направления:

Изучение самого динамического процесса сворачивания во времени.
Предсказание финальных статических координат каждого атома в свернутом состоянии.

Когда Торнтон только начинала свою научную карьеру около 50 лет назад, мировому сообществу было известно всего 20 белковых структур. Будучи физиком по образованию, она была очарована их математической красотой и симметрией, напоминающей лепестки цветов. В качестве примера Торнтон демонстрирует физическую модель фермента TIM barrel (триозофосфатизомераза), обладающего идеальной восьмикратной симметрией, где каталитическая реакция происходит строго на одном из концов этого белкового «бочонка». Долгое время физико-химические симуляции на компьютерах пытались воссоздать сам процесс сворачивания, и Торнтон признается, что считала предсказание финальной структуры невозможным без понимания этого промежуточного пути. Однако появление алгоритмов ИИ доказало ошибочность этого мнения: нейросети научились выдавать готовые координаты напрямую из химической последовательности, минуя расчет этапов сворачивания.

Чтобы упорядочить исследования и исключить ложные заявления о «решении проблемы», которые регулярно появлялись в научных публикациях, в США под руководством Джона Моулта было создано соревнование CASP (Comparative Assessment of Structure Predictions) — своего рода Олимпийские игры по предсказанию белковых структур. Каждые два года независимые эксперты выдавали командам вычислителей химические формулы еще не опубликованных белков, а те должны были прислать свои варианты 3D-моделей. Долгое время успехи были скромными: ученые неплохо справлялись, если структура была похожа на уже известный эволюционный аналог, но пасовали перед принципиально новыми белками. Торнтон вспоминает, что к 1990 году зашла в тупик в этой гонке и переключила свое внимание на функции и эволюцию макромолекул.

Ситуация кардинально изменилась в 2018 году, когда в CASP впервые приняла участие лаборатория DeepMind со своей первой версией AlphaFold. Использование машинного обучения обеспечило за один сезон больший прогресс, чем за все предшествующие десять лет. Настоящий триумф случился в 2020 году: полностью переработав алгоритмы и внедрив передовые архитектуры ИИ, команда DeepMind показала выдающийся результат, выдав лучшие и беспрецедентно точные предсказания для более чем 90% предложенных на конкурсе белковых структур.

🔬 От рентгена до базы данных: история накопления знаний 17:42

Джанет Торнтон подчеркивает, что успех AlphaFold не был изолированным чудом программирования; он всецело опирался на колоссальный массив данных, собранный поколениями биологов-экспериментаторов. Обучение нейросети стало воплощением работы Protein Data Bank (PDB) — глобального банка данных, основанному еще в 1973 году. К моменту триумфа DeepMind в этой базе содержалось около 170 тысяч верифицированных, детально аннотированных структур. Именно этот чистый и валидированный массив информации послужил идеальным тренировочным полигоном для ИИ.

Исторические корни этих открытий уходят в лаборатории самого Королевского института (The Royal Institution), где зарождался метод рентгеновской кристаллографии под руководством тандема отца и сына — Уильяма Генри Брэгга и Уильяма Лоуренса Брэгга. Позже технологию развивала целая плеяда великих ученых: Макс Перутц, Дороти Ходжкин, Кэтлин Лонсдейл, Розалинд Franklin, Джеймс Уотсон и Фрэнсис Крик. Торнтон делится воспоминаниями о своем постдоке в Оксфорде в лаборатории лорда Дэвида Филлипса, который ранее именно в Королевском институте расшифровал структуру лизоцима — самого первого в истории изученного фермента.

В те годы определение структуры всего лишь одного белка представляло собой титанический труд, занимавший от 5 до 10 лет работы нескольких аспирантов без каких-либо гарантий успеха. Профессор Луиза Джонсон, работавшая над крупным белком, была вынуждена использовать стремянки, чтобы дотягиваться до верхних отделов «ящика Ричардса» — специального оптического прибора для ручной сборки физической модели. Полученные координаты каждого атома затем вручную набивались на клавиатуре компьютера, что создавало колоссальные риски для технических ошибок. Сегодня на смену этому пришли автоматизированное секвенирование и криоэлектронная микроскопия, позволяющая визуализировать молекулы без необходимости выращивания кристаллов.

Когда потенциал AlphaFold стал очевиден, возник вопрос о судьбе предсказанных данных, ведь DeepMind является коммерческим подразделением корпорации Google. К счастью, руководство компании принято решение сделать результаты публичным достоянием. В результате соглашения между главой DeepMind и генеральным директором EMBL Эдит Херд, коммерческий гигант профинансировал создание открытой базы данных на платформе Европейского института биоинформатики (EMBL-EBI), где Торнтон долгие годы работала директором. В этой базе, курируемой Самиром Веланкаром, сейчас находится свыше 200 миллионов структур белков, охватывающих весь протеом человека и модели более миллиона биологических видов. Любой биохимик мира может бесплатно скачать нужные координаты и использовать их в работе.

💊 Эволюция алгоритма: AlphaMissense и дизайн лекарств 27:03

Развитие систем ИИ от DeepMind не остановилось на статичных моделях. В сентябре текущего года компания представила инструмент AlphaMissense, призванный решать принципиально иную медицинскую задачу — прогнозировать влияние точечных генетических изменений (миссенс-мутаций) в ДНК на структуру кодируемых белков. В онкологии или при анализе врожденных нарушений развития у детей критически важно быстро понять, является ли конкретная мутация в миллиардах пар оснований генома доброкачественной или патогенной.

Однако, по мнению Джанет Торнтон, AlphaMissense пока не повторила оглушительного триумфа оригинального AlphaFold. Биология на этом уровне оказывается чрезвычайно сложной и «запутанной»: некоторые мутации выглядят катастрофическими, но не оказывают влияния на организм, тогда как внешне безобидные замены приводят к тяжелым болезням. Один из коллег Торнтон охарактеризовал это состояние как «не момент AlphaFold», указывая на то, что в этой области произошел заметный качественный шаг вперед, но не случилось мгновенной революции из-за дефицита и высокой сложности интерпретации обучающих данных.

Еще одним важнейшим шагом стал октябрьский анонс новейшей версии AlphaFold. Дело в том, что оригинальная модель рассчитывала «голые» белковые цепи без учета лигандов — малых молекул, коферментов и ионов металлов (таких как цинк или магний), которые в реальной клетке стабилизируют белок и обеспечивают его работу. То, что первая AlphaFold умудрялась выдавать правильную форму без учета этих критических элементов, доказывает: система не оперирует законами физики и химии, а виртуозно копирует паттерны из базы PDB. Новая модификация алгоритма способна моделировать:

Взаимодействие белков со сложными молекулами ДНК;
Связывание с малыми молекулами (лигандами);
Белковые комплексы из нескольких одинаковых или разных субъединиц (димеры, тетрамеры) через модуль AlphaFold Multimer.

Работа с лигандами сопряжена с огромными трудностями для ИИ. Если белки предсказуемы благодаря стандартному набору аминокислот, то малые молекулы бесконечно разнообразны. Даже при небольшом размере (30–40 атомов против 3000 в белке) они ведут себя крайне «недисциплинированно». Чтобы преодолеть это, разработчики внедряют в систему правила органической химии, извлеченные из Кембриджского банка структурных данных (CCDC). Успех этого направления имеет колоссальное коммерческое и медицинское значение, открывая прямую дорогу к автоматизированному компьютерному дизайну высокоэффективных лекарств. Учитывая, что у человека насчитывается чуть более 20 тысяч белков и функции многих из них до сих пор не ясны, ИИ может помочь точно определить их природные субстраты.

☣️ Биотерроризм, динамика и «проблема свернутого белка» 36:36

Как и любая мощная технология, ИИ в молекулярной биологии несет в себе скрытые угрозы. Джанет Торнтон выражает серьезную обеспокоенность тем, что развитие методов компьютерного проектирования белков (protein design) может быть использовано злоумышленниками для искусственного создания опасных штаммов и патогенов. По этой причине база данных AlphaFold намеренно полностью исключает какую-либо информацию о вирусных структурах. В более широком контексте Торнтон призывает к максимальной осторожности при внедрении ИИ в клиническую медицину, где алгоритмы будут обрабатывать огромные массивы персональных данных пациентов для диагностики и прогнозирования болезней. Тем не менее, исследователь смотрит на будущее оптимистично и считает, что в ближайшие 10–20 лет эти подходы радикально изменят качество лечения.

В завершение дискуссии Торнтон отвечает на фундаментальный вопрос: можно ли считать проблему сворачивания белка окончательно решенной? Ее ответ категоричен: нет, не решена. Биоинформатик подчеркивает концептуальную разницу:

«AlphaFold решил не проблему сворачивания белка (protein folding problem), она решила проблему свернутого белка (protein folded problem)».

Нейросеть предоставляет исследователям итоговые статические координаты атомов, но она не дает понимания фундаментальных законов физики и химии, управляющих самим процессом трансформации цепочки. Главный вызов будущего заключается в том, что белки в живом организме не статичны — они непрерывно движутся, меняют конфигурацию и буквально «дышат». Биологическая функция макромолекулы зачастую напрямую зависит от этих микро- и макроскопических колебаний. AlphaFold пока не умеет моделировать динамические свойства молекул, поэтому, по словам Торнтон, триумф искусственного интеллекта — это лишь первый шаг на пути к истинному пониманию механизмов жизни.