Джанет Торнтон: «AlphaFold решил проблему свернутого белка, а не сворачивания»

The Royal Institution 33,8 тыс. 43 мин 7 мин 18.12.2023
Главное

В эпоху стремительного развития искусственного интеллекта технологии начинают радикально менять ландшафт фундаментальной науки. В рамках подкаста RI Science Podcast ведущая Лиза и всемирно известный эксперт в области биоинформатики Джанет Торнтон обсудили революционную программу машинного обучения AlphaFold от компании DeepMind. Этот алгоритм совершил переворот в биохимии, предсказав трехмерную структуру сотен миллионов белков и открыв новые горизонты для медицины и фармакологии.

🧬 Революционный прорыв в биохимии 2:32

Программа машинного обучения AlphaFold, запущенная в 2018 году, произвела настоящий фурор в научном сообществе. По оценке авторитетного журнала Forbes, этот проект стал самым важным достижением в области искусственного интеллекта за всю историю его существования. Главная заслуга алгоритма заключается в успешном решении проблемы сворачивания белка, которая оставалась неразрешимой для исследователей с 1960-х годов.

До появления AlphaFold мировая наука располагала данными о структурах лишь около 200 тысяч белков, полученных экспериментальным путем. Программа от DeepMind совершила колоссальный скачок, предсказав трехмерную структуру для более чем 200 миллионов белков. Сегодня вся эта огромная база данных размещена в Европейском институте биоинформатики (EMBL-EBI) и находится в открытом доступе для ученых со всего мира. Теперь любая биохимическая лаборатория может мгновенно узнать структуру интересующего ее белка с высокой степенью уверенности в точности результата.

🧱 Микромир белков и загадка «сворачивания» 4:06

Белки — это фундаментальные строительные блоки, которые выполняют практически всю работу в живых организмах. Исключением является лишь ДНК, которая просто хранит и передает генетическую информацию из поколения в поколение. Внутренние процессы нашего тела полностью зависят от белковых молекул.

Основные функции белков включают в себя:

Размеры этих молекул ничтожно малы, несмотря на их сложную структуру. Джанет Торнтон приводит наглядное сравнение: если взять обычную пластиковую кредитную карту, то в пределах ее толщины можно вертикально уложить около 8000 белковых молекул, поставленных друг на друга.

Суть проблемы сворачивания белка заключается в следующем. Каждый белок представляет собой уникальную линейную цепочку из 20 видов аминокислот. В живой клетке эта цепочка естественным образом сворачивается в сложную трехмерную глобулярную форму, которая и определяет выполняемую белком функцию. Если белок развернется или свернется неправильно, он теряет работоспособность. Более того, по словам Торнтон, такие аномалии лежат в основе тяжелых заболеваний, включая деменцию.

Эксперт подчеркивает важный нюанс: AlphaFold не решает классическую загадку динамики сворачивания, то есть сам физико-химический процесс перехода цепочки в финальную форму. Программа прогнозирует исключительно конечные координаты атомов уже свернутой молекулы. Когда Джанет Торнтон начинала свою научную деятельность 50 лет назад, человечеству было известно всего 20 белковых структур, которые восхищали ее своей сложной природной симметрией, напоминающей лепестки цветов.

🏆 От «Олимпийских игр» биоинформатики до триумфа DeepMind 12:07

Попытки предсказать строение белков с помощью компьютеров велись с 1970-х годов. На протяжении десятилетий многие ученые заявляли в научных публикациях об успешном решении задачи, однако проверки неизменно опровергали их громкие выводы. Чтобы отделить реальные достижения от ложных, Джон Молт с коллегами организовали международный конкурс CASP (Critical Assessment of Structure Prediction), ставший своеобразными «Олимпийскими играми» для вычислительной биологии. Раз в два года командам программистов выдавались аминокислотные последовательности, и они должны были рассчитать их финальную форму для последующей сверки с реальными лабораторными тестами.

Долгое время алгоритмы давали хорошие результаты только тогда, когда в их распоряжении уже имелась структура близкородственного эволюционного белка. Если же структура была принципиально новой, компьютерные методы оказывались бессильны. Прогресс шел крайне медленно, пока в 2018 году в конкурсе впервые не приняла участие команда DeepMind со своими технологиями искусственного интеллекта.

Настоящая революция произошла в 2020 году, когда обновленный алгоритм AlphaFold показал феноменальные результаты, выдав лучшие предсказания для более чем 90% тестовых структур на конкурсе CASP. Этот успех стал возможен благодаря двум ключевым факторам:

  1. Уникальной экспертизе инженеров DeepMind в сфере передовых нейросетевых архитектур.
  2. Наличию колоссального массива качественных обучающих данных.

Джанет Торнтон напоминает, что ИИ использовался в этой сфере еще с начала 1990-х годов (включая ее собственные работы с нейросетями). Однако ключевым фундаментом для триумфа AlphaFold стала Всемирная база данных белков (Protein Data Bank, PDB), основанная в 1973 году. К моменту прихода DeepMind в ней скопилось около 170 тысяч верифицированных и строго структурированных экспериментальных моделей, на которых нейросеть смогла успешно обучиться.

🏛️ От лабораторий Royal Institution до открытой базы данных 17:42

Развитие визуализации белков имеет глубокие исторические корни. Истоки рентгеновской кристаллографии — метода, позволившего впервые «увидеть» молекулы, — неразрывно связаны со стенами The Royal Institution, где работали нобелевские лауреаты Уильям Генри Брэгг и Уильям Лоуренс Брэгг. Позже эту технологию развивала целая плеяда гениальных ученых: Макс Перутц, Дороти Ходжкин, Кэтлин Лонсдейл, Розалинд Франклин, Крик и Уотсон. Профессор Дэвид Филлипс, под руководством которого Торнтон проходила постдокторантуру в Оксфорде, именно в стенах Royal Institution расшифровал структуру лизоцима — первого в истории изученного фермента.

В те годы определение структуры всего одного белка превращалось в колоссальный многолетний труд:

Сегодня ситуация кардинально изменилась не только благодаря AlphaFold, но и за счет развития криоэлектронной микроскопии, позволяющей изучать молекулы без их кристаллизации.

Важнейшей вехой стало решение DeepMind сделать результаты своей работы достоянием всего человечества. Будучи коммерческим подразделением Google, компания могла засекретить данные. Однако в результате переговоров между главой DeepMind, генеральным директором EMBL Эдит Херд и руководителем протеомных проектов Самиром Веланкаром, было достигнуто соглашение о сотрудничестве. DeepMind выделила финансирование Европейскому институту биоинформатики для создания и поддержки открытой базы данных AlphaFold. Джанет Торнтон подчеркивает, что свободный обмен информацией создал замкнутый «благородный цикл» науки: исследователи делятся данными, ИИ обущается на них, а затем бесплатно возвращает результаты всему мировому сообществу.

🚀 Эволюция алгоритма: AlphaMissense и лиганды 26:50

Проект DeepMind продолжает развиваться. В сентябре 2023 года была запущена система AlphaMissense, нацеленная на решение иной, но не менее важной медицинской задачи. Вместо предсказания формы белка она анализирует последствия генетических мутаций (вариантов) в ДНК, которые меняют аминокислотный состав молекул.

Подобные мутации могут приводить к опасным последствиям:

Своевременное выявление патогенных мутаций критически важно. Секвенирование генома ребенка дает колоссальный массив информации, среди которого нужно отыскать всего одну-две опасные мутации. Задача AlphaMissense — определить, является ли конкретный генетический вариант безопасным (доброкачественным) или болезнетворным (патогенным). Впрочем, Джанет Торнтон отмечает, что биология невероятно хаотична: некоторые пугающие на вид мутации оказываются безвредными, а безобидные — фатальными. По словам ее коллеги, запуск AlphaMissense пока не стал «моментом AlphaFold», поскольку точность предсказаний выросла, но качественного скачка не произошло из-за дефицита и сложности интерпретации клинических данных.

Следующим большим шагом стал анонс новой версии AlphaFold в конце октября 2023 года. Предыдущие модели нейросети рассчитывали белки в «изоляции», без учета лигандов — мелких сопутствующих молекул, ионов металлов (цинка, магния) или молекул АТФ, которые стабилизируют белок в реальности. Тот факт, что AlphaFold успешно угадывал форму белков без учета этих факторов, доказывает, что алгоритм опирается не на законы физики и химии, а на изощренное копирование ранее увиденных паттернов из базы PDB. Новая версия призвана моделировать белки в комплексе с лигандами, цепочками ДНК, а также в форме мультимеров (димеров и тетрамеров) — сложных белковых ансамблей. По мнению эксперта, это открывает колоссальные коммерческие перспективы для точечной разработки лекарств под конкретные мишени в организме человека, насчитывающем более 20 тысяч различных белков.

⚠️ Риски ИИ и нерешенные загадки биологии 36:24

Любой мощный технологический прорыв несет в себе как пользу, так и скрытые угрозы. Как признает Джанет Торнтон, методы искусственного интеллекта могут быть использованы не только во благо, но и во вред — например, для направленного проектирования опасных вирусов или токсичных белков. Именно по этой причине разработчики приняли решение полностью исключить данные о вирусах из публичной базы AlphaFold. В то же время Торнтон ожидает, что в ближайшие 10–20 лет ИИ произведет революцию в доказательной медицине, позволяя с высокой точностью ставить диагнозы и прогнозировать течение болезней на основе анализа больших медицинских данных при условии строгого соблюдения конфиденциальности пациентов.

Отвечая на вопрос о том, решил ли AlphaFold многолетнюю проблему науки, биоинформатик дает дипломатичный ответ. По мнению Торнтон, алгоритм справился не с проблемой «сворачивания белка» (protein folding), а с проблемой «свернутого белка» (protein folded).

Джанет Торнтон выделяет следующие ограничения ИИ в биологии на текущий момент:

Таким образом, триумф AlphaFold — это не финал исследований, а лишь рассвет новой эпохи в понимании механизмов живой природы.

💬 Цитаты

«В моей терминологии AlphaFold не решил проблему сворачивания белка, он решил проблему свернутого белка.»

Джанет Торнтон 40:42

«Мы знаем, что такие вещи, как деменция, вызываются разворачиванием белков в головном мозге. И этот процесс сворачивания действительно является центральным для жизни.»

Джанет Торнтон 07:49
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Лиганд
Небольшая химическая молекула, ион или кофермент, которая специфически связывается с белком для обеспечения его стабильности или активности.
Рентгеновская кристаллография
Метод определения трехмерной структуры молекул, основанный на анализе дифракции рентгеновских лучей, проходящих через кристалл вещества.
Мультимер
Сложный белковый комплекс, состоящий из нескольких индивидуальных белковых цепочек (субъединиц).
Аминокислоты
Органические соединения, служащие мономерами, из последовательности которых строятся все полипептидные цепи белков.
📊 Цифры
🗓 Хронология
  1. 1963 В Кембридже учеными впервые в истории была успешно расшифрована пространственная структура белка.
  2. 1973 Основана Всемирная база данных белков (Protein Data Bank, PDB), ставшая основой для накопления структурных данных.
  3. 2001-2015 Джанет Торнтон занимает пост директора Европейского института биоинформатики (EMBL-EBI).
  4. 2018 DeepMind впервые представляет первую версию AlphaFold на международном конкурсе предсказания структур CASP.
  5. 2020 AlphaFold 2 производит триумф на конкурсе CASP, решив задачу прогнозирования формы белка с точностью до атома.
  6. Сентябрь 2023 DeepMind запускает AlphaMissense — инструмент на базе ИИ для оценки опасности генетических мутаций.
  7. Октябрь 2023 Анонсировано новейшее поколение AlphaFold, способное моделировать лиганды, ионы металлов и молекулы ДНК.
⚖️ Другая сторона
Биология и медицина AlphaFold Джанет Торнтон DeepMind биоинформатика