Джанет Торнтон: „AlphaFold решил проблему свернутого белка, а не сворачивания“

The Royal Institution 33,8 тыс. 43 мин 8 мин 18.12.2023
Главное

Искусственный интеллект совершает революцию в фундаментальной науке, меняя подходы к сложнейшим биологическим исследованиям. Программа машинного обучения AlphaFold от лаборатории DeepMind смогла предсказать структуру миллионов белков, решив задачу, над которой ученые бились более полувека. В интервью для Королевского института (The Royal Institution) всемирно известный биоинформатик Джанет Торнтон рассказывает об истории этой научной проблемы, значении открытых данных и о том, почему успех ИИ — это лишь начало долгого пути в понимании динамики живых систем.

🧬 От шнурков до фабрики жизни: что такое белки 4:06

Каждая клетка живого организма наполнена белками, которые определяют практически все жизненно важные процессы. Как объясняет Джанет Торнтон, за исключением молекул ДНК, переносящих генетическую информацию из поколения в поколение, белки делают в организме абсолютно всю работу. Внешне человек состоит преимущественно из белковых структур — это волосы, ногти и кожа. На внутреннем уровне белки функционируют как молекулярная фабрика: ферменты катализируют биохимические реакции, антитела обеспечивают иммунную защиту, а другие специализированные белки участвуют в синтезе новых белковых цепочек, позволяя развиваться человеку, дереву или синему киту.

Несмотря на свою сложность, эти биологические макромолекулы имеют ничтожно малые физические размеры. Торнтон приводит наглядную аналогию: если взять обычную пластиковую кредитную карту, то в пределах ее толщины можно вертикально уложить друг на друга около 8000 отдельных белковых молекул.

Основой любого белка является уникальная линейная цепочка из 20 видов аминокислот. Внутри клетки эта цепочка естественным образом, практически без посторонней помощи, сворачивается в компактную трехмерную глобулярную структуру. Именно пространственная 3D-форма полностью определяет функцию белка; если цепочка развернута или свернута неправильно, молекула теряет работоспособность. Более того, по словам Торнтон, такие тяжелые патологии, как деменция, вызываются именно процессами аномального разворачивания или агрегации белков в головном мозге. Понимание точной геометрии этих молекул критически важно для науки — от разработки точечных лекарственных препаратов до создания ферментов, способных утилизировать пластиковые отходы.

🏆 «Олимпиада» CASP и революционный прорыв ИИ 12:21

История попыток разгадать загадку сворачивания белков началась еще в 1963 году, когда в Кембридже экспериментально расшифровали структуру первого белка. С тех пор исследователи пытались понять, как по линейной формуле предсказать итоговую трехмерную форму. Джанет Торнтон демонстрирует эту задачу с помощью простого шнурка для обуви: зная химический состав, необходимо математически рассчитать, во что именно он превратится. Проблема традиционно разделялась на два направления:

Когда Торнтон только начинала свою научную карьеру около 50 лет назад, мировому сообществу было известно всего 20 белковых структур. Будучи физиком по образованию, она была очарована их математической красотой и симметрией, напоминающей лепестки цветов. В качестве примера Торнтон демонстрирует физическую модель фермента TIM barrel (триозофосфатизомераза), обладающего идеальной восьмикратной симметрией, где каталитическая реакция происходит строго на одном из концов этого белкового «бочонка». Долгое время физико-химические симуляции на компьютерах пытались воссоздать сам процесс сворачивания, и Торнтон признается, что считала предсказание финальной структуры невозможным без понимания этого промежуточного пути. Однако появление алгоритмов ИИ доказало ошибочность этого мнения: нейросети научились выдавать готовые координаты напрямую из химической последовательности, минуя расчет этапов сворачивания.

Чтобы упорядочить исследования и исключить ложные заявления о «решении проблемы», которые регулярно появлялись в научных публикациях, в США под руководством Джона Моулта было создано соревнование CASP (Comparative Assessment of Structure Predictions) — своего рода Олимпийские игры по предсказанию белковых структур. Каждые два года независимые эксперты выдавали командам вычислителей химические формулы еще не опубликованных белков, а те должны были прислать свои варианты 3D-моделей. Долгое время успехи были скромными: ученые неплохо справлялись, если структура была похожа на уже известный эволюционный аналог, но пасовали перед принципиально новыми белками. Торнтон вспоминает, что к 1990 году зашла в тупик в этой гонке и переключила свое внимание на функции и эволюцию макромолекул.

Ситуация кардинально изменилась в 2018 году, когда в CASP впервые приняла участие лаборатория DeepMind со своей первой версией AlphaFold. Использование машинного обучения обеспечило за один сезон больший прогресс, чем за все предшествующие десять лет. Настоящий триумф случился в 2020 году: полностью переработав алгоритмы и внедрив передовые архитектуры ИИ, команда DeepMind показала выдающийся результат, выдав лучшие и беспрецедентно точные предсказания для более чем 90% предложенных на конкурсе белковых структур.

🔬 От рентгена до базы данных: история накопления знаний 17:42

Джанет Торнтон подчеркивает, что успех AlphaFold не был изолированным чудом программирования; он всецело опирался на колоссальный массив данных, собранный поколениями биологов-экспериментаторов. Обучение нейросети стало воплощением работы Protein Data Bank (PDB) — глобального банка данных, основанному еще в 1973 году. К моменту триумфа DeepMind в этой базе содержалось около 170 тысяч верифицированных, детально аннотированных структур. Именно этот чистый и валидированный массив информации послужил идеальным тренировочным полигоном для ИИ.

Исторические корни этих открытий уходят в лаборатории самого Королевского института (The Royal Institution), где зарождался метод рентгеновской кристаллографии под руководством тандема отца и сына — Уильяма Генри Брэгга и Уильяма Лоуренса Брэгга. Позже технологию развивала целая плеяда великих ученых: Макс Перутц, Дороти Ходжкин, Кэтлин Лонсдейл, Розалинд Franklin, Джеймс Уотсон и Фрэнсис Крик. Торнтон делится воспоминаниями о своем постдоке в Оксфорде в лаборатории лорда Дэвида Филлипса, который ранее именно в Королевском институте расшифровал структуру лизоцима — самого первого в истории изученного фермента.

В те годы определение структуры всего лишь одного белка представляло собой титанический труд, занимавший от 5 до 10 лет работы нескольких аспирантов без каких-либо гарантий успеха. Профессор Луиза Джонсон, работавшая над крупным белком, была вынуждена использовать стремянки, чтобы дотягиваться до верхних отделов «ящика Ричардса» — специального оптического прибора для ручной сборки физической модели. Полученные координаты каждого атома затем вручную набивались на клавиатуре компьютера, что создавало колоссальные риски для технических ошибок. Сегодня на смену этому пришли автоматизированное секвенирование и криоэлектронная микроскопия, позволяющая визуализировать молекулы без необходимости выращивания кристаллов.

Когда потенциал AlphaFold стал очевиден, возник вопрос о судьбе предсказанных данных, ведь DeepMind является коммерческим подразделением корпорации Google. К счастью, руководство компании принято решение сделать результаты публичным достоянием. В результате соглашения между главой DeepMind и генеральным директором EMBL Эдит Херд, коммерческий гигант профинансировал создание открытой базы данных на платформе Европейского института биоинформатики (EMBL-EBI), где Торнтон долгие годы работала директором. В этой базе, курируемой Самиром Веланкаром, сейчас находится свыше 200 миллионов структур белков, охватывающих весь протеом человека и модели более миллиона биологических видов. Любой биохимик мира может бесплатно скачать нужные координаты и использовать их в работе.

💊 Эволюция алгоритма: AlphaMissense и дизайн лекарств 27:03

Развитие систем ИИ от DeepMind не остановилось на статичных моделях. В сентябре текущего года компания представила инструмент AlphaMissense, призванный решать принципиально иную медицинскую задачу — прогнозировать влияние точечных генетических изменений (миссенс-мутаций) в ДНК на структуру кодируемых белков. В онкологии или при анализе врожденных нарушений развития у детей критически важно быстро понять, является ли конкретная мутация в миллиардах пар оснований генома доброкачественной или патогенной.

Однако, по мнению Джанет Торнтон, AlphaMissense пока не повторила оглушительного триумфа оригинального AlphaFold. Биология на этом уровне оказывается чрезвычайно сложной и «запутанной»: некоторые мутации выглядят катастрофическими, но не оказывают влияния на организм, тогда как внешне безобидные замены приводят к тяжелым болезням. Один из коллег Торнтон охарактеризовал это состояние как «не момент AlphaFold», указывая на то, что в этой области произошел заметный качественный шаг вперед, но не случилось мгновенной революции из-за дефицита и высокой сложности интерпретации обучающих данных.

Еще одним важнейшим шагом стал октябрьский анонс новейшей версии AlphaFold. Дело в том, что оригинальная модель рассчитывала «голые» белковые цепи без учета лигандов — малых молекул, коферментов и ионов металлов (таких как цинк или магний), которые в реальной клетке стабилизируют белок и обеспечивают его работу. То, что первая AlphaFold умудрялась выдавать правильную форму без учета этих критических элементов, доказывает: система не оперирует законами физики и химии, а виртуозно копирует паттерны из базы PDB. Новая модификация алгоритма способна моделировать:

Работа с лигандами сопряжена с огромными трудностями для ИИ. Если белки предсказуемы благодаря стандартному набору аминокислот, то малые молекулы бесконечно разнообразны. Даже при небольшом размере (30–40 атомов против 3000 в белке) они ведут себя крайне «недисциплинированно». Чтобы преодолеть это, разработчики внедряют в систему правила органической химии, извлеченные из Кембриджского банка структурных данных (CCDC). Успех этого направления имеет колоссальное коммерческое и медицинское значение, открывая прямую дорогу к автоматизированному компьютерному дизайну высокоэффективных лекарств. Учитывая, что у человека насчитывается чуть более 20 тысяч белков и функции многих из них до сих пор не ясны, ИИ может помочь точно определить их природные субстраты.

☣️ Биотерроризм, динамика и «проблема свернутого белка» 36:36

Как и любая мощная технология, ИИ в молекулярной биологии несет в себе скрытые угрозы. Джанет Торнтон выражает серьезную обеспокоенность тем, что развитие методов компьютерного проектирования белков (protein design) может быть использовано злоумышленниками для искусственного создания опасных штаммов и патогенов. По этой причине база данных AlphaFold намеренно полностью исключает какую-либо информацию о вирусных структурах. В более широком контексте Торнтон призывает к максимальной осторожности при внедрении ИИ в клиническую медицину, где алгоритмы будут обрабатывать огромные массивы персональных данных пациентов для диагностики и прогнозирования болезней. Тем не менее, исследователь смотрит на будущее оптимистично и считает, что в ближайшие 10–20 лет эти подходы радикально изменят качество лечения.

В завершение дискуссии Торнтон отвечает на фундаментальный вопрос: можно ли считать проблему сворачивания белка окончательно решенной? Ее ответ категоричен: нет, не решена. Биоинформатик подчеркивает концептуальную разницу:

«AlphaFold решил не проблему сворачивания белка (protein folding problem), она решила проблему свернутого белка (protein folded problem)».

Нейросеть предоставляет исследователям итоговые статические координаты атомов, но она не дает понимания фундаментальных законов физики и химии, управляющих самим процессом трансформации цепочки. Главный вызов будущего заключается в том, что белки в живом организме не статичны — они непрерывно движутся, меняют конфигурацию и буквально «дышат». Биологическая функция макромолекулы зачастую напрямую зависит от этих микро- и макроскопических колебаний. AlphaFold пока не умеет моделировать динамические свойства молекул, поэтому, по словам Торнтон, триумф искусственного интеллекта — это лишь первый шаг на пути к истинному пониманию механизмов жизни.

💬 Цитаты

«AlphaFold решил не проблему сворачивания белка (protein folding problem), она решила проблему свернутого белка (protein folded problem)»

Джанет Торнтон 40:57

«В пределах толщины кредитной карты можно вертикально уложить друг на друга около 8000 отдельных белковых молекул»

Джанет Торнтон 05:46
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
AlphaFold
Программа искусственного интеллекта от компании DeepMind, предназначенная для высокоточного предсказания трехмерной структуры белков.
Биоинформатика
Научное направление, использующее методы компьютерного анализа и программирования для обработки биологических и медицинских данных.
Рентгеновская кристаллография
Метод определения атомной структуры кристаллов, основанный на анализе дифракции рентгеновских лучей.
Лиганд
Малая молекула или ион, химически связывающийся с белком-мишенью для выполнения определенной биологической функции.
Миссенс-мутация
Точечная генетическая замена в ДНК, которая приводит к изменению одной аминокислоты в составе синтезируемого белка.
CASP
Глобальное соревнование для независимой оценки методов компьютерного предсказания трехмерной структуры белков.
📊 Цифры
🗓 Хронология
  1. 1963 В Кембридже экспериментально расшифрована структура первого белка, положившая начало проблеме сворачивания.
  2. 1973 Основан Protein Data Bank (PDB) — глобальный открытый архив трехмерных структур биологических макромолекул.
  3. 1990 Джанет Торнтон прекращает активные попытки предсказания структур и переключается на изучение эволюции и функций белков.
  4. 2001 Джанет Торнтон заступает на post директора Европейского института биоинформатики (EMBL-EBI).
  5. 2015 Торнтон покидает пост директора EMBL-EBI, оставаясь руководителем исследовательской группы.
  6. 2018 Программа AlphaFold от DeepMind впервые участвует в конкурсе CASP, демонстрируя резкое ускорение прогресса.
  7. 2020 Обновленная версия AlphaFold совершает триумф на CASP, точно предсказав свыше 90% белковых структур.
  8. июнь 2023 Джанет Торнтон завершает свою многолетнюю работу в качестве лидера исследовательской группы в EMBL-EBI.
  9. сентябрь 2023 Лаборатория DeepMind выпускает инструмент AlphaMissense для прогнозирования патогенности генетических мутаций.
⚖️ Другая сторона
Искусственный интеллект AlphaFold Джанет Торнтон DeepMind биоинформатика EMBL-EBI