Как искусственный интеллект AlphaFold разгадал величайшую загадку биологии и изменил медицину

Veritasium 10,5 млн 24 мин 9 мин 10.02.2025
Главное

Что если бы сложнейшие глобальные вызовы — от климатических изменений и переработки пластика до лечения неизлечимых болезней — имели одно общее решение, скрытое на молекулярном уровне? Благодаря революционному прорыву в области искусственного интеллекта человечеству удалось решить «величайшую загадку последнего столетия» — проблему свертывания белков. В новом выпуске канала Veritasium подробно рассказывается о том, как технологии AlphaFold от компании DeepMind и инновационные подходы к генерации молекул навсегда изменили биологию, превратив её из описательной науки в точную цифровую дисциплину.

🧬 Разгадка «биохимической теоремы Ферма» 0:00

Белки представляют собой основу жизни на Земле, выполняя роль крошечных молекулярных машин внутри каждого живого организма. Каждый белок начинает свой путь как простая цепочка аминокислот. Структура любой аминокислоты включает центральный атом углерода, соединенный с аминогруппой с одной стороны, карбоксильной группой с другой, а также уникальной боковой цепью (радикалом). Именно эта боковая цепь определяет, какая именно из 20 существующих в природе аминокислот перед нами.

Аминогруппа одной аминокислоты вступает в реакцию с карбоксильной группой другой, формируя прочную пептидную связь. Образовавшаяся цепочка начинает скручиваться и складываться сама на себя под воздействием множества факторов: электростатических сил, водородных связей и взаимодействия с растворителем. Этот процесс и определяет финальную трехмерную структуру белка.

Уникальная форма белка — это то, что определяет его биологическую функцию. Например:

Если белок принимает неправильную форму, он теряет способность работать в синергии с другими молекулярными машинами. По этой причине разгадка принципа, по которому последовательность складывается в 3D-объект, долгое время считалась учеными эквивалентом Великой теоремы Ферма, но для биологии.

🏛️ От китового мяса до видеоигр: история поиска структуры 2:07

Первые попытки определить форму белков основывались исключительно на сложных экспериментальных методах. Ученые создавали из белка кристалл, подвергали его рентгеновскому облучению, получали дифракционную картину и затем вручную пытались восстановить форму молекулы, вызвавшей такое рассеяние.

Британскому биохимику Джону Кендрю потребовалось долгих 12 лет, чтобы впервые в истории определить структуру белка миоглобина, отвечающего за хранение кислорода в сердце. В поисках качественного материала он сначала использовал лошадиное сердце, однако кристаллы получались слишком мелкими из-за низкого содержания белка. Понимая, что ныряющие млекопитающие идеально приспособлены к удержанию кислорода, Кендрю раздобыл огромный кусок китового мяса из Перу. Полученные кристаллы позволили сделать снимок, который привел ученых в замешательство: вместо математически строгой и логичной структуры они увидели невероятно сложное и хаотичное переплетение, напоминающее ракетный двигатель со множеством патрубков. Эту структуру иронично прозвали «какашкой века» (turd of the century), однако именно она принесла Кендрю Нобелевскую премию по химии в 1962 году.

За последующие 20 лет ученым удалось расшифровать всего около сотни структур. Кристаллизация белков остается колоссальным вызовом:

В то же время секвенирование (определение последовательности аминокислот) стоит всего около 100 долларов. Встал логичный вопрос: можно ли предсказать форму белка, зная только его текстовый код?

Долгое время это казалось невозможным. Американский биолог Сайрус Левинталь провел мысленный эксперимент и доказал, что даже короткая цепочка из 35 аминокислот имеет астрономическое количество вариантов складывания. Если бы компьютер проверял стабильность 30 тысяч конфигураций каждую наносекунду, ему потребовалось бы время, в 200 раз превышающее возраст Вселенной, чтобы найти верную структуру.

Чтобы сдвинуть науку с мертвой точки, в 1994 году профессор Джон Молт основал конкурс CASP. Идея заключалась в том, чтобы предоставить вычислительным моделям последовательность аминокислот, структура которой уже была определена экспериментально, но еще не опубликована, и сравнить результаты. Идельное совпадение оценивалось в 100 баллов, а показатель выше 90 считался эквивалентом экспериментального решения. В первые годы участники не могли преодолеть планку в 40 баллов, а на конференциях в Монтерее при нелепых предсказаниях алгоритмов ученые в шутку начинали громко топать ногами.

Первым серьезным прорывом стал алгоритм Rosetta, созданный Дэвидом Бейкером из Вашингтонского университета. Для увеличения вычислительной мощности Бейкер запустил проект Rosetta@home, задействовав домашние компьютеры добровольцев в качестве скринсейверов. Увидев, что люди, наблюдая за симуляцией на экранах, предлагают более удачные ходы, Бейкер создал видеоигру Foldit. В ней обычные геймеры могли вручную крутить и складывать белковые цепи. За три недели 50 тысяч игроков смогли расшифровать структуру фермента, играющего ключевую роль в вирусе ВИЧ, что подтвердилось рентгеноструктурным анализом. Геймеры даже были указаны как соавторы в научной публикации.

🤖 Появление DeepMind и AlphaFold 1 7:37

Одним из тех, кто в свое время играл в Foldit, был Демис Хассабис — в прошлом шахматный вундеркинд и основатель ИИ-компании DeepMind. После того как их алгоритм AlphaGo сенсационно обыграл чемпиона мира Ли Седоля в игру го, совершив знаменитый «37-й ход», потрясший экспертов, Хассабис решил направить мощь искусственного интеллекта на решение фундаментальных научных задач. Он запустил проект AlphaFold.

К этому моменту результаты традиционных подходов на конкурсе CASP вышли на плато и даже начали снижаться. Первая версия системы, AlphaFold 1, представляла собой стандартную глубокую нейросеть, аналогичную тем, что применялись в компьютерном зрении. Модель обучали на массиве данных из Протеинового банка данных (Protein Data Bank).

Помимо самой последовательности аминокислот, важнейшим входным параметром стали подсказки эволюции. Как отмечает ведущий, эволюция работает по принципу «если не сломано — не чини». Сравнивая одинаковые белки у разных видов (например, гемоглобин человека, кошки и лошади), можно заметить, что критически важные для структуры участки остаются неизменными. Более того, ученые используют концепцию коэволюции: если в ходе мутации одна аминокислота меняет заряд (например, положительный лизин превращается в отрицательный), это дестабилизирует белок, если только парная аминокислота (отрицательная глутаминовая кислота) также зеркально не мутирует в положительную. Такие парные мутации прямо указывают на то, что эти аминокислоты находятся близко друг к другу в финальной 3D-структуре.

На выходе AlphaFold 1 предсказывал не саму 3D-модель, а промежуточную двухмерную карту расстояний и углов скручивания (pair representation). Затем сторонний алгоритм физической симуляции сворачивал нить на основе этих ограничений. На конкурсе CASP 13 AlphaFold 1 стал абсолютным победителем с результатом 70 баллов, однако этого все еще было недостаточно для полноценного решения проблемы.

🚀 Революция AlphaFold 2: архитектура Evoformer 11:36

Чтобы совершить качественный скачок, Хассабис пригласил Джона Джампера возглавить команду разработки новой версии. Как объясняет сам Джампер, ключевая идея AlphaFold 2 заключалась в том, чтобы заложить геометрические, физические и эволюционные концепции непосредственно внутрь самой нейросети, а не выстраивать процессы вокруг нее.

По мнению авторов проекта, успех AlphaFold 2 обеспечили три составляющие:

  1. Максимальная вычислительная мощность благодаря доступу к тензорным процессорам (TPU) Google.
  2. Качественный датасет. При этом Джампер подчеркивает, что многие переоценивают нехватку данных: AlphaFold 2 обучался на том же объеме информации, что и первая версия, но за счет продвинутого машинного обучения распорядился им гораздо эффективнее.
  3. Кардинально новые ИИ-алгоритмы.

Разработчики обратились к архитектуре Transformer (буква «Т» в ChatGPT) и механизму контекстного внимания (attention). В лингвистических моделях внимание связывает слова в предложении — например, понимает, к какому существительному относится местоимение. В случае с белками вместо слов выступают аминокислоты.

Специально для биологических задач команда DeepMind создала модифицированный трансформер под названием Evoformer. Архитектура состоит из двух взаимосвязанных блоков (башен):

В отличие от первой версии, информация циркулирует между башнями в обоих направлениях по специальному «мосту». Поистине инновационным решением стало внедрение так называемого «треугольного внимания» (triangular attention). Алгоритм оценивает аминокислоты тройками, применяя строгое геометрическое правило неравенства треугольника (сумма двух сторон всегда больше третьей). Это позволяет отсекать физически невозможные конфигурации. Если геометрический блок понимает, что две аминокислоты не могут физически находиться рядом, он дает команду биологическому нему игнорировать их кажущуюся связь в эволюционной таблице. Данный цикл обмена данными повторяется 48 раз.

Очищенные геометрические признаки передаются в структуру под названием Structure Module (модуль структуры). Джампер раскрывает удивительную деталь: модель не воспринимает белок как неразрывную цепь. Напротив, ИИ выдается виртуальный «мешок с аминокислотами», и система вольна перемещать и вращать каждую из них в пространстве независимо от остальных. По мнению экспертов, это защищает алгоритм от застревания в локальных минимумах. Физическая связность цепи формируется естественным образом на более поздних этапах.

В декабре 2020 года на виртуальном конкурсе CASP 14 AlphaFold 2 продемонстрировал феноменальный результат, превзойдя золотой стандарт в 90 баллов. Предсказания ИИ оказались практически неотличимы от дорогостоящих экспериментальных структур. За несколько месяцев алгоритм определил структуру более 200 миллионов белков — практически всего, что существует в живой природе, продвинув мировую науку на десятилетия вперед. За этот прорыв Джон Джампер и Демис Хассабис получили половину Нобелевской премии по химии в 2024 году.

🧪 «Ковбойская биохимия» и дизайн белков с нуля 19:43

Вторая половина Нобелевской премии 2024 года досталась Дэвиду Бейкеру, но уже за принципиально иное достижение — создание абсолютно новых, не существующих в природе белков с нуля. Его метод под названием RF Diffusion использует те же принципы генеративного ИИ, что и нейросети для создания изображений, вроде DALL-E. Модель обучается путем добавления случайного шума к известным белковым структурам, а затем учится этот шум пошагово убирать. В результате ИИ можно поставить задачу сгенерировать молекулу под конкретную функцию, подав на вход случайный цифровой шум.

Практическое применение этой технологии открывает невероятные перспективы. В качестве примера приводится создание противоядий от змеиных укусов. Традиционный метод включает введение яда живым животным (например, лошадям) и последующую экстракцию антител из их крови, что часто вызывает тяжелые аллергические реакции у людей. Лаборатория Бейкера уже создала полностью совместимые с человеком синтетические белки, способные эффективно нейтрализовать смертельный змеиный яд. Их можно производить в промышленных масштабах и легко транспортировать.

Среди ключевых направлений, которые вызывают наибольший оптимизм у Бейкера и других исследователей:

Скорость и простота итераций поражают старых академических ученых. Бейкер в шутку называет этот подход «ковбойской биохимией» (Cowboy Biochemistry): исследователи придумывают дизайн на компьютере, заказывают аминокислотную последовательность и уже через пару дней получают готовый работающий белок в пробирке.

Возможности ИИ простираются далеко за пределы биологии. Программа GNoME от DeepMind уже позволила обнаружить 2,2 миллиона новых типов кристаллов, включая 400 тысяч стабильных материалов, которые лягут в основу сверхпроводников и аккумуляторов будущего. Как отмечает ведущий Veritasium, ускорение процессов в 2 раза — это приятно, но ускорение в 100 000 раз в корне меняет саму структуру науки, позволяя решать те фундаментальные проблемы, которые веками сдерживали человеческий прогресс. И даже если технологии искусственного интеллекта остановятся в развитии на текущем уровне, человечество будет пожинать плоды этих прорывных открытий в течение многих десятилетий. Главное, как иронично резюмирует автор видео, чтобы этот самый ИИ не захватил и не уничтожил нас всех первее.

💬 Цитаты

«AlphaFold 2 была системой, в которой геометрические, физические и эволюционные концепции были заложены в саму нейросеть, а не строились вокруг нее.»

Джон Джампер 11:49

«Мы дали этому название «ковбойская биохимия», потому что вы просто берете и делаете это так быстро, как только можете, и это работает.»

Дэвид Бейкер 22:45

«Ускорения в 100 000 раз в корне меняют то, чем вы занимаетесь. Вы начинаете перестраивать науку вокруг вещей, которые стали простыми.»

автор видео 23:40
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Пептидная связь
Химическая связь, возникающая при взаимодействии аминогруппы одной аминокислоты с карбоксильной группой другой.
Рентгеновская кристаллография
Метод исследования структуры веществ по распределению в пространстве рассеянного на них рентгеновского излучения.
Коэволюция
Совместная эволюция биологических видов или связанных элементов структуры, обеспечивающая сохранение их функции.
Evoformer
Специализированная нейросетевая архитектура DeepMind, одновременно обрабатывающая эволюционные и геометрические параметры белка.
Трансформер (Transformer)
Архитектура глубокого обучения, построенная на механизме самовнимания, способная улавливать контекстные связи в последовательностях данных.
📊 Цифры
🗓 Хронология
  1. 1962 Джон Кендрю получает Нобелевскую премию по химии за расшифровку первой структуры белка.
  2. 1994 Профессор Джон Молт основывает конкурс по предсказанию белковых структур CASP.
  3. 2020 Команда DeepMind представляет AlphaFold 2 на конкурсе CASP 14, преодолевая золотой стандарт точности в 90 баллов.
  4. 2024 Демис Хассабис, Джон Джампер и Дэвид Бейкер удостаиваются Нобелевской премии по химии.
⚖️ Другая сторона
Искусственный интеллект AlphaFold DeepMind Evoformer Дэвид Бейкер Джон Джампер