DeepMind: как архитектура трансформеров решила задачу 50-летней давности

Yannic Kilcher 241 тыс. 54 мин 4 мин 01.12.2020
Главное

Исследователь ИИ Янник Кильхер разбирает один из самых значимых прорывов в современной науке — систему AlphaFold 2 от компании DeepMind. В этом материале анализируется, как искусственный интеллект справился с задачей, над которой ученые бились последние 50 лет, и почему переход от классических сверточных нейросетей к архитектуре трансформеров стал решающим фактором в предсказании структуры белков.

🧬 Проблема фолдинга белка: почему это важно? 3:12

Белки — это основные «рабочие лошадки» живой клетки, выполняющие функции сигнальных молекул, рецепторов и даже двигательных элементов мышц . Каждый белок представляет собой цепь из 21 вида аминокислот, последовательность которых определяется ДНК. Однако сама по себе последовательность (первичная структура) мало что говорит о функции белка. Решающее значение имеет его трехмерная форма (третичная структура) .

Проблема «фолдинга» (свертывания) заключается в том, что аминокислотная цепочка начинает изгибаться сразу после синтеза под воздействием химических и электрических взаимодействий между остатками (residues) аминокислот . Как отмечает Янник Кильхер, еще 50 лет назад нобелевские лауреаты предположили, что структура белка полностью определяется его последовательностью, но вычислить ее оказалось невероятно сложно из-за бесконечного количества вариантов изгиба .

До появления эффективных алгоритмов ученым приходилось определять структуру экспериментально с помощью:

Эти методы крайне дороги и могут занимать годы работы для одного-единственного типа белка .

🏗️ Как работал AlphaFold 1: фундамент успеха 15:13

Предыдущая версия системы, AlphaFold 1, уже доминировала на конкурсе CASP за два года до триумфа второй версии, хотя и не считалась окончательным «решением» проблемы . Ее работа строилась на двухэтапном процессе:

  1. Нейросетевое предсказание: Сверточная нейросеть (CNN) принимала на вход последовательность аминокислот и выдавала матрицу расстояний (дистограмму) — предсказание того, насколько далеко каждая аминокислота в цепи находится от любой другой .
  2. Геометрическая оптимизация: На втором этапе строилась дифференцируемая компьютерная модель белка. С помощью градиентного спуска алгоритм менял углы кручения (torsion angles) цепочки до тех пор, пока реальные расстояния в 3D-модели не начинали соответствовать предсказанным нейросетью .

Янник Кильхер подчеркивает, что на этапе оптимизации не происходило «обучения» в привычном смысле — это была чисто геометрическая подгонка модели под результаты первого этапа .

Архитектура нейросети в AlphaFold 1 включала 220 остаточных сверточных блоков (residual blocks) . Однако у этого подхода была системная слабость: сверточные слои имеют ограниченное «поле зрения» (в данном случае 64x64 аминокислоты), что мешает модели учитывать глобальные взаимодействия в очень длинных белках .

🧬 Эволюционные подсказки: Multiple Sequence Alignment (MSA) 31:15

Одним из ключевых источников данных для обеих версий системы является метод выравнивания множества последовательностей (MSA). Идея основана на эволюционной ковариации :

DeepMind извлекает из таких MSA-данных 484 различных признака для каждой пары аминокислот, что дает нейросети мощную подсказку о топологии белка еще до начала моделирования .

🚀 AlphaFold 2: революция внимания и трансформеров 43:49

AlphaFold 2 совершил качественный скачок, достигнув точности, сопоставимой с экспериментальными методами . Хотя на момент записи видео полная научная статья еще не была опубликована, Янник Кильхер анализирует доступные данные и архитектурную схему от DeepMind.

Главным изменением, по мнению исследователя, стал отказ от сверточных сетей в пользу архитектуры трансформеров (Attention-based) . Это позволяет модели:

🔍 Анализ архитектуры: как данные проходят через систему 48:00

На основе блок-схемы DeepMind, Янник Кильхер выделяет три основных пути обработки информации в AlphaFold 2:

  1. Генетический поиск: Параллельный анализ MSA для поиска эволюционных корреляций .
  2. Эмбеддинги пар: Создание матрицы признаков для пар аминокислот, которая постоянно обновляется.
  3. Взаимодействие через трансформеры: Янник полагает, что информация передается между MSA-данными и матрицей пар аминокислот через слои внимания .

Исследователь предполагает, что «структурный модуль» на выходе может работать итеративно: он не просто строит модель один раз, а возвращает информацию обратно в нейросеть для дальнейшего уточнения координат атомов .

В завершение Янник Кильхер отмечает вклад молодых исследователей, в частности Анны (Anna), которая проходила стажировку в DeepMind и участвовала в разработке системы. По мнению автора, AlphaFold 2 — это пример того, как трансформеры продолжают доминировать в области машинного обучения, выходя далеко за пределы обработки текста .

💬 Цитаты

«Поскольку структура белка полностью определяется его аминокислотной цепью... должно быть возможно вычислить эту форму программно.»

Янник Кильхер 11:56

«Похоже, они заменили сверточные сети — теперь их лучший друг это трансформер.»

Янник Кильхер 51:32
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Аминокислоты
Строительные блоки белков, последовательность которых определяет их форму.
MSA (Multiple Sequence Alignment)
Метод сопоставления похожих генетических последовательностей у разных видов для поиска эволюционных паттернов.
Трансформеры
Архитектура нейросетей, основанная на механизме внимания, позволяющая эффективно обрабатывать глобальные зависимости в данных.
Дистограмма
Матрица, показывающая вероятное расстояние между всеми парами элементов в последовательности.
Хеликаза
Специализированный белок, который расплетает цепи ДНК, его работа напрямую зависит от его 3D-формы.
📊 Цифры
🗓 Хронология
  1. 1970-е Зарождение проблемы предсказания структуры белка (догма Анфинсена).
  2. 2018 Выход первой версии AlphaFold и победа на CASP13.
  3. 2020 Анонс AlphaFold 2 и достижение исторического порога точности на CASP14.
⚖️ Другая сторона
Искусственный интеллект DeepMind AlphaFold 2 Янник Кильхер Protein Folding Transformers