Как искусственный интеллект AlphaFold разгадал величайшую загадку биологии и изменил медицину

Что если бы сложнейшие глобальные вызовы — от климатических изменений и переработки пластика до лечения неизлечимых болезней — имели одно общее решение, скрытое на молекулярном уровне? Благодаря революционному прорыву в области искусственного интеллекта человечеству удалось решить «величайшую загадку последнего столетия» — проблему свертывания белков. В новом выпуске канала Veritasium подробно рассказывается о том, как технологии AlphaFold от компании DeepMind и инновационные подходы к генерации молекул навсегда изменили биологию, превратив её из описательной науки в точную цифровую дисциплину.

🧬 Разгадка «биохимической теоремы Ферма» 0:00

Белки представляют собой основу жизни на Земле, выполняя роль крошечных молекулярных машин внутри каждого живого организма. Каждый белок начинает свой путь как простая цепочка аминокислот. Структура любой аминокислоты включает центральный атом углерода, соединенный с аминогруппой с одной стороны, карбоксильной группой с другой, а также уникальной боковой цепью (радикалом). Именно эта боковая цепь определяет, какая именно из 20 существующих в природе аминокислот перед нами.

Аминогруппа одной аминокислоты вступает в реакцию с карбоксильной группой другой, формируя прочную пептидную связь. Образовавшаяся цепочка начинает скручиваться и складываться сама на себя под воздействием множества факторов: электростатических сил, водородных связей и взаимодействия с растворителем. Этот процесс и определяет финальную трехмерную структуру белка.

Уникальная форма белка — это то, что определяет его биологическую функцию. Например:

Гемоглобин имеет идеальную форму связывающего центра для транспортировки кислорода в крови.
Мышечные белки способны незначительно менять свою конфигурацию, обеспечивая сокращение и движение мускулов.

Если белок принимает неправильную форму, он теряет способность работать в синергии с другими молекулярными машинами. По этой причине разгадка принципа, по которому последовательность складывается в 3D-объект, долгое время считалась учеными эквивалентом Великой теоремы Ферма, но для биологии.

🏛️ От китового мяса до видеоигр: история поиска структуры 2:07

Первые попытки определить форму белков основывались исключительно на сложных экспериментальных методах. Ученые создавали из белка кристалл, подвергали его рентгеновскому облучению, получали дифракционную картину и затем вручную пытались восстановить форму молекулы, вызвавшей такое рассеяние.

Британскому биохимику Джону Кендрю потребовалось долгих 12 лет, чтобы впервые в истории определить структуру белка миоглобина, отвечающего за хранение кислорода в сердце. В поисках качественного материала он сначала использовал лошадиное сердце, однако кристаллы получались слишком мелкими из-за низкого содержания белка. Понимая, что ныряющие млекопитающие идеально приспособлены к удержанию кислорода, Кендрю раздобыл огромный кусок китового мяса из Перу. Полученные кристаллы позволили сделать снимок, который привел ученых в замешательство: вместо математически строгой и логичной структуры они увидели невероятно сложное и хаотичное переплетение, напоминающее ракетный двигатель со множеством патрубков. Эту структуру иронично прозвали «какашкой века» (turd of the century), однако именно она принесла Кендрю Нобелевскую премию по химии в 1962 году.

За последующие 20 лет ученым удалось расшифровать всего около сотни структур. Кристаллизация белков остается колоссальным вызовом:

Нередко расшифровка всего пары структур становится темой для целой докторской диссертации.
Метод рентгеновской кристаллографии обходится чрезвычайно дорого — десятки тысяч долларов на один белок.

В то же время секвенирование (определение последовательности аминокислот) стоит всего около 100 долларов. Встал логичный вопрос: можно ли предсказать форму белка, зная только его текстовый код?

Долгое время это казалось невозможным. Американский биолог Сайрус Левинталь провел мысленный эксперимент и доказал, что даже короткая цепочка из 35 аминокислот имеет астрономическое количество вариантов складывания. Если бы компьютер проверял стабильность 30 тысяч конфигураций каждую наносекунду, ему потребовалось бы время, в 200 раз превышающее возраст Вселенной, чтобы найти верную структуру.

Чтобы сдвинуть науку с мертвой точки, в 1994 году профессор Джон Молт основал конкурс CASP. Идея заключалась в том, чтобы предоставить вычислительным моделям последовательность аминокислот, структура которой уже была определена экспериментально, но еще не опубликована, и сравнить результаты. Идельное совпадение оценивалось в 100 баллов, а показатель выше 90 считался эквивалентом экспериментального решения. В первые годы участники не могли преодолеть планку в 40 баллов, а на конференциях в Монтерее при нелепых предсказаниях алгоритмов ученые в шутку начинали громко топать ногами.

Первым серьезным прорывом стал алгоритм Rosetta, созданный Дэвидом Бейкером из Вашингтонского университета. Для увеличения вычислительной мощности Бейкер запустил проект Rosetta@home, задействовав домашние компьютеры добровольцев в качестве скринсейверов. Увидев, что люди, наблюдая за симуляцией на экранах, предлагают более удачные ходы, Бейкер создал видеоигру Foldit. В ней обычные геймеры могли вручную крутить и складывать белковые цепи. За три недели 50 тысяч игроков смогли расшифровать структуру фермента, играющего ключевую роль в вирусе ВИЧ, что подтвердилось рентгеноструктурным анализом. Геймеры даже были указаны как соавторы в научной публикации.

🤖 Появление DeepMind и AlphaFold 1 7:37

Одним из тех, кто в свое время играл в Foldit, был Демис Хассабис — в прошлом шахматный вундеркинд и основатель ИИ-компании DeepMind. После того как их алгоритм AlphaGo сенсационно обыграл чемпиона мира Ли Седоля в игру го, совершив знаменитый «37-й ход», потрясший экспертов, Хассабис решил направить мощь искусственного интеллекта на решение фундаментальных научных задач. Он запустил проект AlphaFold.

К этому моменту результаты традиционных подходов на конкурсе CASP вышли на плато и даже начали снижаться. Первая версия системы, AlphaFold 1, представляла собой стандартную глубокую нейросеть, аналогичную тем, что применялись в компьютерном зрении. Модель обучали на массиве данных из Протеинового банка данных (Protein Data Bank).

Помимо самой последовательности аминокислот, важнейшим входным параметром стали подсказки эволюции. Как отмечает ведущий, эволюция работает по принципу «если не сломано — не чини». Сравнивая одинаковые белки у разных видов (например, гемоглобин человека, кошки и лошади), можно заметить, что критически важные для структуры участки остаются неизменными. Более того, ученые используют концепцию коэволюции: если в ходе мутации одна аминокислота меняет заряд (например, положительный лизин превращается в отрицательный), это дестабилизирует белок, если только парная аминокислота (отрицательная глутаминовая кислота) также зеркально не мутирует в положительную. Такие парные мутации прямо указывают на то, что эти аминокислоты находятся близко друг к другу в финальной 3D-структуре.

На выходе AlphaFold 1 предсказывал не саму 3D-модель, а промежуточную двухмерную карту расстояний и углов скручивания (pair representation). Затем сторонний алгоритм физической симуляции сворачивал нить на основе этих ограничений. На конкурсе CASP 13 AlphaFold 1 стал абсолютным победителем с результатом 70 баллов, однако этого все еще было недостаточно для полноценного решения проблемы.

🚀 Революция AlphaFold 2: архитектура Evoformer 11:36

Чтобы совершить качественный скачок, Хассабис пригласил Джона Джампера возглавить команду разработки новой версии. Как объясняет сам Джампер, ключевая идея AlphaFold 2 заключалась в том, чтобы заложить геометрические, физические и эволюционные концепции непосредственно внутрь самой нейросети, а не выстраивать процессы вокруг нее.

По мнению авторов проекта, успех AlphaFold 2 обеспечили три составляющие:

Максимальная вычислительная мощность благодаря доступу к тензорным процессорам (TPU) Google.
Качественный датасет. При этом Джампер подчеркивает, что многие переоценивают нехватку данных: AlphaFold 2 обучался на том же объеме информации, что и первая версия, но за счет продвинутого машинного обучения распорядился им гораздо эффективнее.
Кардинально новые ИИ-алгоритмы.

Разработчики обратились к архитектуре Transformer (буква «Т» в ChatGPT) и механизму контекстного внимания (attention). В лингвистических моделях внимание связывает слова в предложении — например, понимает, к какому существительному относится местоимение. В случае с белками вместо слов выступают аминокислоты.

Специально для биологических задач команда DeepMind создала модифицированный трансформер под названием Evoformer. Архитектура состоит из двух взаимосвязанных блоков (башен):

Биологическая башня обрабатывает эволюционную информацию и выравнивание последовательностей.
Геометрическая башня отвечает за двухмерные пространственные представления пар аминокислот.

В отличие от первой версии, информация циркулирует между башнями в обоих направлениях по специальному «мосту». Поистине инновационным решением стало внедрение так называемого «треугольного внимания» (triangular attention). Алгоритм оценивает аминокислоты тройками, применяя строгое геометрическое правило неравенства треугольника (сумма двух сторон всегда больше третьей). Это позволяет отсекать физически невозможные конфигурации. Если геометрический блок понимает, что две аминокислоты не могут физически находиться рядом, он дает команду биологическому нему игнорировать их кажущуюся связь в эволюционной таблице. Данный цикл обмена данными повторяется 48 раз.

Очищенные геометрические признаки передаются в структуру под названием Structure Module (модуль структуры). Джампер раскрывает удивительную деталь: модель не воспринимает белок как неразрывную цепь. Напротив, ИИ выдается виртуальный «мешок с аминокислотами», и система вольна перемещать и вращать каждую из них в пространстве независимо от остальных. По мнению экспертов, это защищает алгоритм от застревания в локальных минимумах. Физическая связность цепи формируется естественным образом на более поздних этапах.

В декабре 2020 года на виртуальном конкурсе CASP 14 AlphaFold 2 продемонстрировал феноменальный результат, превзойдя золотой стандарт в 90 баллов. Предсказания ИИ оказались практически неотличимы от дорогостоящих экспериментальных структур. За несколько месяцев алгоритм определил структуру более 200 миллионов белков — практически всего, что существует в живой природе, продвинув мировую науку на десятилетия вперед. За этот прорыв Джон Джампер и Демис Хассабис получили половину Нобелевской премии по химии в 2024 году.

🧪 «Ковбойская биохимия» и дизайн белков с нуля 19:43

Вторая половина Нобелевской премии 2024 года досталась Дэвиду Бейкеру, но уже за принципиально иное достижение — создание абсолютно новых, не существующих в природе белков с нуля. Его метод под названием RF Diffusion использует те же принципы генеративного ИИ, что и нейросети для создания изображений, вроде DALL-E. Модель обучается путем добавления случайного шума к известным белковым структурам, а затем учится этот шум пошагово убирать. В результате ИИ можно поставить задачу сгенерировать молекулу под конкретную функцию, подав на вход случайный цифровой шум.

Практическое применение этой технологии открывает невероятные перспективы. В качестве примера приводится создание противоядий от змеиных укусов. Традиционный метод включает введение яда живым животным (например, лошадям) и последующую экстракцию антител из их крови, что часто вызывает тяжелые аллергические реакции у людей. Лаборатория Бейкера уже создала полностью совместимые с человеком синтетические белки, способные эффективно нейтрализовать смертельный змеиный яд. Их можно производить в промышленных масштабах и легко транспортировать.

Среди ключевых направлений, которые вызывают наибольший оптимизм у Бейкера и других исследователей:

Разработка вакцин нового поколения и препаратов против рака и аутоиммунных заболеваний, проходящих сейчас клинические испытания.
Создание ферментов для улавливания парниковых газов (в частности, фиксации метана).
Разработка белков, способных эффективно разлагать пластиковые отходы.

Скорость и простота итераций поражают старых академических ученых. Бейкер в шутку называет этот подход «ковбойской биохимией» (Cowboy Biochemistry): исследователи придумывают дизайн на компьютере, заказывают аминокислотную последовательность и уже через пару дней получают готовый работающий белок в пробирке.

Возможности ИИ простираются далеко за пределы биологии. Программа GNoME от DeepMind уже позволила обнаружить 2,2 миллиона новых типов кристаллов, включая 400 тысяч стабильных материалов, которые лягут в основу сверхпроводников и аккумуляторов будущего. Как отмечает ведущий Veritasium, ускорение процессов в 2 раза — это приятно, но ускорение в 100 000 раз в корне меняет саму структуру науки, позволяя решать те фундаментальные проблемы, которые веками сдерживали человеческий прогресс. И даже если технологии искусственного интеллекта остановятся в развитии на текущем уровне, человечество будет пожинать плоды этих прорывных открытий в течение многих десятилетий. Главное, как иронично резюмирует автор видео, чтобы этот самый ИИ не захватил и не уничтожил нас всех первее.