Джон Джампер, лауреат Нобелевской премии по химии и руководитель проекта AlphaFold в Google DeepMind, прошел путь от отчисленного аспиранта-физика до человека, совершившего крупнейший прорыв в биологии за последние 50 лет. В своем выступлении на мероприятии Y Combinator он подробно описывает, как сочетание открытых данных, вычислительных мощностей и оригинальных архитектурных идей позволило ИИ решить проблему фолдинга белков, и как это решение сегодня меняет работу тысяч лабораторий по всему миру.
🧬 Путь от физики к «вычислительному прорыву» в биологии 0:00
Джон Джампер начинал свою карьеру как физик-теоретик, надеясь оставить после себя хотя бы одну строчку в учебниках по фундаментальным законам Вселенной . Однако в процессе обучения на PhD он почувствовал, что выбранное направление не приносит удовлетворения, и принял решение оставить аспирантуру. Вместо того чтобы запустить стартап, он устроился в компанию, занимавшуюся вычислительной биологией, где нашел свое призвание: использовать код и уравнения для решения прикладных медицинских задач .
Позже он вернулся в науку, чтобы изучать биофизику и химию, но столкнулся с отсутствием доступа к мощным суперкомпьютерам и кастомным ASIC-чипам, которые были в индустрии . Это заставило его переключиться на статистическую физику и машинное обучение — в то время эти термины звучали в научной среде почти «неприлично», поэтому исследования маскировались под классическую физику . В итоге путь привел его в Google DeepMind, где целью команды стало использование технологий, ранее применявшихся в играх и оптимизации дата-центров, для расширения границ научного познания .
🏗️ Проблема белковых «наномашин» 4:56
Клетка — это не просто набор компонентов с этикетками, а невероятно плотная и сложная среда, напоминающая переполненный бассейн в разгар праздника . Основную работу в этой среде выполняют белки — природные наномашины, состоящие из цепочек аминокислот. Согласно инструкциям в ДНК, эти цепочки собираются и затем спонтанно сворачиваются в уникальные трехмерные структуры.
Как отмечает Джон Джампер, процесс фолдинга белков напоминает сборку мебели из IKEA, которая происходит сама собой сразу после открытия коробки . Именно эта 3D-форма определяет функцию белка:
- Двигатели, обеспечивающие перемещение бактерий .
- Мишени для лекарств, деятельность которых нужно заблокировать .
- Транспортные системы внутри клеток.
До появления AlphaFold определение структуры одного белка было титаническим трудом. Экспериментаторы могли ждать появления кристаллов белка более года, тратя на одну структуру сотни тысяч долларов . На сегодняшний день науке известно около 200 000 структур белков, накопленных за 50 лет в Банке данных белков (PDB) . Однако скорость обнаружения новых ДНК-последовательностей в 3000 раз превышает скорость экспериментального определения их структур .
🔬 Рецепт AlphaFold: Почему исследования важнее «железа» 10:28
Успех AlphaFold базируется на трех компонентах: данных, вычислительных мощностях и исследованиях. По мнению Джона Джампера, индустрия часто переоценивает роль первых двух и недооценивает роль научной мысли .
Цифры проекта AlphaFold:
- Данные: 200 000 структур из публичного архива PDB (доступны всем участникам рынка) .
- Вычисления: Финальное обучение модели заняло 2 недели на 128 ядрах TPU v3 (сопоставимо с ресурсами крупных университетов) .
- Исследования: Самый важный множитель. Команда DeepMind разработала архитектуру, которая оказалась в 100 раз эффективнее предыдущих версий .
Джон Джампер приводит доказательство: когда архитектуру AlphaFold 2 обучили всего на 1% доступных данных, она показала результаты точнее, чем AlphaFold 1, обученная на полном датасете . Это подчеркивает тезис спикера: идеи и алгоритмические находки («исследования среднего масштаба») экспоненциально усиливают возможности железа и данных .
🧠 За пределами хайпа: Что на самом деле внутри AlphaFold 14:51
После выхода AlphaFold в научном сообществе начались споры о том, какая именно деталь стала ключом к успеху. Многие считали, что это эквивариантность (equivariance) — математическое свойство, учитывающее симметрию в пространстве .
Однако Джон Джампер утверждает, что секрет не в одной «прорывной» идее, а в сумме множества улучшений:
- Замена стандартных сверточных сетей и простых трансформеров на специализированную архитектуру .
- Использование механизма Invariant Point Attention (IPA). Эксперименты показали, что удаление эквивариантности лишь незначительно снижает точность, тогда как IPA играет критическую роль .
- Ориентация на биологическую релевантность. Система должна была достичь такого уровня точности, который имеет значение для биолога-экспериментатора, а не просто улучшать метрики на бенчмарке .
Для проверки результатов с 1994 года проводится слепое тестирование CASP . Раз в два года ученые предсказывают структуры белков, которые уже определены экспериментально, но еще не опубликованы. AlphaFold показал в три раза меньшую ошибку, чем любая другая группа в истории конкурса .
🔓 Социальное доказательство и открытость 17:57
DeepMind приняла стратегическое решение открыть исходный код AlphaFold и создать базу данных предсказаний . Изначально база содержала 300 000 структур, но позже расширилась до 200 миллионов — это практически все белки известных науке организмов .
Джон Джампер отмечает интересный социологический эффект:
- Специалисты по предсказанию структур сразу признали успех модели после CASP .
- Биологи-практики оставались скептичными до тех пор, пока не получили доступ к базе данных .
- Доверие возникло через «сарафанное радио», когда ученые начали сравнивать предсказания AlphaFold со своими еще не опубликованными результатами и обнаруживать полное совпадение .
Типичный отзыв исследователя того времени: «Я бился над этой задачей 4 месяца, а AlphaFold решил её за утро. Я хочу вернуть свое время назад» .
🚀 Как ИИ ускоряет реальные открытия 21:28
AlphaFold стал платформой, на которой ученые строят собственные исследования. Джон Джампер подчеркивает, что пользователи находят применение инструменту, о котором создатели даже не догадывались. Например, исследователи научились использовать систему для предсказания взаимодействия белков (протеин-протеиновые комплексы), просто добавляя специальный «разделитель» в последовательность — своеобразный «промпт-инжиниринг» для биологии .
Ключевые примеры применения:
- Ядерный поровый комплекс: Спустя несколько месяцев после релиза вышел спецвыпуск журнала Science, где 3 из 4 статей о сложнейшей системе из сотен белков опирались на AlphaFold .
- Молекулярный шприц (Лаборатория Чжана, MIT): Ученые использовали AlphaFold, чтобы понять, как белок-шприц прикрепляется к клетке. На основе предсказания они перепроектировали его «ножки» и создали систему адресной доставки лекарств в клетки мозга мышей .
- Оплодотворение: Открыт новый компонент взаимодействия яйцеклетки и сперматозоида .
Джон Джампер считает, что ИИ не заменяет эксперимент, а служит мощным усилителем гипотез . Вместо того чтобы тратить годы на слепое прощупывание структуры, ученые теперь могут сразу переходить к проверке функциональных гипотез. По его мнению, ИИ для науки в будущем станет еще более универсальным, переходя от узкоспециализированных систем к широким фундаментальным моделям .