# Джон Джампер: «Исследования в 100 раз важнее данных для успеха ИИ»

Источник: https://www.youtube.com/watch?v=2Yguz5U-Nic
Канал: Y Combinator
Опубликовано: 15.07.2025

---

Джон Джампер, лауреат Нобелевской премии по химии и руководитель проекта AlphaFold в Google DeepMind, прошел путь от отчисленного аспиранта-физика до человека, совершившего крупнейший прорыв в биологии за последние 50 лет. В своем выступлении на мероприятии Y Combinator он подробно описывает, как сочетание открытых данных, вычислительных мощностей и оригинальных архитектурных идей позволило ИИ решить проблему фолдинга белков, и как это решение сегодня меняет работу тысяч лабораторий по всему миру.

## 🧬 Путь от физики к «вычислительному прорыву» в биологии
[[JUMP:00:00]]

Джон Джампер начинал свою карьеру как физик-теоретик, надеясь оставить после себя хотя бы одну строчку в учебниках по фундаментальным законам Вселенной [01:08]. Однако в процессе обучения на PhD он почувствовал, что выбранное направление не приносит удовлетворения, и принял решение оставить аспирантуру. Вместо того чтобы запустить стартап, он устроился в компанию, занимавшуюся вычислительной биологией, где нашел свое призвание: использовать код и уравнения для решения прикладных медицинских задач [01:35]. 

Позже он вернулся в науку, чтобы изучать биофизику и химию, но столкнулся с отсутствием доступа к мощным суперкомпьютерам и кастомным ASIC-чипам, которые были в индустрии [02:17]. Это заставило его переключиться на статистическую физику и машинное обучение — в то время эти термины звучали в научной среде почти «неприлично», поэтому исследования маскировались под классическую физику [02:43]. В итоге путь привел его в Google DeepMind, где целью команды стало использование технологий, ранее применявшихся в играх и оптимизации дата-центров, для расширения границ научного познания [03:22].

## 🏗️ Проблема белковых «наномашин»
[[JUMP:04:56]]

Клетка — это не просто набор компонентов с этикетками, а невероятно плотная и сложная среда, напоминающая переполненный бассейн в разгар праздника [05:10]. Основную работу в этой среде выполняют белки — природные наномашины, состоящие из цепочек аминокислот. Согласно инструкциям в ДНК, эти цепочки собираются и затем спонтанно сворачиваются в уникальные трехмерные структуры.

Как отмечает Джон Джампер, процесс фолдинга белков напоминает сборку мебели из IKEA, которая происходит сама собой сразу после открытия коробки [06:46]. Именно эта 3D-форма определяет функцию белка:

*   Двигатели, обеспечивающие перемещение бактерий [05:38].
*   Мишени для лекарств, деятельность которых нужно заблокировать [07:37].
*   Транспортные системы внутри клеток.

До появления AlphaFold определение структуры одного белка было титаническим трудом. Экспериментаторы могли ждать появления кристаллов белка более года, тратя на одну структуру сотни тысяч долларов [08:52]. На сегодняшний день науке известно около 200 000 структур белков, накопленных за 50 лет в Банке данных белков (PDB) [09:35]. Однако скорость обнаружения новых ДНК-последовательностей в 3000 раз превышает скорость экспериментального определения их структур [10:14].

## 🔬 Рецепт AlphaFold: Почему исследования важнее «железа»
[[JUMP:10:28]]

Успех AlphaFold базируется на трех компонентах: данных, вычислительных мощностях и исследованиях. По мнению Джона Джампера, индустрия часто переоценивает роль первых двух и недооценивает роль научной мысли [11:32].

Цифры проекта AlphaFold:

*   **Данные:** 200 000 структур из публичного архива PDB (доступны всем участникам рынка) [11:44].
*   **Вычисления:** Финальное обучение модели заняло 2 недели на 128 ядрах TPU v3 (сопоставимо с ресурсами крупных университетов) [11:44].
*   **Исследования:** Самый важный множитель. Команда DeepMind разработала архитектуру, которая оказалась в 100 раз эффективнее предыдущих версий [14:10].

Джон Джампер приводит доказательство: когда архитектуру AlphaFold 2 обучили всего на 1% доступных данных, она показала результаты точнее, чем AlphaFold 1, обученная на полном датасете [13:56]. Это подчеркивает тезис спикера: идеи и алгоритмические находки («исследования среднего масштаба») экспоненциально усиливают возможности железа и данных [14:10]. 

## 🧠 За пределами хайпа: Что на самом деле внутри AlphaFold
[[JUMP:14:51]]

После выхода AlphaFold в научном сообществе начались споры о том, какая именно деталь стала ключом к успеху. Многие считали, что это эквивариантность (equivariance) — математическое свойство, учитывающее симметрию в пространстве [15:18]. 

Однако Джон Джампер утверждает, что секрет не в одной «прорывной» идее, а в сумме множества улучшений:

1.  Замена стандартных сверточных сетей и простых трансформеров на специализированную архитектуру [12:52].
2.  Использование механизма Invariant Point Attention (IPA). Эксперименты показали, что удаление эквивариантности лишь незначительно снижает точность, тогда как IPA играет критическую роль [15:45].
3.  Ориентация на биологическую релевантность. Система должна была достичь такого уровня точности, который имеет значение для биолога-экспериментатора, а не просто улучшать метрики на бенчмарке [16:13].

Для проверки результатов с 1994 года проводится слепое тестирование CASP [16:50]. Раз в два года ученые предсказывают структуры белков, которые уже определены экспериментально, но еще не опубликованы. AlphaFold показал в три раза меньшую ошибку, чем любая другая группа в истории конкурса [17:16].

## 🔓 Социальное доказательство и открытость
[[JUMP:17:57]]

DeepMind приняла стратегическое решение открыть исходный код AlphaFold и создать базу данных предсказаний [18:10]. Изначально база содержала 300 000 структур, но позже расширилась до 200 миллионов — это практически все белки известных науке организмов [18:22].

Джон Джампер отмечает интересный социологический эффект:

*   Специалисты по предсказанию структур сразу признали успех модели после CASP [19:01].
*   Биологи-практики оставались скептичными до тех пор, пока не получили доступ к базе данных [19:14].
*   Доверие возникло через «сарафанное радио», когда ученые начали сравнивать предсказания AlphaFold со своими еще не опубликованными результатами и обнаруживать полное совпадение [19:41].

Типичный отзыв исследователя того времени: «Я бился над этой задачей 4 месяца, а AlphaFold решил её за утро. Я хочу вернуть свое время назад» [20:06].

## 🚀 Как ИИ ускоряет реальные открытия
[[JUMP:21:28]]

AlphaFold стал платформой, на которой ученые строят собственные исследования. Джон Джампер подчеркивает, что пользователи находят применение инструменту, о котором создатели даже не догадывались. Например, исследователи научились использовать систему для предсказания взаимодействия белков (протеин-протеиновые комплексы), просто добавляя специальный «разделитель» в последовательность — своеобразный «промпт-инжиниринг» для биологии [21:40].

Ключевые примеры применения:

*   **Ядерный поровый комплекс:** Спустя несколько месяцев после релиза вышел спецвыпуск журнала *Science*, где 3 из 4 статей о сложнейшей системе из сотен белков опирались на AlphaFold [20:47].
*   **Молекулярный шприц (Лаборатория Чжана, MIT):** Ученые использовали AlphaFold, чтобы понять, как белок-шприц прикрепляется к клетке. На основе предсказания они перепроектировали его «ножки» и создали систему адресной доставки лекарств в клетки мозга мышей [24:18].
*   **Оплодотворение:** Открыт новый компонент взаимодействия яйцеклетки и сперматозоида [25:11].

Джон Джампер считает, что ИИ не заменяет эксперимент, а служит мощным усилителем гипотез [25:39]. Вместо того чтобы тратить годы на слепое прощупывание структуры, ученые теперь могут сразу переходить к проверке функциональных гипотез. По его мнению, ИИ для науки в будущем станет еще более универсальным, переходя от узкоспециализированных систем к широким фундаментальным моделям [27:10].