Джон Джампер: «Исследования в 100 раз важнее данных для успеха ИИ»

Y Combinator 41,7 тыс. 27 мин 5 мин 15.07.2025
Главное

Джон Джампер, лауреат Нобелевской премии по химии и руководитель проекта AlphaFold в Google DeepMind, прошел путь от отчисленного аспиранта-физика до человека, совершившего крупнейший прорыв в биологии за последние 50 лет. В своем выступлении на мероприятии Y Combinator он подробно описывает, как сочетание открытых данных, вычислительных мощностей и оригинальных архитектурных идей позволило ИИ решить проблему фолдинга белков, и как это решение сегодня меняет работу тысяч лабораторий по всему миру.

🧬 Путь от физики к «вычислительному прорыву» в биологии 0:00

Джон Джампер начинал свою карьеру как физик-теоретик, надеясь оставить после себя хотя бы одну строчку в учебниках по фундаментальным законам Вселенной . Однако в процессе обучения на PhD он почувствовал, что выбранное направление не приносит удовлетворения, и принял решение оставить аспирантуру. Вместо того чтобы запустить стартап, он устроился в компанию, занимавшуюся вычислительной биологией, где нашел свое призвание: использовать код и уравнения для решения прикладных медицинских задач .

Позже он вернулся в науку, чтобы изучать биофизику и химию, но столкнулся с отсутствием доступа к мощным суперкомпьютерам и кастомным ASIC-чипам, которые были в индустрии . Это заставило его переключиться на статистическую физику и машинное обучение — в то время эти термины звучали в научной среде почти «неприлично», поэтому исследования маскировались под классическую физику . В итоге путь привел его в Google DeepMind, где целью команды стало использование технологий, ранее применявшихся в играх и оптимизации дата-центров, для расширения границ научного познания .

🏗️ Проблема белковых «наномашин» 4:56

Клетка — это не просто набор компонентов с этикетками, а невероятно плотная и сложная среда, напоминающая переполненный бассейн в разгар праздника . Основную работу в этой среде выполняют белки — природные наномашины, состоящие из цепочек аминокислот. Согласно инструкциям в ДНК, эти цепочки собираются и затем спонтанно сворачиваются в уникальные трехмерные структуры.

Как отмечает Джон Джампер, процесс фолдинга белков напоминает сборку мебели из IKEA, которая происходит сама собой сразу после открытия коробки . Именно эта 3D-форма определяет функцию белка:

До появления AlphaFold определение структуры одного белка было титаническим трудом. Экспериментаторы могли ждать появления кристаллов белка более года, тратя на одну структуру сотни тысяч долларов . На сегодняшний день науке известно около 200 000 структур белков, накопленных за 50 лет в Банке данных белков (PDB) . Однако скорость обнаружения новых ДНК-последовательностей в 3000 раз превышает скорость экспериментального определения их структур .

🔬 Рецепт AlphaFold: Почему исследования важнее «железа» 10:28

Успех AlphaFold базируется на трех компонентах: данных, вычислительных мощностях и исследованиях. По мнению Джона Джампера, индустрия часто переоценивает роль первых двух и недооценивает роль научной мысли .

Цифры проекта AlphaFold:

Джон Джампер приводит доказательство: когда архитектуру AlphaFold 2 обучили всего на 1% доступных данных, она показала результаты точнее, чем AlphaFold 1, обученная на полном датасете . Это подчеркивает тезис спикера: идеи и алгоритмические находки («исследования среднего масштаба») экспоненциально усиливают возможности железа и данных .

🧠 За пределами хайпа: Что на самом деле внутри AlphaFold 14:51

После выхода AlphaFold в научном сообществе начались споры о том, какая именно деталь стала ключом к успеху. Многие считали, что это эквивариантность (equivariance) — математическое свойство, учитывающее симметрию в пространстве .

Однако Джон Джампер утверждает, что секрет не в одной «прорывной» идее, а в сумме множества улучшений:

  1. Замена стандартных сверточных сетей и простых трансформеров на специализированную архитектуру .
  2. Использование механизма Invariant Point Attention (IPA). Эксперименты показали, что удаление эквивариантности лишь незначительно снижает точность, тогда как IPA играет критическую роль .
  3. Ориентация на биологическую релевантность. Система должна была достичь такого уровня точности, который имеет значение для биолога-экспериментатора, а не просто улучшать метрики на бенчмарке .

Для проверки результатов с 1994 года проводится слепое тестирование CASP . Раз в два года ученые предсказывают структуры белков, которые уже определены экспериментально, но еще не опубликованы. AlphaFold показал в три раза меньшую ошибку, чем любая другая группа в истории конкурса .

🔓 Социальное доказательство и открытость 17:57

DeepMind приняла стратегическое решение открыть исходный код AlphaFold и создать базу данных предсказаний . Изначально база содержала 300 000 структур, но позже расширилась до 200 миллионов — это практически все белки известных науке организмов .

Джон Джампер отмечает интересный социологический эффект:

Типичный отзыв исследователя того времени: «Я бился над этой задачей 4 месяца, а AlphaFold решил её за утро. Я хочу вернуть свое время назад» .

🚀 Как ИИ ускоряет реальные открытия 21:28

AlphaFold стал платформой, на которой ученые строят собственные исследования. Джон Джампер подчеркивает, что пользователи находят применение инструменту, о котором создатели даже не догадывались. Например, исследователи научились использовать систему для предсказания взаимодействия белков (протеин-протеиновые комплексы), просто добавляя специальный «разделитель» в последовательность — своеобразный «промпт-инжиниринг» для биологии .

Ключевые примеры применения:

Джон Джампер считает, что ИИ не заменяет эксперимент, а служит мощным усилителем гипотез . Вместо того чтобы тратить годы на слепое прощупывание структуры, ученые теперь могут сразу переходить к проверке функциональных гипотез. По его мнению, ИИ для науки в будущем станет еще более универсальным, переходя от узкоспециализированных систем к широким фундаментальным моделям .

💬 Цитаты

«Реальная стоимость вычислений — это стоимость идей, которые не сработали.»

Джон Джампер 12:00

«Исследования и открытия усиливают данные и вычисления — они работают вместе.»

Джон Джампер 14:26

«Наука — это выдвижение гипотез и их проверка, а не просто определение структуры конкретного белка.»

Джон Джампер 23:13
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Фолдинг белков
Процесс спонтанного сворачивания цепочки аминокислот в трехмерную функциональную структуру.
Эквивариантность
Математическое свойство алгоритма, при котором результат вращения входных данных равен вращению результата.
TPU (Tensor Processing Unit)
Специализированные процессоры от Google, оптимизированные для задач машинного обучения.
📊 Цифры
🗓 Хронология
  1. 1994 Начало проведения конкурса CASP для слепой оценки предсказаний структур.
  2. 2020 AlphaFold 2 совершает прорыв на конкурсе CASP14, решив проблему фолдинга.
  3. 2021 Открытие исходного кода AlphaFold и публикация базы данных предсказаний.
⚖️ Другая сторона
Наука Джон Джампер AlphaFold Google DeepMind биотехнологии протеины