Биология в латентном пространстве: как глубокое обучение и ИИ меняют поиск лекарств

a16z (Andreessen Horowitz) 3,2 тыс. 28 мин 4 мин 03.10.2024
Главное

Искусственный интеллект (ИИ) прошел путь от простых алгоритмов до систем, способных предсказывать структуру белков и проектировать новые лекарства. В этой беседе партнеры фонда a16z Виджай Панде и Боуэн Лю вместе с профессором Стэнфорда Сурьей Гангули обсуждают, как глубокое обучение и «фундаментальные модели» (Foundation Models) меняют биологию, почему физика всё ещё важна и как цифровые двойники людей могут изменить клинические испытания.

🧬 От вычислений к глубокому обучению: история вопроса 0:14

Развитие вычислительных методов в биологии и химии насчитывает более 40 лет . Как отмечает Боуэн Лю, исторически существовало два основных лагеря:

  1. Методы на основе физики: они основываются на фундаментальных законах природы для предсказания химических свойств. Их преимущество — высокая обобщающая способность, но они крайне затратны с точки зрения вычислительных мощностей .
  2. Экспертные системы: наборы эвристик и правил, закодированных людьми. Они работают быстро, но плохо приспособлены к новым, ранее не описанным задачам .

Машинное обучение (ML) стало «золотой серединой», позволяя извлекать знания из данных. Однако настоящий прорыв произошел с появлением глубокого обучения (Deep Learning). В отличие от классического ML, где ученый сам должен был определять ключевые признаки молекулы (features), нейросети научились самостоятельно находить оптимальные представления (representations) данных .

Виджай Панде приводит метафору: расчет «25 + 17» прост в арабских цифрах, но крайне сложен в римских. Правильное представление данных делает вычисления естественными и эффективными .

📊 Революция данных и самообучение 4:18

Современный ИИ базируется на трех столпах: огромные массивы данных, вычислительные мощности и алгоритмы самообучения (Self-supervised learning) .

Сурья Гангули подчеркивает масштаб данных, на которых обучаются современные модели:

Интересно, что, по наблюдениям Гангули, эволюция оставила на планете меньше «текста» в виде белков, чем люди оставили цифрового контента в интернете . При этом данных о 3D-структурах белков всё равно мало — в Protein Data Bank всего около 200 000 решенных структур .

Сложность поиска лекарств иллюстрируется числами: количество стабильных химических соединений достигает 10 в 180-й степени, а потенциально пригодных для лекарств — 10 в 40-й (для сравнения: в видимой Вселенной «всего» 10 в 24-й звезд) .

🧪 AI в разработке лекарств: предсказание структур и свойств 7:10

Главная проблема биологического ИИ — нехватка размеченных данных. Эксперименты дороги и долбительны. Боуэн Лю отмечает, что если в проекте есть хотя бы 100 активных соединений — это уже успех для химика, но ничтожно мало для типичной нейросети . Решением становится дообучение (fine-tuning) фундаментальных моделей на малых выборках.

Ключевые достижения последних лет:

Виджай Панде напоминает о «законе Эрума» (Eroom's Law — обратное закону Мура): стоимость разработки одного лекарства составляет около $2,5 млрд, процесс занимает 10–15 лет, а 90% кандидатов проваливаются в ходе испытаний [10:37, 10:50]. ИИ призван переломить эту тенденцию.

⚖️ Противостояние: Физика против Машинного обучения 14:54

Сурья Гангули выдвигает провокационный тезис: лучшая модель — та, в обучающей выборке которой уже есть ваш пример; вторая по качеству — та, что интерполирует близкие данные . Проблема ML — в неспособности к качественной экстраполяции (работе за пределами известных данных).

В качестве примера он приводит сравнение AlphaFold 3 и алгоритма компании Inductive Bio (портфельная кампания фонда a16z):

«Физика побеждает ML, когда данные теста не похожи на данные обучения», — резюмирует Гангули . Однако он признает, что если ИИ найдет правильное «скрытое пространство» (latent space), то грань между экстраполяцией и интерполяцией стирается (как изучение падения яблока Ньютоном позволило понять движение планет) .

🧬 Цифровые двойники и будущее клиники 21:46

Одной из самых амбициозных целей является создание «фундаментальной модели человека». Биологические системы устойчивы (robust), потому что они эволюционировали 4 миллиарда лет . Эта устойчивость означает наличие низкоразмерной структуры управления, которую ИИ может выявить .

Применение ИИ в клинике может включать:

По мнению участников дискуссии, до массового появления «ИИ-врачей» и «ИИ-биологов» в клиниках может пройти около 10 лет, но траектория развития технологий делает этот сценарий практически неизбежным .

💬 Цитаты

«Эволюция оставила на этой планете меньше текста в виде белков, чем люди оставили в интернете.»

Сурья Гангули 05:23

«ИИ в дизайне лекарств — это больше не вопрос 'если', это вопрос 'как'.»

«Физика побеждает машинное обучение, когда данные обучения не похожи на тестовые данные.»

Сурья Гангули 16:10
👥 Спикеры
🔗 Упомянутые сайты и проекты
📊 Цифры
⚖️ Другая сторона
Биология и медицина AlphaFold a16z ESM3 Drug Discovery Deep Learning