Биология в латентном пространстве: как глубокое обучение и ИИ меняют поиск лекарств

Искусственный интеллект (ИИ) прошел путь от простых алгоритмов до систем, способных предсказывать структуру белков и проектировать новые лекарства. В этой беседе партнеры фонда a16z Виджай Панде и Боуэн Лю вместе с профессором Стэнфорда Сурьей Гангули обсуждают, как глубокое обучение и «фундаментальные модели» (Foundation Models) меняют биологию, почему физика всё ещё важна и как цифровые двойники людей могут изменить клинические испытания.

🧬 От вычислений к глубокому обучению: история вопроса 0:14

Развитие вычислительных методов в биологии и химии насчитывает более 40 лет . Как отмечает Боуэн Лю, исторически существовало два основных лагеря:

Методы на основе физики: они основываются на фундаментальных законах природы для предсказания химических свойств. Их преимущество — высокая обобщающая способность, но они крайне затратны с точки зрения вычислительных мощностей .
Экспертные системы: наборы эвристик и правил, закодированных людьми. Они работают быстро, но плохо приспособлены к новым, ранее не описанным задачам .

Машинное обучение (ML) стало «золотой серединой», позволяя извлекать знания из данных. Однако настоящий прорыв произошел с появлением глубокого обучения (Deep Learning). В отличие от классического ML, где ученый сам должен был определять ключевые признаки молекулы (features), нейросети научились самостоятельно находить оптимальные представления (representations) данных .

Виджай Панде приводит метафору: расчет «25 + 17» прост в арабских цифрах, но крайне сложен в римских. Правильное представление данных делает вычисления естественными и эффективными .

📊 Революция данных и самообучение 4:18

Современный ИИ базируется на трех столпах: огромные массивы данных, вычислительные мощности и алгоритмы самообучения (Self-supervised learning) .

Сурья Гангули подчеркивает масштаб данных, на которых обучаются современные модели:

GPT-4: обучена на 5 триллионах токенов. Человеку потребовалось бы 20 000 лет, чтобы просто прочесть такой объем текста .
ESM3 (Evolutionary Scale Modeling): модель для белков, обученная на 2,8 млрд аминокислотных последовательностей. Это примерно 1 триллион токенов — масштаб, сопоставимый с GPT-4 .

Интересно, что, по наблюдениям Гангули, эволюция оставила на планете меньше «текста» в виде белков, чем люди оставили цифрового контента в интернете . При этом данных о 3D-структурах белков всё равно мало — в Protein Data Bank всего около 200 000 решенных структур .

Сложность поиска лекарств иллюстрируется числами: количество стабильных химических соединений достигает 10 в 180-й степени, а потенциально пригодных для лекарств — 10 в 40-й (для сравнения: в видимой Вселенной «всего» 10 в 24-й звезд) .

🧪 AI в разработке лекарств: предсказание структур и свойств 7:10

Главная проблема биологического ИИ — нехватка размеченных данных. Эксперименты дороги и долбительны. Боуэн Лю отмечает, что если в проекте есть хотя бы 100 активных соединений — это уже успех для химика, но ничтожно мало для типичной нейросети . Решением становится дообучение (fine-tuning) фундаментальных моделей на малых выборках.

Ключевые достижения последних лет:

AlphaFold и RosettaFold: практически решили проблему предсказания 3D-структуры белка по его последовательности .
Многокритериальная оптимизация: современные модели не просто ищут связь с мишенью, но и одновременно проверяют растворимость, токсичность и легкость синтеза молекулы .
Генеративный ИИ (Диффузионные модели): позволяют создавать молекулы с заданными свойствами «с нуля» .

Виджай Панде напоминает о «законе Эрума» (Eroom's Law — обратное закону Мура): стоимость разработки одного лекарства составляет около $2,5 млрд, процесс занимает 10–15 лет, а 90% кандидатов проваливаются в ходе испытаний [10:37, 10:50]. ИИ призван переломить эту тенденцию.

⚖️ Противостояние: Физика против Машинного обучения 14:54

Сурья Гангули выдвигает провокационный тезис: лучшая модель — та, в обучающей выборке которой уже есть ваш пример; вторая по качеству — та, что интерполирует близкие данные . Проблема ML — в неспособности к качественной экстраполяции (работе за пределами известных данных).

В качестве примера он приводит сравнение AlphaFold 3 и алгоритма компании Inductive Bio (портфельная кампания фонда a16z):

На 50 самых популярных лигандах AlphaFold 3 показал отличные результаты .
Однако на менее изученных данных физический алгоритм стыковки (docking) превзошел AlphaFold на 8% .

«Физика побеждает ML, когда данные теста не похожи на данные обучения», — резюмирует Гангули . Однако он признает, что если ИИ найдет правильное «скрытое пространство» (latent space), то грань между экстраполяцией и интерполяцией стирается (как изучение падения яблока Ньютоном позволило понять движение планет) .

🧬 Цифровые двойники и будущее клиники 21:46

Одной из самых амбициозных целей является создание «фундаментальной модели человека». Биологические системы устойчивы (robust), потому что они эволюционировали 4 миллиарда лет . Эта устойчивость означает наличие низкоразмерной структуры управления, которую ИИ может выявить .

Применение ИИ в клинике может включать:

Отбор пациентов: ИИ может анализировать электронные медкарты и биомаркеры, чтобы находить группы людей, которым лекарство поможет с наибольшей вероятностью, уменьшая неоднородность выборки .
Прогнозирование исходов: даже небольшое повышение вероятности успеха КИ (с 20% до 30%) радикально изменит экономику индустрии .
Персонализированная медицина: использование индуцированных плюрипотентных стволовых клеток (iPSC) для создания тканей конкретных пациентов (например, клеток сердца) и проверки лекарств на них перед лечением .

По мнению участников дискуссии, до массового появления «ИИ-врачей» и «ИИ-биологов» в клиниках может пройти около 10 лет, но траектория развития технологий делает этот сценарий практически неизбежным .