# Биология в латентном пространстве: как глубокое обучение и ИИ меняют поиск лекарств

Источник: https://www.youtube.com/watch?v=XtErjGIBGL8
Канал: a16z (Andreessen Horowitz)
Опубликовано: 03.10.2024

---

Искусственный интеллект (ИИ) прошел путь от простых алгоритмов до систем, способных предсказывать структуру белков и проектировать новые лекарства. В этой беседе партнеры фонда a16z Виджай Панде и Боуэн Лю вместе с профессором Стэнфорда Сурьей Гангули обсуждают, как глубокое обучение и «фундаментальные модели» (Foundation Models) меняют биологию, почему физика всё ещё важна и как цифровые двойники людей могут изменить клинические испытания.

## 🧬 От вычислений к глубокому обучению: история вопроса
[[JUMP:00:14]]

Развитие вычислительных методов в биологии и химии насчитывает более 40 лет [02:14]. Как отмечает Боуэн Лю, исторически существовало два основных лагеря:

1.  **Методы на основе физики:** они основываются на фундаментальных законах природы для предсказания химических свойств. Их преимущество — высокая обобщающая способность, но они крайне затратны с точки зрения вычислительных мощностей [02:27].
2.  **Экспертные системы:** наборы эвристик и правил, закодированных людьми. Они работают быстро, но плохо приспособлены к новым, ранее не описанным задачам [02:41].

Машинное обучение (ML) стало «золотой серединой», позволяя извлекать знания из данных. Однако настоящий прорыв произошел с появлением глубокого обучения (Deep Learning). В отличие от классического ML, где ученый сам должен был определять ключевые признаки молекулы (features), нейросети научились самостоятельно находить оптимальные представления (representations) данных [03:38]. 

Виджай Панде приводит метафору: расчет «25 + 17» прост в арабских цифрах, но крайне сложен в римских. Правильное представление данных делает вычисления естественными и эффективными [03:52].

## 📊 Революция данных и самообучение
[[JUMP:04:18]]

Современный ИИ базируется на трех столпах: огромные массивы данных, вычислительные мощности и алгоритмы самообучения (Self-supervised learning) [04:18]. 

Сурья Гангули подчеркивает масштаб данных, на которых обучаются современные модели:

*   **GPT-4:** обучена на 5 триллионах токенов. Человеку потребовалось бы 20 000 лет, чтобы просто прочесть такой объем текста [04:42].
*   **ESM3 (Evolutionary Scale Modeling):** модель для белков, обученная на 2,8 млрд аминокислотных последовательностей. Это примерно 1 триллион токенов — масштаб, сопоставимый с GPT-4 [05:10].

Интересно, что, по наблюдениям Гангули, эволюция оставила на планете меньше «текста» в виде белков, чем люди оставили цифрового контента в интернете [05:23]. При этом данных о 3D-структурах белков всё равно мало — в Protein Data Bank всего около 200 000 решенных структур [05:36].

Сложность поиска лекарств иллюстрируется числами: количество стабильных химических соединений достигает 10 в 180-й степени, а потенциально пригодных для лекарств — 10 в 40-й (для сравнения: в видимой Вселенной «всего» 10 в 24-й звезд) [06:04].

## 🧪 AI в разработке лекарств: предсказание структур и свойств
[[JUMP:07:10]]

Главная проблема биологического ИИ — нехватка размеченных данных. Эксперименты дороги и долбительны. Боуэн Лю отмечает, что если в проекте есть хотя бы 100 активных соединений — это уже успех для химика, но ничтожно мало для типичной нейросети [07:36]. Решением становится дообучение (fine-tuning) фундаментальных моделей на малых выборках.

Ключевые достижения последних лет:

*   **AlphaFold и RosettaFold:** практически решили проблему предсказания 3D-структуры белка по его последовательности [08:14].
*   **Многокритериальная оптимизация:** современные модели не просто ищут связь с мишенью, но и одновременно проверяют растворимость, токсичность и легкость синтеза молекулы [10:12].
*   **Генеративный ИИ (Диффузионные модели):** позволяют создавать молекулы с заданными свойствами «с нуля» [11:41].

Виджай Панде напоминает о «законе Эрума» (Eroom's Law — обратное закону Мура): стоимость разработки одного лекарства составляет около $2,5 млрд, процесс занимает 10–15 лет, а 90% кандидатов проваливаются в ходе испытаний [10:37, 10:50]. ИИ призван переломить эту тенденцию.

## ⚖️ Противостояние: Физика против Машинного обучения
[[JUMP:14:54]]

Сурья Гангули выдвигает провокационный тезис: лучшая модель — та, в обучающей выборке которой уже есть ваш пример; вторая по качеству — та, что интерполирует близкие данные [15:07]. Проблема ML — в неспособности к качественной экстраполяции (работе за пределами известных данных).

В качестве примера он приводит сравнение AlphaFold 3 и алгоритма компании Inductive Bio (портфельная кампания фонда a16z):

*   На 50 самых популярных лигандах AlphaFold 3 показал отличные результаты [15:46].
*   Однако на менее изученных данных физический алгоритм стыковки (docking) превзошел AlphaFold на 8% [16:00]. 

«Физика побеждает ML, когда данные теста не похожи на данные обучения», — резюмирует Гангули [16:10]. Однако он признает, что если ИИ найдет правильное «скрытое пространство» (latent space), то грань между экстраполяцией и интерполяцией стирается (как изучение падения яблока Ньютоном позволило понять движение планет) [16:36].

## 🧬 Цифровые двойники и будущее клиники
[[JUMP:21:46]]

Одной из самых амбициозных целей является создание «фундаментальной модели человека». Биологические системы устойчивы (robust), потому что они эволюционировали 4 миллиарда лет [22:03]. Эта устойчивость означает наличие низкоразмерной структуры управления, которую ИИ может выявить [22:16].

Применение ИИ в клинике может включать:

*   **Отбор пациентов:** ИИ может анализировать электронные медкарты и биомаркеры, чтобы находить группы людей, которым лекарство поможет с наибольшей вероятностью, уменьшая неоднородность выборки [23:06].
*   **Прогнозирование исходов:** даже небольшое повышение вероятности успеха КИ (с 20% до 30%) радикально изменит экономику индустрии [24:12].
*   **Персонализированная медицина:** использование индуцированных плюрипотентных стволовых клеток (iPSC) для создания тканей конкретных пациентов (например, клеток сердца) и проверки лекарств на них перед лечением [25:07].

По мнению участников дискуссии, до массового появления «ИИ-врачей» и «ИИ-биологов» в клиниках может пройти около 10 лет, но траектория развития технологий делает этот сценарий практически неизбежным [27:59].