AI is Industrializing Discovery

В эпоху стремительного развития технологий искусственный интеллект начинает играть определяющую роль в фундаментальной науке. Генеральный партнер венчурного фонда Andreessen Horowitz Виджай Пандей утверждает, что современная медицина находится в эпицентре новой промышленной революции, в ходе которой алгоритмы машинного обучения превращают кустарный поиск лекарственных соединений в автоматизированный и масштабируемый инженерный процесс.

🏭 Исторический контекст: от ремесла к фабрикам 0:15

Переход к индустриальной модели всегда знаменует собой фундаментальный сдвиг в человеческой деятельности. В качестве иллюстрации этого тезиса Виджай Пандей ссылается на книгу Алана Гринспена и Адриана Вулдриджа об истории американского капитализма. Ключевая идея авторов заключается в том, что любая промышленная революция характеризуется уходом от штучного, ремесленного (архитектурного или кустарного) создания вещей в пользу стандартизированных фабричных процессов.

Исторически этот переход редко происходил гладко. Пандей напоминает о существовании луддитов, которые физически уничтожали фабричные станки, поскольку видели в автоматизации угрозу своему привычному укладу жизни. По мнению венчурного капиталиста, весьма примечательна разница в скорости внедрения инноваций между США и Европой в середине и конце XIX века. Пандей предполагает, что в европейских странах из-за богатой истории и высоких эстетических ожиданий стул должен был быть произведением искусства, созданным потомственным мастером. В то же время в молодой Америке людям требовалось просто на чем-то сидеть, что обусловило их высокую готовность покупать фабричную продукцию.

Спикер подчеркивает важный экономический нюанс:

Первые промышленные товары практически всегда уступают по качеству и красоте ремесленным изделиям.
Они выглядят грубо и даже уродливо, однако их ключевое преимущество — низкая стоимость.

Главным драйвером изменений, по словам Пандея, становится инженерный аналог сложного процента — возможность ежегодно улучшать технологический процесс на 10% или 20%. За счет такого экспоненциального роста технология, которая изначально казалась несовершенной или ограниченной, со временем становится невероятно дешевой и качественной.

⚙️ Две предпосылки промышленной революции 3:20

Пандей выделяет два обязательных условия, без которых невозможно перевести какую-либо отрасль на промышленные рельсы:

Достаточный уровень развития фундаментальной науки. Научная база должна быть проработана настолько, чтобы перестать быть главным ограничивающим фактором. Например, при создании первых коммерческих паровых двигателей инженерам не требовалось проводить глубокие фундаментальные исследования, хотя термодинамика как наука развивалась параллельно.
Возможность инженерного управления (инженерируемость). В системе должно быть достаточное количество регулируемых параметров («ручек» настройки и тумблеров), манипулируя которыми инженеры могут добиваться стабильного ежегодного прироста эффективности.

В качестве современных примеров работающей индустриализации Пандей приводит закон Мура в полупроводниковой промышленности и экспоненциальное снижение стоимости геномного секвенирования. В обоих случаях прогресс обеспечивался не каким-то одним прорывом, а синергией сотен мелких улучшений в материаловедении, оптике и электротехнике.

🔬 Искусственный интеллект как локомотив открытий 4:51

Пандей заявляет, что сфера здравоохранения сейчас находится непосредственно в процессе индустриализации, а главным инструментом трансформации выступают искусственный интеллект и машинное обучение.

Традиционно поиск новых лекарств и методов диагностики являлся исключительно кустарным процессом. Группы ученых со степенями PhD в лабораториях начинали работу с «чистого листа», пытаясь интуитивно разгадать сложнейшие механизмы биологии. Спикер намеренно использует формулировку «ИИ индустриализирует открытия» в настоящем длительном времени, подчеркивая, что индустрия находится лишь в середине этого пути, который может занять еще не одно десятилетие.

В качестве доказательств начавшихся тектонических сдвигов Пандей приводит несколько направлений:

Дизайн лекарств: Алгоритмы ИИ успешно применяются для синтеза малых молекул, идентификации перспективных соединений-лидеров и оптимизации медицинской химии.
Диагностика и биомаркеры: В то время как традиционный тест на ПСА (простат-специфический антиген) имеет точность около 50%, новые биомаркеры, обнаруженные ИИ, показывают чувствительность и специфичность выше 90%.
Масштабируемость процессов: На примере стартапа Freenome спикер объясняет, что создание ИИ-теста для выявления колоректального рака позволяет разработать универсальный алгоритмический процесс, который затем можно легко масштабировать на диагностику других видов онкологических заболеваний.

🧠 Глубокое обучение и разрушение биологических мифов 8:23

Для понимания сути происходящего Пандей объясняет механизм работы глубокого обучения (Deep Learning). В нейронных сетях данные поступают на нижний уровень (например, в виде сырых пикселей изображения) и по мере прохождения через слои преобразуются в иерархическую структуру понимания. Пиксели складываются в простые геометрические формы, те — в отдельные черты, а они, в свою очередь, формируют лица.

«Самое интригующее отличие глубокого обучения от классического компьютерного зрения заключается в том, что мы не учили компьютер тому, что существуют носы или глаза. Он сам выделил эти признаки напрямую из данных», — подчеркивает спикер.

Благодаря универсальности этот метод применим не только к лицам людей, но и к автомобилям, предметам мебели, а также к биологическим изображениям в микроскопии, радиологии и патоморфологии. Более того, Пандей предлагает рассматривать последовательность ДНК как одномерное изображение, что позволяет использовать те же алгоритмы для поиска циркулирующей опухолевой ДНК в крови для раннего выявления рака.

Существующий в индустрии скепсис Пандей разбивает с помощью развенчания четырех популярных мифов.

Миф 1: Молекулы слишком сложны для ИИ, а у человека есть интуиция

Оппоненты технологий утверждают, что химические соединения принципиально отличаются от картинок. Пандей парирует это развитием графовых сверточных нейросетей (Graph Convolutional Networks), где молекулы представляются в виде математических графов. Ссылаясь на публикацию Эвана Фейнберга 2018 года в журнале ACS Central Science, спикер указывает, что точность предсказания свойств молекул такими сетями драматически превышает показатели классического машинного обучения, включая метод случайного леса (Random Forest).

📊 Проблема малых данных и сила предобучения 12:05

Миф 2: ИИ требуются десятки тысяч примеров для обучения

В компьютерном зрении модели тренируют на огромных массивах данных (например, тысячи изображений кошек или пиццы). В фармацевтике такой роскоши нет, поскольку человечество не создало даже десяти тысяч эффективных лекарств за всю историю.

Для обхода этого ограничения Пандей предлагает использовать так называемое одномоментное обучение (One-shot learning). Он проводит аналогию с ребенком: ему не нужно показывать 10 000 фотографий слона или футбольного мяча, достаточно одного-двух раз, чтобы ребенок уловил метрику сходства и начал безошибочно отличать один объект от другого.

В рамках токсикологического проекта Tox21 новые ИИ-методы продемонстрировали способность выдавать высокие показатели площади под кривой (AUC) — близкие к идеальной единице — даже при наличии всего одного положительного и одного отрицательного примера в обучающей выборке, тогда как старые методы выдавали результат на уровне случайного угадывания (0.5).

Миф 3: Ученые обладают фундаментальными знаниями, а ИИ начинает с нуля

Решением этой проблемы, по словам Пандея, является предобучение (Pre-training). Алгоритм сначала пропускают через гигантские массивы неразмеченных данных, чтобы он усвоил саму «природу химии» и законы взаимодействия молекул. После этого модель демонстрирует гораздо более высокую производительность, требуя для финальной настройки минимальное количество специализированных данных.

Миф 4: ИИ не способен на истинно новые открытия

Критики сомневаются, что компьютер может генерировать принципиально новые научные инсайты. Пандей видит выход в синергии машинного обучения и фундаментальной физики. Молекулы можно представлять не только в виде графов, но и в виде распределения электронной плотности, что ближе к классическому мышлению химиков. Интеграция нейросетей с физическими теориями (в частности, модифицированными уравнениями Кона — Шэма для квантовомеханических расчетов) позволяет делать предсказания с точностью, недостижимой для подходов, основанных исключительно на ИИ или исключительно на традиционной физике.

🔮 Будущее медицины: суперсилы для ученых и снижение затрат 17:08

Долгое время в науке господствовала гильдейская модель наставничества. Пандей, опираясь на свой 20-летний опыт профессора в Стэнфордском университете, подтверждает, что передача знаний от профессора к аспирантам всегда напоминала средневековое ученичество. Индустриализация изменит этот подход, но, по прогнозу спикера, она не приведет к исключению людей из цепочки создания ценности.

Индустриализация открытий, как считает Пандей, даст ученым «суперсилы», объединив человеческий интеллект с возможностями искусственного интеллекта и роботизированных лабораторий, генерирующих данные в круглосуточном режиме.

Среди главных практических следствий этой трансформации спикер выделяет три направления:

Прогнозирование клинических испытаний: ИИ позволит использовать ранние доклинические данные для предсказания исхода первой фазы, а результаты первой фазы — для прогнозирования второй. С учетом колоссальной стоимости испытаний, даже скромное улучшение точности прогнозов или приоритизации молекул на 5–10% сэкономит огромные средства и ускорит вывод блокбастеров на рынок.
Переосмысление биологических моделей: Животные модели и органоиды ex vivo перестанут восприниматься как истина в последней инстанции («да» или «нет» для проекта). Они превратятся в набор признаков (features) для ИИ-моделей, которые будут транслировать данные экспериментов на мышах в высокоточные предсказания для человеческого организма.
Удешевление терапевтических белков: На сегодняшний день 7 из 10 самых продаваемых лекарств в мире относятся к белковым препаратам и моноклональным антителам, производство которых крайне дорого. Пандей ожидает, что методы машинного обучения позволят снизить стоимость производства таких лекарств в 2, 5 или даже 10 раз, что радикально повысит их доступность для пациентов.

В завершение Пандей призывает специалистов, обладающих глубокими компетенциями в области ИИ, объединять усилия с экспертами из биофармацевтики и медицины, поскольку именно на стыке этих дисциплин сейчас создаются инструменты для решения задач, которые ранее человечество считало невыполнимыми.