Как Future House автоматизирует научные открытия с помощью ИИ-агентов

Автоматизация научных исследований выходит на новый уровень благодаря большим языковым моделям, способным анализировать гигантские объемы литературы и координировать лабораторные инструменты. В интервью для подкаста The Cognitive Revolution руководитель научного направления организации Future House Эндрю Уайт (Andrew White) подробно рассказал о создании специализированных ИИ-агентов, способных превзойти человека в решении сложных исследовательских задач. Главный сюжет беседы разворачивается вокруг изменения самой парадигмы открытий: от безуспешных попыток симуляции биологии на суперкомпьютерах к созданию полуавтономных систем, оркеструющих реальные эксперименты и преодолевающих ограничения человеческого разума.

🔬 От статистической механики до «редтиминга» GPT-4 4:38

Эндрю Уайт пришел в сферу искусственного интеллекта из фундаментальной науки — его докторская степень и постдок были связаны со статистической механикой и молекулярным моделированием. Этот раздел термодинамики изучает статистику систем с экстремально большим количеством степеней свободы, включая симуляции газов, жидкостей и белков. Переломным моментом в его карьере стал академический отпуск (сабатикал) в 2019 году в Институте чистой и прикладной математики (IPAM) при Калифорнийском университете в Лос-Анджелесе (UCLA). Там он познакомился с ведущими мировыми учеными, среди которых были Ян Лекун (Yann LeCun), Йошуа Бенжио (Yoshua Bengio) и Пэт Райли (Pat Riley), возглавлявший в то время подразделение Google Accelerated Science. В этот же период Матиас Рупп (Matthias Rupp) и Анатоль фон Лилиенфельд (Anatole von Lilienfeld) разработали систему, которая уже тогда демонстрировала передовой уровень предсказания энергии малых молекул, что доказало неизбежность взлета ИИ в химии и физике.

Вдохновленный поездкой на конференцию по материаловедению в Токио, где выступали Сергей Калинин (Sergey Kalinin) и харизматичный Ли Кронин (Lee Cronin), Уайт написал интерактивный учебник «Глубокое обучение для молекул и материалов» (Deep Learning for Molecules and Materials) в формате Jupiter book. Настоящим откровением для него стала работа группы Гербранда Седера (Gerbrand Ceder) и Кристин Перссон (Kristin Persson), в которой использовался алгоритм Word2Vec для анализа материаловедческой литературы. По словам Уайта, его поразила возможность кодировать свойства материалов с помощью естественного языка вместо сложного ручного проектирования признаков (feature engineering).

Позже Уайт совместно с Гленном Хоки (Glenn Hocky) из Нью-Йоркского университета (NYU) начал исследовать управление движком визуализации молекулярной динамики VMD с помощью голосовых команд, используя раннюю модель OpenAI Codex. Это оказалось колоссальным прорывом, поскольку:

Движок VMD написан на редком и архаичном языке программирования TCL.
Раньше исследователям приходилось часами искать код в Google, копировать его и переписываться с коллегами ради простых скриптов анализа.
Языковая модель позволила генерировать рабочий код для симуляций «с нуля» по текстовому запросу.

Результаты этой работы были опубликованы в передовом журнале Digital Discovery, основанном Аланом Аспуру-Гузиком (Alán Aspuru-Guzik). Публикации в Twitter привлекли внимание представителей OpenAI. В августе 2022 года компания пригласила Уайта войти в состав команды «красного тимминга» (red team) строящейся тогда модели GPT-4 для оценки рисков, связанных с химическим, биологическим, радиологическим и ядерным оружием (CBRN).

🧪 Опыт red team: от правдоподобной галлюцинации к ChemCrow 10:56

Первые недели работы с GPT-4 вызвали у Эндрю Уайта смешанные чувства. По его воспоминаниям, при запросе инструкций по синтезу боевых отравляющих веществ модель выдавала пугающе убедительные пошаговые планы. Однако, детально прорисовав химические структуры и проследив за перемещением атомов от этапа к этапу, ученый обнаружил, что весь текст был чистой галлюцинацией — у модели отсутствовало реальное понимание законов сохранения массы и связи атомов. По его выражению, нейросеть оказалась «мастером вешать лапшу на уши». В течение осени 2022 года Уайт считал, что новая модель — это лишь скромное инкрементальное улучшение.

Ситуация кардинально изменилась в конце ноября и начале декабря 2022 года, когда Уайт начал подключать к языковой модели внешние инструменты, используя первые идеи фреймворка LangChain и API только что вышедшей ChatGPT. Появление таких подходов, как концепции MRKL и ReAct, стало фундаментальным сдвигом. Выяснилось две ключевые особенности:

Меры безопасности и фильтры, внедренные разработчиками в саму модель, полностью теряли эффективность, как только она получала возможность вызывать сторонние инструменты через API.
Ограничение свободы действий модели жесткими рамками (rails), где она могла оперировать химическими соединениями только через вызовы проверенных инструментов, привело к взрывному росту точности.

Этот подход лег в основу проекта ChemCrow. Модель успешно справилась с полным циклом научного открытия: она проанализировал литературу, спланировала многостадийный синтез нового красителя с заданным спектром поглощения и отправила команды на роботизированную облачную лабораторию IBM RoboRXN. И хотя из-за нехватки времени финальную стадию эксперимента человеку пришлось завершать вручную, точность предсказания спектра оказалась поразительной — погрешность составила всего 15 нанометров.

🧠 Почему новые модели вроде o1 изменят правила игры 13:46

Ведущий подкаста привел пример из собственного опыта, когда ранняя версия ИИ проваливала роль репетитора по химии из-за постоянных ошибок в базовой стехиометрии и подсчете пропорций. Эндрю Уайт подтвердил этот парадокс: нейросети учатся «задом наперед» по сравнению с классическими компьютерами. Они прекрасно справляются со сложными творческими рассуждениями высокого уровня, формулируют правила реакций и описывают свойства сложных молекул, но спотыкаются на элементарных автоматических шагах — подсчете электронов, атомов и составлении баланса масс.

Именно поэтому Уайт, принимавший участие в predeployment-тестировании и составлении технического отчета для модели OpenAI o1, выражает огромный оптимизм в отношении ее будущего. Модели нового поколения обладают способностью к длительному планированию и преодолевают детские ошибки. Как отмечает спикер, когда ИИ научится абсолютно точно считать атомы и электроны, произойдет мощный скачок, который позволит отказаться от жестких программных ограничений и внешних инструментов.

В ходе тестов на бенчмарке LabBench, созданном командой Future House для проверки биологических и лабораторных протоколов, модель o1 продемонстрировала результаты, превосходящие уровень экспертов-людей в дисциплине ProtocolQA (оценка качества лабораторных планов в биологии). В химии модель все еще буксует на отдельных этапах, но в биологических процессах (например, в планировании молекулярного клонирования) она уже вплотную подобралась к автономному планированию, несмотря на гигантскую длину биологических последовательностей.

🧬 Почему Future House выбрала биологию, а не физику 20:21

Проект Future House позиционируется как масштабный научно-исследовательский «муншот» с финансированием около 50 миллионов долларов, нацеленный на автоматизацию науки. Организация была создана Сэмом Родригесом (Sam Rodriguez) и Эндрю Уайтом при финансовой поддержке экс-главы Google Эрика Шмидта (Eric Schmidt). Выбор биологии в качестве главного полигона для ИИ обусловлен несколькими фундаментальными причинами:

Платформенный характер технологий: В отличие от химии, где каждый синтез уникален и создается под конкретную молекулу («bespoke»), в биологии существуют универсальные технологические платформы. Проектирование белков, молекулярное клонирование и бесклеточный синтез стандартизированы.
Низкая стоимость генерации данных: Стоимость секвенирования ДНК стремится к нулю, а синтез стал невероятно дешевым. Например, заказ синтеза гена для производства белка из 100 аминокислот сегодня обходится всего в 25 долларов.
Безграничная сложность: В физике ученые стремятся к редукционизму — сведению явлений к фундаментальным уравнениям. В биологии же базовый закон уже известен (это эволюция), но количество «темной материи» — неаннотированных геномов, уникальных функций белков и сложных взаимодействий — бесконечно.

### Сложность, которую невозможно упростить до комиксов

Эндрю Уайт категорически не согласен с попытками свести биологические системы к простым схематичным картинкам. Он приводит пример изучения отдельного белка: для его понимания недостаточно знать кристаллическую структуру. Ученому необходим статистический ансамбль конфигураций, понимание посттрансляционных модификаций, учет химических реакций и тончайших квантовых эффектов. Так, перемещение протона через воду в активном центре белка по так называемой «водной цепочке» (water wire) кардинально отличается от классической диффузии и требует вычислений электронной плотности в приближении Борна — Оппенгеймера.

«Вы никогда не сможете свести биологию к карикатурным диаграммам. Сложность присутствует на каждом уровне, и она всегда играет роль. Это дисциплина, которой движут наблюдения и эмпирические измерения, а не виртуальные модели, выведенные в silico», — утверждает Эндрю Уайт.

Из этого вытекает важный тезис спикера: он скептически относится к гипотезе о том, что сверхинтеллект (AGI/ASI) сможет однажды «проснуться» и вылечить рак силой одной лишь чистой мысли. Без постоянного эмпирического измерения реальности в лаборатории и высокоскоростного цикла проверки гипотез сама по себе глубина мышления ИИ не сможет масштабироваться.

🤖 Философия автоматизации: отказ от роботов-гуманоидов 31:14

В отличие от многих амбициозных стартапов в сфере биотехнологий, команда Future House сознательно приняла решение полностью отказаться от разработки собственной лабораторной робототехники. Уайт отмечает, что компании вроде Ginkgo Bioworks и Emerald Cloud Labs проделали огромную работу, но стремление полностью автоматизировать физический мир — это отдельный сложнейший вызов, на котором гибли многие проекты.

Future House использует стандартную лабораторную автоматизацию:

Роботизированные манипуляторы;
Автоматические дозаторы жидкостей (liquid handlers);
Акустические диспенсеры жидкостей.

Однако они не пытаются сделать лабораторию полностью автономной. Уайт иронизирует над «секретом Полишинеля» индустрии: за фасадом многих высокотехнологичных платформ скрываются так называемые «биороботы» или «мокрые роботы» — обычные люди, выполняющие операции, автоматизировать которые слишком дорого и бессмысленно ради выигрыша в две минуты. Спикер не является пуристом концепции «автоматизации с выключенным светом» (lights-out automation). По его мнению, гораздо перспективнее выглядит подход молодой компании Medra, которая пытается оснастить обычные лаборатории универсальными роборуками-захватами, а не строить кастомные циклопические комплексы.

Цель Future House — создание полуавтономных систем на горизонте 10 лет. ИИ будет выступать не как изолированный сверхразум, которому дали команду «изучи мир и вернись через год», а как инструмент для итеративного решения конкретных медицинских и научных квестов рука об руку с человеком.

📉 Иллюзия закона Мура и реальные бутылочные горлышки биотеха 40:02

Существует популярная ментальная модель: ИИ будет проводить миллионы симуляций в silico, а ученые — лишь валидировать лучшие результаты в мокрой лаборатории, что увеличит точность попадания (hit rate) в сотни раз. Уайт признается, что у него самого нет однозначного ответа на этот вопрос. С одной стороны, точные расчеты свободной энергии связывания малой молекулы с белком в облаке стоят около $10–$15, а реальный эксперимент в лаборатории — около $20 (иногда падает до $5). Цена компьютерного моделирования снижается с той же скоростью, что и цена реальной биологии.

С другой стороны, Уайт напоминает исторический урок компании D. E. Shaw Research. Около 15–20 лет назад они собрали лучших инженеров и ученых в Нью-Йорке на Таймс-Сквер с целью решить проблему фолдинга белка методом молекулярной динамики «от атома до макроструктур». Они построили кастомные суперкомпьютеры (серия Anton) и радовались графикам: «к 2030 году смоделируем органеллу, к 2050 — целую клетку». Но возникла непреодолимая преграда: классическая молекулярная динамика не учитывает химические реакции (взаимодействие АТФ/АДФ, кислотно-основную химию). Как только симуляция спускается на уровень квантовых эффектов движения протонов, требования к вычислительной мощности улетают в бесконечность.

### Эволюция от «лягушачьей слизи» до нефтяной химии

Дополнительный фактор успеха современной фармацевтики заключается в коренной смене парадигмы синтеза молекул. Исторически лекарства искали фенотипическим путем: ученые перетирали грязь или амазонскую «лягушачью слизь» (frog goo), капали на клетку, обнаруживали противоопухолевый эффект, а затем годами пытались расшифровать структуру сложнейших природных соединений по масс-спектрам и воссоздать их. Природные молекулы создаются ферментами и крайне сложны в химическом синтезе.

Сегодня индустрия перешла к структурированному дизайну на основе соединений, производных от нефти (petroleum derived compounds). Используется комбинаторный взрыв правил: в распоряжении химиков есть огромные виртуальные каталоги (такие как база данных ZINC), насчитывающие от 50 до 100 миллиардов гипотетических молекул. Их можно дешево собрать из коммерчески доступных нефтепродуктов с помощью всего около 75 стандартных реакций медицинской химии. Производители дают 80-процентную гарантию успешности выполнения заказа на синтез таких веществ. Автоматизированные системы, такие как решения от IBM или компании Postera, полностью освободили дизайнеров лекарств от мыслей о сложности синтеза. Благодаря интернационализации, наем химика в Китае или Индии обходится в $100 000 в год (включая оборудование и реактивы) при производительности около 20 молекул в неделю.

Однако, по мнению Уайта, радоваться рано: новые типы терапевтических агентов (молекулярные клеи, деградаторы белков PROTAC) снова пакуют гигантский объем биологической сложности в ограниченное число атомов, возвращая индустрию к жесткому дефициту и дороговизне экспериментов.

### Главный враг прогресса — контекстная реклама

Рассуждая о причинах низкой эффективности таких технологических гигантов, как Recursion Pharmaceuticals или Insitro, Эндрю Уайт указывает на колоссальную задержку (latency) обратной связи в биологии. Если в машинном обучении результаты видны сразу, то в биотехе от идеи до фазы II клинических испытаний проходит в среднем 7 лет. За это время команда, придумавшая концепцию, обычно успевает полностью смениться или забыть первоначальные мотивы. Insitro понадобилось 7 лет только для того, чтобы довести свой первый актив до первой фазы испытаний, а Recursion купила большинство своих клинических активов у сторонних компаний.

По словам Уайта, в индустрии разработки лекарств есть абсурдное и несексуальное бутылочное горлышко:

«Самое важное узкое место прямо сейчас — это время до регистрации первого пациента в клиническом исследовании. Если вы хотите вылечить рак или спасти мир, вам нужно работать над созданием более эффективной онлайн-рекламы для привлечения пациентов на клинические площадки. На это уходит около 60 дней, и этот процесс максимально открыт для инноваций. Но люди упрямо инвестируют силы в поиск новых зацепок с помощью ИИ-моделей».

В качестве революционного шага для обучения моделей ИИ Уайт предлагает Белому дому волевым решением рассекретить и открыть для исследователей все массивы данных IND-пакетов (Investigational New Drug) в недрах FDA по всем уже одобренным лекарствам. Эти документы содержат терабайты ценнейшей информации о токсичности и фармакокинетике, которые защищены патентами и уже не несут конкурентной угрозы для фармгигантов, но заперты в архивах ведомства.

🛠️ Архитектура Future House: PaperQA и агенты Aviary 1:00:55

Первым крупным успехом Future House стал проект PaperQA. Научная литература — это колоссальный сетевой артефакт человечества, насчитывающий более 250 миллионов статей. По убеждению Уайта, 99% работы ученого — это глубокое знание литературы, и лишь 1% — манипуляции в лаборатории.

Обычные коммерческие RAG-системы (например, Perplexity или Elicit) оптимизируют скорость и стоимость: они выдают ответ за 5 секунд, используя готовые индексы и абстракты статей. Философия Future House прямо противоположна: тратить любой объем вычислительного бюджета и токенов ради бескомпромиссного качества, даже если ответ придется ждать 3–4 минуты.

Фреймворк PaperQA устроен по принципу MapReduce:

Система осуществляет полнотекстовый поиск (full text search) по всей базе статей, включая Google Scholar и Semantic Scholar, а не только по аннотациям.
Вместо прямой передачи кусков текста в финальную модель, промежуточный ИИ-агент (на базе Gemini Flash или аналогичных моделей) запускается отдельно на каждом текстовом фрагменте.
Этот агент очищает информацию, ранжирует её и составляет контекстное резюме (RCS — Rank and Contextual Summaries), полностью устраняя отвлекающий информационный шум.

Благодаря этому подходу PaperQA обошел экспертов-людей. В рамках проекта WikiCrow система сгенерировала 18 000 подробных статей для Википедии, описав функции практически каждого гена в человеческом геноме (до этого на платформе было описано лишь около 2500 генов). Мощности системы позволяют ежедневно проверять весь массив новых препринтов на Archive на предмет противоречий с накопленным научным знанием (contradiction detection) или переписывать медицинские статьи по всем заболеваниям каждые три недели с учетом свежих данных.

### Агенты как стохастические вычислительные графы

Следующим шагом стало создание платформы Aviary — «гимнастического зала» для обучения научных агентов. Разработчики Future House разделили систему на статичную среду (Environment), содержащую инструменты поиска и API, и обучаемого Агента (Agent). Память и контекст были вынесены внутрь агента.

Самым инновационным решением Уайт называет представление агентов в виде стохастических вычислительных графов (stochastic computation graphs), а не жестких конечных автоматов (state machines). В такой архитектуре граф не имеет циклов: он «стреляет» один раз слева направо. Состояние (State) передается как входной параметр для следующего шага вместе с новыми наблюдениями среды.

Это позволило решить сложнейшую задачу — сделать систему обучаемой «конечным образом» (end-to-end trainable) с применением алгоритмов обучения с подкреплением (PPO/RL) в режиме онлайн. Чтобы обойти проблему «черных ящиков» проприетарных API (таких как Anthropic или OpenAI), через которые невозможно пропустить градиент напрямую, инженеры Сид и Альберт применили математический трюк: они развернули суррогатную модель на базе многослойного перцептрона (MLP). Запуская закрытую модель по 25 раз на одном запросе при температуре T=1, система оценивает алеаторную и эпистемическую неопределенность, вычисляя локальные градиенты.

Впрочем, Уайт честно признает, что этот метод оценки градиентов черного ящика скорее является красивым техническим достижением, нежели эффективным оптимизатором на практике. Намного надежнее показала себя гибридная схема Q-learning: легковесная открытая модель (например, Llama или Phi) обучается выполнять роль критика или модели вознаграждения (reward model). Она оценивает несколько вариантов ответов (например, при параметре генерации K=8), созданных мощным закрытым ИИ, и выбирает оптимальное действие для среды, в том числе используя алгоритмы древовидного поиска (MCTS). Такой подход дает прирост эффективности в 5–10 пунктов в задачах PaperQA и до 20 пунктов в формульных средах вроде молекулярного клонирования.

🌐 Будущее: кризис разнообразия и «мертвый интернет» 1:48:30

Смотря в будущее, руководитель Future House выделяет две фундаментальные проблемы, способные затормозить развитие ИИ-науки:

Кризис уникальности мышления: Ссылаясь на бенчмарк Эйдана (Aidan's Benchmark), Уайт указывает, что если попросить модель сгенерировать 100 разных гипотез причин исторического события (например, Второй мировой войны), то после первых 4 вариантов остальные 96 будут лишь перефразированием и перестановкой знаков препинания. ИИ пока принципиально не умеет масштабировать дивергентное мышление и генерировать по-настоящему независимые альтернативные гипотезы.
Враждебность интернет-инфраструктуры: Интернет стремительно закрывается от роботов. Защита Cloudflare, блокировки парсинга, закрытие API платформ Reddit, StackOverflow и Twitter (X) разрушают экосистему. ИИ-разработчики оказываются в ловушке «теории мертвого интернета». Из-за агрессивных антибот-систем научные агенты Future House сегодня не могут получить легальный программный доступ даже к статьям открытого доступа (Open Access) в авторитетном New England Journal of Medicine.

Уайт резюмирует, что человечеству придется создавать принципиально новые протоколы дистрибуции знаний, отличные от привычных сайтов и PDF-документов. Тем не менее, Future House продолжает расширять доступ к своему API для академических групп по всему миру, стремясь создать глобальную сеть интеллектуальных микросервисов для совершения прорывных открытий.