Как роботы-учёные автоматизируют научный поиск и генерируют гипотезы

Автоматизация научных исследований открывает новые горизонты в решении сложнейших задач современности, от молекулярной биологии до материаловедения. В интервью для подкаста Machine Learning Street Talk профессор Лариса Солдатова из Голдсмитс-колледжа подробно рассказывает о развитии концепции «роботов-учёных» и фундаментальной роли логики в эпоху засилья больших данных. Участники беседы обсуждают, как интеграция символьного ИИ и глубокого обучения способна преодолеть текущие ограничения нейросетей и фундаментально изменить саму структуру научного поиска.

🤖 Роботы-учёные и автоматизация научного поиска 0:00

Современная биология и другие экспериментальные дисциплины сталкиваются с беспрецедентной сложностью исследуемых систем, глубинную природу которых человечество пока едва начинает понимать. При этом в мире катастрофически не хватает квалифицированных исследователей для оперативной обработки и осмысления колоссальных объемов эмпирической информации. Подготовка одного ученого экспертного уровня — это крайне долгий и дорогостоящий процесс, занимающий в среднем около 25 лет жизни. Решением этой проблемы, по мнению профессора Ларисы Солдатовой, может стать автоматизация базовых научных процессов с помощью искусственного интеллекта.

Профессор Солдатова, возглавляющая онлайн-программу магистратуры по Data Science в Голдсмитс-колледже Лондонского университета, на протяжении многих лет исследует, какие именно этапы научного поиска поддаются полной или частичной алгоритмизации. Мотивацией для масштабного внедрения систем ИИ в научную практику служат следующие ключевые факторы:

Дефицит человеческих ресурсов: скорость генерации экспериментальных данных давно превысила физические возможности людей-учёных по их ручной обработке.
Высокая стоимость образовательных инвестиций: подготовка научных кадров высшей квалификации требует десятилетий государственной поддержки.
Экспоненциальный рост комбинаторных задач: проверка сочетаний лекарственных препаратов или генетических модификаций требует выполнения миллионов рутинных тестов в параллельном режиме.

Ведущий подкаста отмечает, что традиционный научный метод опирается на строгий эмпиризм — проведение целенаправленных экспериментов с целью практического опровержения или подтверждения выдвинутых гипотез. Однако фундаментальной проблемой остается поиск первоисточника самих гипотез, ведь искусственный интеллект не может начинать работу с абсолютно «чистого листа» (blank slate). Для эффективного сужения бесконечного пространства поиска системам необходимы априорные структурные знания о физическом мире.

📊 Данные против знаний: в чём разница? 4:39

В современных учебниках определения данных, информации и знаний часто смешиваются, однако в академической области репрезентации знаний между ними проводится жесткое концептуальное разграничение. По словам Ларисы Солдатовой, под данными понимаются разрозненные, изолированные факты — например, утверждение о том, что конкретный ген выполняет определенную функцию в организме. Знания же представляют собой качественно иной уровень абстракции, включающий в себя правила, логические взаимосвязи и исполняемые модели.

Текущий бум искусственного интеллекта опирается преимущественно на обработку колоссальных массивов данных (data-driven approach), подкрепленную огромными вычислительными мощностями. Однако такой подход имеет серьезные изъяны. В частности, профессор Солдатова утверждает, что современные нейросети неэффективны с точки зрения энергопотребления и буквально «уничтожают планету». Полноценное использование формализованных знаний позволило бы упаковывать информацию в компактные логические структуры и многократно использовать её без колоссальных затрат электричества на переобучение моделей.

В качестве примера Солдатова приводит опыт своих коллег, занимавшихся цифровым моделированием экологических систем:

Подход на основе сырых данных: нейросеть анализирует гигантские массивы наблюдений и с трудом выводит закономерность, согласно которой у медведицы рождается от 2 до 5 детенышей, причем при повышении экологического шума их число падает.
Подход на основе знаний: эта закономерность закладывается в систему изначально в виде готового компактного правила, что избавляет ИИ от необходимости тратить мегаватты энергии на «переоткрытие» общеизвестных фактов.

Кроме того, по мнению Солдатовой, абсолютно все человеческие научные знания носят вероятностный характер. В истории нет абсолютных и вечных истин: даже ньютоновская физика, казавшаяся незыблемым фундаментом вселенной, была перевернута и дополнена теорией относительности Эйнштейна. Проектирование интеллектуальных роботов-учёных заставляет исследователей признать, что любые текущие теории — это лишь наиболее правдоподобные объяснения, актуальные при имеющемся наборе данных.

🚀 История автоматизации: от марсианских хроник до проекта Adam 6:28

Попытки автоматизировать процессы научного поиска имеют более чем полувековую историю. Первые подобные экспертные системы начали разрабатываться еще в 1960-х годах в Стэнфордском университете. Главным драйвером для этих пионерских исследований послужила космическая программа: планировалось отправлять автономные аппараты на Марс для сбора и экспресс-анализа геологических образцов. Из-за огромной задержки радиосвязи передавать сырые данные на Землю и подолгу ждать инструкций от людей-операторов было физически невозможно, что потребовало создания автономных систем принятия решений прямо на борту ровера.

Одним из первых громких успехов стал проект Dendral, созданный около 60 лет назад для автоматизации определения сложных химических соединений. Функционально и концептуально он во многом предвосхитил появление знаменитой системы AlphaFold от компании DeepMind. Dendral представлял собой многоагентную эвристическую систему с замкнутым циклом (closed-loop system): любые сделанные им микрооткрытия сразу же поступали обратно на вход алгоритма, постепенно улучшая качество работы всей модели. Профессор Солдатова подчеркивает, что за прошедшие шесть десятилетий базовая архитектура и ключевые принципы работы подобных комплексов практически не изменились.

Новым качественным этапом стало появление полноценной концепции «робота-учёного» (Robot Scientist) около 15–20 лет назад. Первым в мире аппаратно-программным комплексом, совершившим полностью самостоятельное научное открытие без прямого участия человека, стал робот Adam, чьё имя расшифровывается как Adaptive Machines.

Особенности архитектуры и работы робота-учёного Adam:

Автономия полного цикла: система способна самостоятельно генерировать гипотезы, планировать эксперименты, отдавать команды физическим манипуляторам в химической лаборатории и анализировать полученные результаты в циклическом режиме.
Колоссальная масштабируемость: роботизированная лаборатория способна проводить тесты параллельно со скоростью, эквивалентной одновременной работе 1000 биологов.
Глубокая интеграция знаний: помимо массивов сырых данных, в память Adam были изначально заложены формализованные онтологии о биологии дрожжей, а также общие принципы проектирования научных экспериментов.

🧠 Абдукция: как научить машину генерировать гипотезы 8:53

В классической философии науки долгое время доминировало убеждение, что генерация гипотез — это исключительно человеческая прерогатива, принципиально недоступная для сухой алгоритмизации. Для создания принципиально нового знания невозможно использовать стандартную дедуктивную логику, поскольку она не позволяет выйти за рамки уже известных системе аксиом и постулатов. Чтобы преодолеть этот тупик, в роботе Adam был успешно применен автоматизированный метод абдукции — логического вывода, направленного на поиск наиболее правдоподобного и сильного объяснения наблюдаемых феноменов.

Собеседники подробно разбирают три ключевых типа логического рассуждения, используемых в науке:

Дедукция: строгое выведение частных следствий из общих законов (абсолютно гарантирует истинность выводов при истинности исходных посылок).
Индукция: обобщение частных примеров (например, в дизайне лекарств: если похожие химические структуры активны, ИИ предполагает наличие активности у нового схожего соединения).
Абдукция: творческий поиск и отбор релевантных априорных допущений для построения причинно-следственной модели, способной объяснить аномалию или новый феномен.

В реальной биологической практике исследователи крайне редко экспериментируют напрямую с теми глобальными объектами, о которых делают финальные выводы. Вместо этого они используют сложные цепочки прокси-показателей, например, исследуют живые организмы с искусственно нокаутированными генами или замеряют уровни определенных метаболитов. Формализация этих запутанных практик для компьютера требует жесткого алгоритмического описания каждого шага.

Ведущий подкаста проводит интересную параллель между абдукцией и иерархией карьерного роста в технологических гигантах вроде Google. По его словам, на высших ступенях корпоративной лестницы ценятся люди, способные выдерживать максимальный уровень неопределенности и «находить новые многообещающие области исследований» (что полностью аналогично абдукции), тогда как задачи младших инженеров сводятся к решению конкретных, узко очерченных проблем (инференс и дедукция).

👥 Киборгизация труда: человек и ИИ в одной команде 14:30

Идея создания человеко-машинных «киборгов», в которых исследователи работают в тесной синергии с искусственным интеллектом, выглядит крайне перспективно, однако реальный прирост продуктивности от такого симбиоза до сих пор трудно измерить. Ведущий упоминает недавний аналитический отчет консалтинговой компании ThoughtWorks, в котором утверждалось, что использование генеративного ИИ (Copilot) удваивает продуктивность разработчиков программного обеспечения. По мнению ведущего, подобные метрики сомнительны, так как написание кода, как и фундаментальная наука, представляет собой сложнейший, несводимый к простым операциям феномен.

В ИТ-индустрии сейчас активно распространяется мем о том, что благодаря Copilot код генерируется в 10 раз быстрее, но затем программист вынужден тратить в 10 раз больше времени на его мучительную отладку. Это порождает новый опасный вид технического долга — «долг понимания» (understanding debt). Ментальная модель сложного проекта не содержится в самом написанном коде, она существует как социальный, миметический конструкт исключительно в головах команды разработчиков. Если весь код написан машиной, человек быстро теряет нить глубокого понимания системы.

Проводя прямую аналогию с наукой, Лариса Солдатова выражает твердую уверенность в том, что роботы-учёные никогда не заменят людей полностью. Их удел — полная автоматизация рутинной, экспериментально-ориентированной части науки. Наиболее эффективным подходом Солдатова считает командную работу, где ИИ берет на себя первичный перебор миллиардов комбинаций в виртуальных симуляциях, отбирая несколько сотен наиболее жизнеспособных гипотез для последующей точечной проверки в роботизированной лаборатории.

📐 «Чистый» подход к знаниям и прагматизм против релятивизма 26:44

В сообществе исследователей искусственного интеллекта исторически существует жесткое разделение на «аккуратных» (neats), ратующих за строгую логику и лаконичность моделей, и «неопрятных» (scruffies), полагающихся на сложные, трудноинтерпретируемые эмерджентные паттерны данных. Профессор Солдатова однозначно причисляет себя к лагерю «аккуратных». Логическим движкам необходима кристально чистая, жесткая структура данных: чем меньше типов связей и абстрактных отношений используется при кодировании, тем выше шансы, что алгоритм сможет совершить реальное логическое открытие.

Для наглядной иллюстрации Солдатова приводит классический пример моделирования обычного стула, который она регулярно использует на лекциях для студентов:

Стулья могут иметь абсолютно любую форму, цвет, иметь три ножки или не иметь их вовсе. Напрямую описать все физические вариации для компьютера через геометрию невозможно.
Правильная модель репрезентации знаний фокусируется на внутренней (имманентной) характеристике предмета — его функции. Стул — это объект, созданный искусственно с главной целью быть местом для сидения человека.

Ведущий подкаста замечает, что такой функциональный подход глубоко антропоцентричен и близок к философии Людвига Витгенштейна, утверждавшего, что значение любого слова определяется сугубо его практическим употреблением. Однако Солдатова парирует: если в человеческой культуре здания и мебель могут легко переназначаться решением социума (например, бывшая больница в одночасье переоборудуется в офисы), то в биологических системах функции генов сформировались в ходе миллиардов лет эволюции и являются их объективными, независимыми от воли человека свойствами.

Профессор критикует знаменитый американский проект Cyc, запущенный Дугом Ленатом в 1984 году с амбициозной целью закодировать миллионы фактов о здравом смысле человечества. По мнению Солдатовой, авторы Cyc попытались объять необъятное и создать универсальный ИИ общего назначения (AGI) «в лоб», из-за чего система получилась слишком хрупкой, громоздкой и малоприменимой на практике. Прагматичный подход сегодняшнего дня заключается в скрупулезном моделировании отдельных фрагментов и узких предметных областей знаний с их последующим постепенным объединением в единую сеть.

🔮 Большие языковые модели и нейносимволическая перспектива 33:11

Ряд консервативных ученых критикует современные большие языковые модели (LLM) за то, что они лишь имитируют логические рассуждения за счет статистических корреляций, не будучи способными к генерации подлинно нового знания. Лариса Солдатова категорически не согласна с этой пессимистичной оценкой и отмечает, что её исследовательская команда уже успешно применяет LLM для генерации нестандартных научных гипотез. Поскольку нейросети не скованы рамками жесткой академической дедукции, они могут выдавать неожиданные, высококреативные «догадки», которые затем верифицируются строгим экспериментальным путем.

Тем не менее, для создания надежных и заслуживающих доверия (trustworthy) систем необходима глубокая интеграция гибких нейросетей со строгими символьными моделями. Это критически важно в таких социально чувствительных областях, как онкологические исследования. Ни один практикующий врач не станет прописывать пациенту тяжелый экспериментальный набор медикаментов, рекомендованный «черным ящиком» нейросети, если система не способна прозрачно, пошагово и на понятном языке объяснить логику принятия своего медицинского решения.

В завершение беседы профессор Солдатова признает, что академическое сообщество часто грешит использованием избыточно сложного, искусственно запутанного языка, который сознательно отпугивает широкую публику от науки. По её мнению, исследователи обязаны тратить гораздо больше усилий на популяризацию своей работы и разъяснение её безопасности для общества. Современные инструменты, такие как GPT-4, существенно облегчают эту задачу и демонстрируют впечатляющие результаты, хотя их выводы все еще требуют обязательной финальной проверки человеком.