Как искусственный интеллект помогает Оксфорду расшифровать скрытый код ДНК

В интервью для популярного YouTube-канала Machine Learning Street Talk профессор регуляции генов Оксфордского университета Джим Хьюз (Jim Hughes) рассказывает о масштабной технологической революции на стыке геномики и искусственного интеллекта. Учёный описывает свой путь от классической «мокрой» биологии к использованию глубоких нейросетей, способных расшифровать сложнейшие регуляторные механизмы человеческой ДНК. В ходе беседы участники подробно разбирают природу научного творчества, проблему интерпретируемости современных алгоритмов и этические вызовы предиктивной медицины будущего.

🧬 От чашек Петри к алгоритмам: эволюция исследователя генома 0:00

Профессор Джим Хьюз посвятил исследованию генома более 30 лет своей жизни. Его научная деятельность в Оксфордском университете сосредоточена на базовой биологии регуляции генов в геноме млекопитающих, а также на том, как вариации последовательностей в человеческой популяции предопределяют предрасположенность к различным заболеваниям.

Свою карьеру Хьюз начинал как классический лабораторный биколог, работавший у верстака: он занимался ручным клонированием фрагментов генома и проведением традиционных молекулярных экспериментов. Ситуация кардинально изменилась примерно в 2002 году, когда проект по секвенированию генома человека был практически завершен. Перед научным сообществом открылся неожиданный факт: как отмечает Хьюз, на сами гены (участки, кодирующие белки) приходится лишь ничтожно малая часть всей ДНК. При этом сам масштаб генома оказался колоссальным, что сделало ручную обработку данных неэффективной.

Осознание этой сложности заставило исследователя полностью перестроить свою методологию. Хьюз начал самостоятельно осваивать программирование, изучать статистику и писать кастомные пакеты программного обеспечения для анализа данных. За два десятилетия эта эволюция привела к созданию уникальной мультидисциплинарной исследовательской группы в Оксфорде.

В состав его современной лаборатории входят:

Программисты на JavaScript;
Специалисты по машинному обучению и глубокому обучению;
Математики;
Биологи, проводящие классические молекулярные эксперименты.

Подобный сплав компетенций, по мнению Хьюза, отражает суть современной биологии, которая де-факто превратилась в вычислительную науку.

🧠 «Шумный мозг» и баланс хаоса: природа научного творчества 1:46

Несмотря на стереотип о сугубо логическом складе ума ученых, Джим Хьюз убежден, что подлинная наука невозможна без высокой креативности. Логика и строгая доказательная база необходимы исследователю на этапе верификации результатов, однако для совершения следующего принципиального шага и выдвижения принципиально новых гипотез требуется творческий импульс.

Размышляя о природе креативности, Хьюз ссылается на идеи когнитивистов и доклад исследователя Эдвина о «шуме в мозге». По словам профессора, если когнитивная система человека находится в абсолютно стабильном, упорядоченном состоянии, она никогда не сможет переключиться на принципиально новые рельсы. Креативность, с точки зрения Хьюза, рождается в «слегка зашумленном, хаотичном мозге», где разнородные идеи и случайные мысли постоянно сталкиваются друг с другом, образуя неожиданные логические связи.

Комментируя споры когнитивных психологов 1980-х годов (в частности, концепции Джерри Фодора и Зенона Пылишина об универсальном «языке мысли»), ведущий и гость сошлись во мнении, что человеческое рацио во многом работает как инструмент пост-хок рационализации. Хьюз считает, что любые наши ментальные модели — будь то научная гипотеза, восприятие окружающего мира или оценка друзей — представляют собой попытку сознания упорядочить и интегрировать хаотичный опыт, оставшийся позади.

Человеческая психика постоянно балансирует на тонкой грани между жесткой упорядоченностью и полным хаосом. По мнению участников дискуссии, социальная среда накладывает на когнитивную систему человека серьезное регуляторное, сглаживающее давление, делая наше поведение предсказуемым для окружающих. Однако без открытого, хаотичного поиска развитие общества остановилось бы. Хьюз иронично замечает, что если бы человеческий интеллект был абсолютно стабилен и жестко отрегулирован, мир никогда бы не увидел таких инноваций, как машинное обучение. Ведущий в ответ вспоминает культовый фильм «Матрица» (1999), где первая, идеальная и бесконфликтная версия виртуального мира потерпела крах из-за биологической потребности человека в преодолении идеального порядка. Продолжая тему изменения сознания ради расширения креативности, Хьюз шутит, что лично он не готов заходить далеко и предпочитает допинговать свой интеллект исключительно крепким кофе или пинтой пива.

🔬 Молекулярные переключатели и нейросетевое «крещение» биологии 7:02

С технической точки зрения биоинформатика всегда предлагала сложные алгоритмические вызовы. В то время как классическая обработка данных и выравнивание последовательностей сегодня автоматизированы с помощью скриптов, понимание функций ДНК остается фундаментальной проблемой.

Как напоминает Хьюз, лишь около 3% человеческого генома кодирует белки. Долгое время остальные 97% ДНК опрометчиво называли «мусорной ДНК» (junk DNA), что, по мнению профессора, было огромной научной ошибкой. На самом деле эта гигантская часть генома кодирует сложнейший язык управления. Биология всегда имеет дело с результатом миллиарда лет эволюционных «автокатастроф» и случайных мутаций, поэтому распутать этот код методами базовой статистики оказалось невозможно.

Объектом исследования Хьюза выступают энхансеры — регуляторные участки ДНК. Они работают в связке с белками, называемыми факторами транскрипции. В каждой клетке эти белки производятся в уникальных комбинациях и кооперируются для связывания с энхансерами, превращая их в молекулярные переключатели. Эти переключатели активируют считывание РНК и заставляют клетку вырабатывать определенные белки: например, переключатели в красных кровяных тельцах запускают синтез гемоглобина, а в тканях глаза — прозрачного белка кристаллина.

Каждый тип клеток в человеческом организме обладает собственным уникальным набором таких переключателей, напоминающим штрихкод. Таким образом, биологам приходится взламывать не один универсальный код, а тысячи динамических языков одновременно.

Ведущий проводит глубокую аналогию между этой биологической архитектурой и современными исследованиями в области механистической интерпретируемости нейросетей. Когда инженеры пытаются изолировать конкретный логический контур в искусственной сети (например, контур индукции) и отключают его, сеть мгновенно адаптируется, и его функции берет на себя другой контур. Хьюз соглашается с тем, что финальное поведение как нейросети, так и живого организма — это сложнейшее эмерджентное свойство огромного количества динамических слоев.

Долгое время оксфордские ученые безуспешно пытались расшифровать код даже крошечного участка генома, используя старые математические подходы. Ситуация изменилась, когда Хьюз применил к геномным картам базовые сверточные нейросети (CNN). По его словам, алгоритм глубокого обучения «схватил» скрытый биологический сигнал практически мгновенно. Этот ошеломляющий успех заставил профессора стать убежденным сторонником внедрения ИИ в медицину.

🧪 Метод молекулярного травления: как картируют ДНК 13:41

Для того чтобы передать данные в сверточную нейросеть, их необходимо сначала извлечь из живой клетки. Хьюз детально описывает физическую сложность этой задачи: внутри каждого микроскопического клеточного ядра упаковано около 2 метров тончайшей нити ДНК. Эта информационная матрица плотно намотана на защитные белковые структуры — нуклеосомы. Нуклеосомы выполняют роль не только защитного каркаса, но и регуляторных «ворот». Чтобы молекулярный переключатель сработал, нуклеосомы должны раздвинуться, открыв доступ к ДНК факторам транскрипции.

Чтобы зафиксировать эти моменты, биологи используют специализированные лабораторные тесты, такие как ATAC-seq или DNA-seq. Профессор находит для этого процесса наглядную художественную аналогию:

Процесс картирования генома напоминает классическую технику травления стекла. Мастер покрывает стеклянную пластину слоем воска, затем процарапывает на нем рисунок, обнажая стекло, и ненадолго воздействует на пластину опасной плавиковой кислотой. После смыва кислоты на стекле остается четкий выгравированный узор [14:22-14:37].

В лаборатории ученые изолируют клетки (например, фибробласты кожи) и воздействуют на их ядра молекулярным аналогом такой кислоты — специальными ферментами. Ферменты расщепляют ДНК только в тех местах, где она освобождена от упаковочных белков-нуклеосом. На выходе исследователи получают исчерпывающую цифровую карту расположения всех активных переключателей генома, которая и служит идеальным структурированным входным сигналом для обучения глубоких нейросетей.

🤖 Миф об интерпретируемости больших моделей и бенч-тесты 15:15

Использование «черных ящиков» искусственного интеллекта в науке порождает серьезные методологические дискуссии. Хьюз подчеркивает принципиальную разницу между генеративным искусством и фундаментальной наукой. Если в случае работы нейросетей вроде DALL-E 2 критерием валидации служит субъективное «мне нравится визуальный результат», то в биологии ставки несоизмеримо выше.

Тот факт, что ученые не понимают до конца внутреннюю математическую логику обученной нейросети, по признанию Хьюза, заставляет их глубоко нервничать. Тем не менее, его лаборатория сознательно идет на компромисс: ученые берут готовые ИИ-архитектуры (например, LSTM или сверточные сети), созданные технологическими гигантами, и применяют их, если модель проходит строгую внешнюю проверку.

Ведущий MLST высказывает жесткое суждение о том, что интерпретируемость больших нейросетей во многом является мифом, поскольку математически невозможно детально отследить миллиарды комбинаций пикселей или токенов. Он проводит прямую аналогию с разработкой коммерческого программного обеспечения: инженеры зачастую не понимают до конца, как функционирует огромная многомиллионная кодовая база старого софта, поэтому они пишут автоматические тесты для проверки входных и выходных сигналов. В биологии, по словам Хьюза, они действуют точно так же, но роль софтверных тестов выполняют реальные лабораторные эксперименты у верстака (bench tests).

Вспоминается также критика Ноама Хомского, утверждавшего, что современные языковые модели не создают полноценной лингвистической теории. Хьюз соглашается, что наука ищет интеллигибельные теории, однако указывает на фундаментальное различие между мышлением физиков и биологов. Если физики всегда стремятся найти элегантное, чистое и лаконичное уравнение Вселенной, то биологам приходится иметь дело с хаотичным результатом миллиардов лет эволюционного отбора. По образному выражению профессора, каждый человек — это «эволюционная автокатастрофа», возникшая в результате бесконечных случайных столкновений и давлений среды, поэтому воссоздать нас по единому фундаментальному принципу невозможно, можно лишь деконструировать отдельные механизмы.

🔮 Генетический оракул: предиктивная медицина и социальные риски 21:57

Обсуждая работы исследователей Майкла Левина и Себастьяна Риччи в области морфогенеза, участники интервью затронули тему создания самовосстанавливающихся систем, способных преодолевать иерархию эмерджентности. По мнению Хьюза, огромные перспективы лежат в области применения генеративных нейросетей. С их помощью ученые надеются не просто расшифровывать природные коды, но и самостоятельно проектировать искусственные синтетические последовательности ДНК с наперед заданными полезными функциями для медицинских нужд.

Однако доступ к полному генетическому коду человека (его цифровому «чертежу») ставит перед человечеством жесткие этические вопросы, которые в биологии, по заверению Хьюза, обсуждаются гораздо дольше и более зрело, чем в сфере ИИ.

В дискуссии о соотношении врожденного и приобретенного (nature vs nurture) профессор проясняет природу генетической предрасположенности к болезням. Большинство опасных хронических заболеваний определяются так называемыми «частыми вариантами» (common variants) ДНК, которые присутствуют абсолютно у всех людей. Наличие отдельного единичного маркера не является фатальным приговором. Заболевание, как утверждает Хьюз, развивается в результате сложнейших, пока не изученных комбинаций сотен таких сигналов, помноженных на образ жизни.

В перспективе ИИ, обученный на колоссальных массивах медицинских карт и генетических данных, сможет с высокой точностью рассчитывать индивидуальный профиль рисков человека прямо в момент его рождения. Профессор предупреждает о неизбежном жестком столкновении этой технологии с социальной реальностью:

Представьте себе будущее, в котором страховые компании в США получат доступ к полной генетической карте новорожденного с прогнозом его заболеваний. Какими станут взносы для человека с повышенным риском рака или Альцгеймера? Это порождает колоссальные этические риски и социальное неравенство <a class="ts" data-seconds="1446" href="#t=1446" title="Смотреть с 24:06" aria-label="Смотреть с 24:06"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>.

Пока эти технологии будущего лишь кристаллизуются, Хьюз рекомендует опираться на проверенный временем метод оценки рисков — анализ семейного анамнеза. Если в семье из поколения в поколение мужчины зрелого возраста умирают от сердечных приступов, это дает понятный и недвусмысленный сигнал о необходимости изменения образа жизни и повышенной осторожности. Кроме того, раскрытие полной информации о будущих болезнях двадцатилетнему человеку может стать для него тяжелым психологическим ударом и «смертным приговором», поэтому внедрение предиктивной аналитики требует колоссальной деликатности со стороны общества.

🏭 Индустриализация науки и бюрократическая ловушка для творчества 27:57

Оценивая последние 50 лет научно-технического прогресса, Джим Хьюз называет его скорость «безумной». Человечество получило возможность редактировать геном живого человека прямо внутри его организма, исцеляя от болезней, которые терзали наш вид тысячелетиями. Динамика развития технологий перестала быть просто экспоненциальной — по мнению профессора, график прогресса сейчас направлен практически вертикально вверх.

Однако сама модель производства научного знания претерпела тектонические сдвиги. Произошла глубокая индустриализация науки. Во времена зарождения Лондонского королевского общества наука, как напоминает Хьюз, была прерогативой «богатых господ», тративших свои состояния на личные хобби. Сегодня наука демократизировалась, став доступной для талантливых выходцев из любых слоев общества, но это привело к взрывному росту сложности и объемов информации.

Количество публикуемых научных работ растет экспоненциально, из-за чего ни один ученый физически не способен отслеживать публикации даже в своей узкой нише. В этой связи Хьюз видит реальное будущее больших языковых моделей (LLM) не в качестве «очень убедительных лжецов», а в роли надежных валидированных агрегаторов и навигаторов по массивам накопленных человечеством знаний.

Ведущий приводит концепцию исследовательницы Сары Хукер об «аппаратной лотерее» (Hardware Lottery), согласно которой вектор развития современного ИИ жестко предопределен архитектурными решениями старого железа, из-за чего все исследования стали склеротичными, однообразными и запертыми в рамках одних лишь языковых моделей. Хьюз соглашается, что истинная креативность в академической среде встречается нечасто. За всю долгую карьеру ученого моменты подлинного творческого озарения случались у него лишь несколько раз, ведь превратить искру идеи в работающий полезный инструмент — это колоссальный рутинный труд.

Главным врагом инноваций Хьюз называет современную академическую бюрократию. Профессора в университетах сегодня напоминают «хомяков в колесе»: вместо свободного созерцания они вынуждены непрерывно администрировать процессы, управлять персоналом, решать вопросы HR и заполнять отчеты, чтобы гарантировать выплату зарплат своим сотрудникам в следующем году. Творчество оказывается буквально зажато в тиски бюрократической машины.

Ведущий ссылается на книгу Кеннета Стэнли «Почему величие нельзя спланировать», в которой утверждается, что доминирование жестких метрик и KPI в современном обществе неизбежно ведет к губительной конвергенции (сужению) мышления вместо дивергенции (расширения).

Чтобы противостоять этому застою, Хьюз призывает искусственно сохранять «шум» и разнообразие в научных коллективах. По его глубокому убеждению, лаборатория, укомплектованная разнородной, пускай даже «разношерстной» (rag-tag) командой людей из разных стран, культур и научных дисциплин, будет бесконечно более креативной и продуктивной, чем закрытое сообщество выпускников одной и той же элитной школы, мыслящих по единому шаблону.

Подводя итог, оксфордский профессор признается, что им движет вовсе не пафосное желание «спасти человечество», а банальное человеческое любопытство и нетерпимость к скуке. Именно это бескомпромиссное желание докопаться до сути вещей, не оглядываясь на мнение авторитетов, по мнению Хьюза, и остается главным локомотивом подлинного научного прогресса.