Михаил Бурцев: «ИИ расшифрует язык жизни через ДНК»

Как ИИ расшифровывает «код жизни»: взгляд Михаила Бурцева 0:03

Искусственный интеллект, совершивший революцию в работе с естественным языком, сегодня открывает новую главу в биологии. Михаил Бурцев, исследователь ИИ из Лондонского института математических наук (LIMS), утверждает, что ДНК — это своего рода «программа» нашего организма, и те же методы, которые позволяют нейросетям писать тексты, способны расшифровать язык жизни.

От видеоигр к пониманию биологии 1:25

Путь Михаила Бурцева в науке начался с попытки понять фундаментальные принципы обучения — как живые организмы, так и машины. Десять лет назад исследователя поразила работа DeepMind, где одна и та же архитектура нейросети, наблюдая за пикселями на экране, училась играть в разные игры Atari лучше человека.

Осознав ограничения «игрушечных миров», Бурцев переключился на разговорный ИИ. Его привлекла универсальность языка: он позволяет описывать мир, рассуждать и моделировать процессы. С развитием больших языковых моделей (LLM) ученые обнаружили «нейронные законы масштабирования»: при увеличении объема данных, количества параметров модели и вычислительных мощностей качество ответов неуклонно растет. Сегодня ИИ мастерски справляется с задачами вроде написания стихов о первом законе Ньютона за пару секунд.

ИИ как инструмент для медицины и биологии 16:29

По мнению Бурцева, если ИИ помог понять человеческий язык, он может справиться с биологическими данными. Исследователи из Имперского колледжа Лондона уже продемонстрировали этот потенциал: обучив нейросеть на базе из 1 млн записей электрокардиограмм (ЭКГ), они смогли с точностью около 70% предсказывать риск развития диабета 2-го типа за годы до его проявления.

Еще один прорыв связан с белками. Модель AlphaFold от DeepMind научилась предсказывать 3D-структуру белков по последовательности аминокислот с точностью, не уступающей экспериментальным методам. Это открытие стало фундаментальным: если раньше на определение структуры одного белка уходили месяцы и сотни тысяч фунтов, то теперь ученые могут запрашивать готовые данные из базы за считанные секунды.

«Gina»: язык ДНК и геномные модели 33:31

Человеческий геном — это сложная система из 3 млрд нуклеотидов, которую Бурцев сравнивает с длинной компьютерной программой. Для её декодирования он и его коллеги начали проект «Gina» (или GLM — Genomic Language Model).

Применяя метод трансферного обучения, они используют принципы обработки текстов для анализа ДНК:

Претрейнинг: модель обучается на огромных массивах геномных последовательностей, предсказывая следующий нуклеотид.
Файн-тюнинг: дообучение модели на конкретных биологических задачах (например, поиск промоторов в геноме дрозофилы).

Однако, по словам Бурцева, простое увеличение размера моделей (скейлинг) в биологии сталкивается с препятствиями. В отличие от текста, где взаимодействие слов локально, геном имеет многоуровневую структуру взаимодействия: от коротких дистанций внутри гена до «дальнодействующих» связей между генами на расстоянии миллионов пар оснований.

Преодоление барьеров памяти 48:51

Чтобы нейросети могли учитывать эти сложные связи, необходима «память». Бурцев описывает концепцию «ассоциативного рекуррентного трансформера памяти», который позволяет модели удерживать информацию из контекста длиной до 50 млн токенов. Это в разы превышает возможности стандартных моделей.

Потенциальные применения таких технологий обширны:

Предсказание экспрессии генов на основе описания типа клеток.
Анализ физиологических сигналов пациента через связь генома с состоянием здоровья.
Поиск «мотивов» в ДНК с помощью методов атрибуции признаков (feature attribution), что позволяет понять, какие именно участки отвечают за связывание с факторами транскрипции.

Михаил Бурцев заключает, что будущее биологии с ИИ — это не просто предсказания, а понимание механизмов жизни, таких как природа старения. Возможно, уже через несколько десятилетий мы сможем проектировать сложные биологические объекты, просто отправив код генома в лабораторию для синтеза.