Как ИИ расшифровывает «код жизни»: взгляд Михаила Бурцева 0:03
Искусственный интеллект, совершивший революцию в работе с естественным языком, сегодня открывает новую главу в биологии. Михаил Бурцев, исследователь ИИ из Лондонского института математических наук (LIMS), утверждает, что ДНК — это своего рода «программа» нашего организма, и те же методы, которые позволяют нейросетям писать тексты, способны расшифровать язык жизни.
От видеоигр к пониманию биологии 1:25
Путь Михаила Бурцева в науке начался с попытки понять фундаментальные принципы обучения — как живые организмы, так и машины. Десять лет назад исследователя поразила работа DeepMind, где одна и та же архитектура нейросети, наблюдая за пикселями на экране, училась играть в разные игры Atari лучше человека.
Осознав ограничения «игрушечных миров», Бурцев переключился на разговорный ИИ. Его привлекла универсальность языка: он позволяет описывать мир, рассуждать и моделировать процессы. С развитием больших языковых моделей (LLM) ученые обнаружили «нейронные законы масштабирования»: при увеличении объема данных, количества параметров модели и вычислительных мощностей качество ответов неуклонно растет. Сегодня ИИ мастерски справляется с задачами вроде написания стихов о первом законе Ньютона за пару секунд.
ИИ как инструмент для медицины и биологии 16:29
По мнению Бурцева, если ИИ помог понять человеческий язык, он может справиться с биологическими данными. Исследователи из Имперского колледжа Лондона уже продемонстрировали этот потенциал: обучив нейросеть на базе из 1 млн записей электрокардиограмм (ЭКГ), они смогли с точностью около 70% предсказывать риск развития диабета 2-го типа за годы до его проявления.
Еще один прорыв связан с белками. Модель AlphaFold от DeepMind научилась предсказывать 3D-структуру белков по последовательности аминокислот с точностью, не уступающей экспериментальным методам. Это открытие стало фундаментальным: если раньше на определение структуры одного белка уходили месяцы и сотни тысяч фунтов, то теперь ученые могут запрашивать готовые данные из базы за считанные секунды.
«Gina»: язык ДНК и геномные модели 33:31
Человеческий геном — это сложная система из 3 млрд нуклеотидов, которую Бурцев сравнивает с длинной компьютерной программой. Для её декодирования он и его коллеги начали проект «Gina» (или GLM — Genomic Language Model).
Применяя метод трансферного обучения, они используют принципы обработки текстов для анализа ДНК:
- Претрейнинг: модель обучается на огромных массивах геномных последовательностей, предсказывая следующий нуклеотид.
- Файн-тюнинг: дообучение модели на конкретных биологических задачах (например, поиск промоторов в геноме дрозофилы).
Однако, по словам Бурцева, простое увеличение размера моделей (скейлинг) в биологии сталкивается с препятствиями. В отличие от текста, где взаимодействие слов локально, геном имеет многоуровневую структуру взаимодействия: от коротких дистанций внутри гена до «дальнодействующих» связей между генами на расстоянии миллионов пар оснований.
Преодоление барьеров памяти 48:51
Чтобы нейросети могли учитывать эти сложные связи, необходима «память». Бурцев описывает концепцию «ассоциативного рекуррентного трансформера памяти», который позволяет модели удерживать информацию из контекста длиной до 50 млн токенов. Это в разы превышает возможности стандартных моделей.
Потенциальные применения таких технологий обширны:
- Предсказание экспрессии генов на основе описания типа клеток.
- Анализ физиологических сигналов пациента через связь генома с состоянием здоровья.
- Поиск «мотивов» в ДНК с помощью методов атрибуции признаков (feature attribution), что позволяет понять, какие именно участки отвечают за связывание с факторами транскрипции.
Михаил Бурцев заключает, что будущее биологии с ИИ — это не просто предсказания, а понимание механизмов жизни, таких как природа старения. Возможно, уже через несколько десятилетий мы сможем проектировать сложные биологические объекты, просто отправив код генома в лабораторию для синтеза.