Михаил Бурцев: «ИИ расшифрует язык жизни через ДНК»

The Royal Institution 26,3 тыс. 1 ч 3 мин 3 мин 23.09.2025
Главное

Как ИИ расшифровывает «код жизни»: взгляд Михаила Бурцева 0:03

Искусственный интеллект, совершивший революцию в работе с естественным языком, сегодня открывает новую главу в биологии. Михаил Бурцев, исследователь ИИ из Лондонского института математических наук (LIMS), утверждает, что ДНК — это своего рода «программа» нашего организма, и те же методы, которые позволяют нейросетям писать тексты, способны расшифровать язык жизни.

От видеоигр к пониманию биологии 1:25

Путь Михаила Бурцева в науке начался с попытки понять фундаментальные принципы обучения — как живые организмы, так и машины. Десять лет назад исследователя поразила работа DeepMind, где одна и та же архитектура нейросети, наблюдая за пикселями на экране, училась играть в разные игры Atari лучше человека.

Осознав ограничения «игрушечных миров», Бурцев переключился на разговорный ИИ. Его привлекла универсальность языка: он позволяет описывать мир, рассуждать и моделировать процессы. С развитием больших языковых моделей (LLM) ученые обнаружили «нейронные законы масштабирования»: при увеличении объема данных, количества параметров модели и вычислительных мощностей качество ответов неуклонно растет. Сегодня ИИ мастерски справляется с задачами вроде написания стихов о первом законе Ньютона за пару секунд.

ИИ как инструмент для медицины и биологии 16:29

По мнению Бурцева, если ИИ помог понять человеческий язык, он может справиться с биологическими данными. Исследователи из Имперского колледжа Лондона уже продемонстрировали этот потенциал: обучив нейросеть на базе из 1 млн записей электрокардиограмм (ЭКГ), они смогли с точностью около 70% предсказывать риск развития диабета 2-го типа за годы до его проявления.

Еще один прорыв связан с белками. Модель AlphaFold от DeepMind научилась предсказывать 3D-структуру белков по последовательности аминокислот с точностью, не уступающей экспериментальным методам. Это открытие стало фундаментальным: если раньше на определение структуры одного белка уходили месяцы и сотни тысяч фунтов, то теперь ученые могут запрашивать готовые данные из базы за считанные секунды.

«Gina»: язык ДНК и геномные модели 33:31

Человеческий геном — это сложная система из 3 млрд нуклеотидов, которую Бурцев сравнивает с длинной компьютерной программой. Для её декодирования он и его коллеги начали проект «Gina» (или GLM — Genomic Language Model).

Применяя метод трансферного обучения, они используют принципы обработки текстов для анализа ДНК:

Однако, по словам Бурцева, простое увеличение размера моделей (скейлинг) в биологии сталкивается с препятствиями. В отличие от текста, где взаимодействие слов локально, геном имеет многоуровневую структуру взаимодействия: от коротких дистанций внутри гена до «дальнодействующих» связей между генами на расстоянии миллионов пар оснований.

Преодоление барьеров памяти 48:51

Чтобы нейросети могли учитывать эти сложные связи, необходима «память». Бурцев описывает концепцию «ассоциативного рекуррентного трансформера памяти», который позволяет модели удерживать информацию из контекста длиной до 50 млн токенов. Это в разы превышает возможности стандартных моделей.

Потенциальные применения таких технологий обширны:

Михаил Бурцев заключает, что будущее биологии с ИИ — это не просто предсказания, а понимание механизмов жизни, таких как природа старения. Возможно, уже через несколько десятилетий мы сможем проектировать сложные биологические объекты, просто отправив код генома в лабораторию для синтеза.

💬 Цитаты

«Если большие языковые модели помогли нам понять такой сложный феномен, как естественный язык, можем ли мы использовать тот же подход для понимания языка жизни?»

Михаил Бурцев 16:42

«Мои исследования сфокусированы на том, как сделать машины умнее.»

Михаил Бурцев 0:58
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Трансформер
Тип нейросетевой архитектуры, лежащий в основе большинства современных языковых моделей.
Промотор
Участок ДНК, который инициирует процесс транскрипции гена.
Feature attribution
Методы, позволяющие определить, какие части входных данных наиболее важны для принятия решения моделью.
Нуклеотид
Структурная единица ДНК, «буква» генетического кода.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Mikhail Burtsev Genomic Language Model AlphaFold DeepMind LIMS