BERTology: Как нейросети учатся предсказывать 3D-структуру белков

Разгадка кода жизни: как языковые модели «читают» белки 🧬 0:00

Исследование «BERTology Meets Biology» приоткрывает завесу над тем, как глубокие нейронные сети, обученные на биологических последовательностях, начинают понимать фундаментальные законы молекулярной биологии. Янник Кильчер разбирает, как модель BERT, обучаясь предсказывать «пропущенные» аминокислоты в последовательности белка, без специальной тренировки начинает выявлять сложные структуры: от вторичной спирализации до ключевых сайтов связывания, определяющих функцию белков.

Основы: От ДНК к функциональным инструментам 1:41

Биологическая информация в клетке хранится в ДНК, которая служит чертежом для создания белков. Процесс превращения генетического кода в работающую молекулу происходит в два этапа: транскрипция в РНК и последующая трансляция в последовательность аминокислот.

Структура белка: Белок — это линейная цепь из 20 типов аминокислот.
Сворачивание: После синтеза белок «сворачивается» в трехмерную форму из-за химических взаимодействий (зарядов, притяжения) между аминокислотами.
Функция: Биологическая функция белка (например, способность разрезать другие молекулы) критически зависит от его 3D-формы.

Мутации в ДНК могут не менять структуру белка, если они не затрагивают критически важные для формы аминокислоты. По мнению Кильчера, анализ последовательностей белков не менее важен, чем анализ ДНК, так как именно в «языке» аминокислот скрыты инструкции по созданию функциональной формы молекулы.

«Языковая» модель для белков: Механизмы BERT 6:03

Модель BERT обучается с помощью техники «masked language modeling» (маскирование): часть токенов (в данном случае аминокислот) в строке скрывается, и модель должна предсказать их, опираясь на контекст.

Обучение: Модель учится «понимать» язык белков, выявляя, какие аминокислоты чаще встречаются рядом, и улавливая дальние связи.
Гипотеза: Исследователи предположили, что если модель научится идеально восстанавливать последовательности, то внутри ее механизмов внимания (attention heads) должна закодироваться информация о 3D-структуре белка.

Кильчер отмечает ироничный факт: когда Ричард Сохер (Richard Socher) опубликовал твит о том, что BERT предсказывает свойства белков только через языковую задачу, это выглядело как сатира на GPT-3, которая «внезапно» начала решать математические задачи, обучаясь на Википедии.

Что «видит» BERT: Контакты и сайты связывания 12:40

Для анализа исследователи использовали два ключевых показателя: контакт между двумя аминокислотами (когда они физически близки в 3D-пространстве) и сайты связывания (участки, которые взаимодействуют с другими молекулами).

Специализация слоев: В нижних слоях сети внимание часто фокусируется на отдельных специфических аминокислотах, что типично для базовых функций нейросети.
Контакты: Голова внимания №4 в 12-м слое (head 12-4) показала уникальную способность предсказывать контакты между аминокислотами. При росте внимания в этой голове вероятность контакта двух аминокислот заметно увеличивается.
Сайты связывания: Здесь картина оказалась более распределенной: внимание к таким участкам рассеяно по многим головам, что объясняется разнообразием функциональных сайтов. Лидером стала голова №1 в 7-м слое, фокусирующая на сайтах связывания 34% своего внимания.

Интересно, что корреляция внимания модели с матрицами замещений (BLOSUM62) — данными биологов о том, какие аминокислоты можно заменить без потери функции — оказалась поразительно высокой. Это свидетельствует о том, что языковая модель интуитивно усвоила принципы биологической взаимозаменяемости аминокислот.

Выводы и ограничения 33:46

Анализ с помощью линейных зондов (linear probes) подтвердил иерархичность обучения модели. Более простые вторичные структуры лучше определяются в ранних слоях, тогда как более сложные третичные структуры и сайты связывания — в средних и поздних.

Кильчер подчеркивает: текущие результаты не являются идеальными, но это прорыв. Остается открытым вопрос, является ли текущая точность пределом возможностей языкового моделирования в биологии или же дело в нехватке мощности архитектуры для извлечения всей скрытой информации. Тем не менее, подобные исследования, по мнению ведущего, крайне перспективны, так как они позволяют глубже понять как саму природу нейронных сетей, так и фундаментальные механизмы жизни.