Янник Килхер объяснил, как нейросеть BERT предсказывает структуру белка

В новом видео популярный исследователь искусственного интеллекта Янник Килхер (Yannic Kilcher) подробно разбирает научную работу «BERTology Meets Biology: Interpreting Attention in Protein Language Models». В центре внимания авторов исследования — попытка применить архитектуру BERT, изначально созданную для обработки естественного языка, к анализу сложных биологических последовательностей белка. Главный сюжет заключается в изучении того, способны ли внутренние механизмы внимания нейросети самостоятельно выявлять трехмерную структуру и функциональные особенности молекул без прямого обучения биологическим законам.

🧬 От ДНК к трехмерной структуре белка: краткий ликбез 1:26

Для глубокого понимания сути исследования Янник Килхер напоминает базовые принципы молекулярной биологии. Внутри клеток каждого живого организма содержится ДНК — детальный кодированный план всех биологических функций, реализация которого происходит в два ключевых этапа. Сначала в процессе транскрипции создается одноцепочечная копия ДНК, называемая РНК, а затем в ходе трансляции эта РНК переводится непосредственно в белок.

Белок представляет собой последовательную цепочку из аминокислот, напоминающую бусины на нити, причем в природе существует ровно 20 видов таких аминокислот. Функция готового белка критически зависит от его финальной трехмерной формы. Аминокислоты обладают совершенно разными химическими и электрическими свойствами (некоторые заряжены отрицательно, другие нейтральны, третьи представляют собой кислоты), из-за чего цепочка, высвобождаясь в клетку, самостоятельно сворачивается в сложную 3D-структуру.

Янник Килхер сравнивает белки с микроскопическими инструментами: например, существуют белки, способные разрезать другие молекулы, и они физически сформированы как ножницы, идеально подходящие под свою цель. Иногда замена одной аминокислоты на другую в цепочке не меняет общую форму, и тогда функция белка сохраняется. Однако если случайная мутация затрагивает жизненно важный узел, молекула полностью теряет свои свойства. По этой причине анализ белковых последовательностей имеет колоссальное значение для современной науки.

🤖 BERT на службе биологии: как обучить модель языку протеинов 5:10

Поскольку белок представляет собой простую строковую последовательность буквенных обозначений аминокислот (например, AVMMVAG), к нему можно применять стандартные инструменты обработки естественного языка (NLP). Авторы исследования взяли за основу предобученную модель BERT, которая функционирует по принципу маскирования текста (Masked Language Modeling). Нейросети подается строка аминокислот, в которой часть элементов скрыта, и ее задача — восстановить пропущенные «слова», опираясь исключительно на окружающий контекст.

В контексте человеческой речи BERT учится понимать взаимосвязи между словами, грамматику и долгосрочные ассоциации. В биологии исследователи преследуют аналогичную цель, задаваясь вопросом: можно ли извлечь информацию о скрытой трехмерной форме белка, имея на руках только его первичную текстовую последовательность? По словам Янника Килхера, традиционно для этого требуется запускать сложные физические симуляции молекулярных взаимодействий. Данная же работа проверяет, какие именно биологические паттерны BERT усваивает «интуитивно», обучаясь лишь предсказанию пропущенных букв и никогда не видя реальную 3D-геометрию.

📐 Иерархия белковых структур и феномен «языкового моделирования» 8:51

В структурной биологии принято выделять несколько уровней организации молекулы:

Первичная структура — непосредственная линейная последовательность аминокислот в цепочке.
Вторичная структура — локальные подстроки аминокислот, сворачивающиеся в регулярные паттерны: альфа-спирали (alpha helixes), бета-листы (beta sheets) или повороты (turns).
Третичная структура — полная трехмерная укладка единой unbroken-цепочки в пространстве.

[Image of protein structure levels]

Для предсказания третичной структуры критически важно знать так называемые «карты контактов» (contact maps) — информацию о том, какие именно аминокислоты сближаются друг с другом при изгибах цепи. Другим важнейшим элементом являются сайты связывания (binding sites) — одиночные аминокислоты, которые за счет своей геометрии и химических свойств выступают в роли рецепторов для других молекул. Примером служит гемоглобин, захватывающий кислород в крови человека.

Янник Килхер с иронией вспоминает твит Ричарда Сочера (Richard Socher), одного из соавторов статьи, который полушутя сравнил этот прорыв с громкими заголовками вокруг GPT-3: «Если мы обучим модель на Википедии, она сможет решать математику, предсказывать биологию, завязывать вам шнурки и готовить ужин». Тем не менее, ведущий признает, что перенос концепции языкового моделирования на биологические данные полностью оправдан.

🔍 Механизм внимания: что ищут «головы» нейросети 12:40

Математически авторы статьи формализовали задачу через вычисление определенного индикаторного свойства $F$, которое принимает значение 1, если между элементами есть контакт или если токен является сайтом связывания. Исследователи сфокусировались на анализе «голов внимания» (attention heads) в BERT. Этот механизм позволяет каждому токену на текущем слое собирать информацию со всех остальных токенов предыдущего слоя через алгоритмы динамической маршрутизации.

Гипотеза ученых заключалась в том, что если две аминокислоты физически контактируют в пространстве, то в сети должен обнаружиться слой и конкретная голова, где связь между ними окажется максимально сильной. Аналогично, если токен выполняет роль сайта связывания, вся сеть должна обращать на него повышенное внимание и маршрутизировать туда большие объемы информации.

Для проверки этих предположений были использованы два метода:

Корреляционный анализ весов внимания в конкретных головах относительно известных реальных свойств белка, полученных из симуляторов.
Метод зондирования (probing task), при котором к промежуточным слоям подключается простой линейный классификатор для предсказания свойств. При этом ведущий замечает, что классическое зондирование в данной работе играет второстепенную роль, уступая прямому анализу самих голов внимания.

🧩 Специализация на отдельных токенах и матрицы замещения 17:39

Первым важным открытием стало существование голов внимания, жестко специализированных на конкретных аминокислотах. Например, 11-я голова 1-го слоя модели тратит до 78% своего внимания исключительно на обнаружение аминокислоты пролин (proline). Аналогичный фокус был зафиксирован и для фенилаланина (phenylalanine).

Янник Килхер объясняет, что это поведение абсолютно логично и пересекается с NLP-моделями в естественных языках, где отдельные головы часто фокусируются на служебных словах, таких как артикль «the». В случае белков ситуация даже проще, поскольку размер их «алфавита» составляет всего 20 аминокислот против 30 тысяч слов в человеческой речи. Нижние слои сети работают как базовые экстракторы признаков, а самые последние слои подготавливают данные для задачи восстановления маскированных элементов, поэтому они тоже сильно специализируются на отдельных токенах.

Другой впечатляющий результат связан с биологическими матрицами замещения аминокислот (например, BLOSUM62), которые используются учеными для оценки того, насколько безболезненно можно заменить одну аминокислоту на другую в процессе эволюции. Исследователи построили собственную матрицу схожести паттернов внимания для разных аминокислот, предположив, что если языковая модель воспринимает две аминокислоты как синонимы, их профили внимания должны сильно коррелировать. При сравнении классической биологической матрицы BLOSUM62 и матрицы сходства внимания нейросети они оказались практически идентичными. По мнению Янника Килхера, визуальное совпадение темных и светлых зон на этих графиках служит неопровержимым доказательством того, что BERT действительно глубоко усвоил законы биологии.

🧬 Предсказание контактов и сайтов связывания: высший порядок 24:52

При переходе к анализу структур высшего порядка обнаружилось, что 4-я голова 12-го слоя (head 12-4) обладает уникальной специализацией на предсказании пространственных контактов. Веса внимания в ней резко возрастают именно тогда, когда две аминокислоты сближаются при фолдинге. График вероятности контакта в зависимости от силы внимания в этой голове показал отличную калибровку, близкую к идеальному математическому оценщику. Ведущий объясняет это тем, что при маскировании токена его пространственные соседи по 3D-структуре служат лучшими подсказками для восстановления, выполняя роль, аналогичную местоимениям и именам собственным в лингвистическом контексте.

С сайтами связывания ситуация оказалась чуть более сложной. Сильнее всего на них реагирует 1-я голова 7-го слоя, аккумулируя до 34% внимания. Однако в целом этот признак размыт по нескольким головам в более глубоких слоях, поскольку сайты связывания разнообразны по своей химической природе и требуют комбинации различных признаков. Тем не менее, частота фиксации сайтов связывания головами внимания многократно превышает случайную вероятность.

📊 Результаты линейного зондирования и выводы исследования 33:46

Эксперименты с линейными зондами подтвердили гипотезу о послойном распределении знаний в нейросети. Вторичные структуры белка (спирали и листы) эффективно распознаются на самых ранних слоях модели. Напротив, третичные структуры, контакты и сайты связывания требуют более высокоуровневой абстракции, и график приращения их качества наглядно смещается к средним и поздним слоям сети. Центр масс распределения внимания для третичных функций находится существенно дальше по оси слоев, чем для вторичных.

Подводя итог, Янник Килхер отмечает, что остается открытым фундаментальный вопрос: связано ли несовершенство некоторых биологических предсказаний с тем, что текущие языковые модели еще недостаточно велики, или же сама цель обучения (Masked Language Modeling) имеет внутренние ограничения и принципиально не способна идеально зафиксировать всю физику процесса сворачивания белка? Тем не менее, ведущий высоко оценивает подобные прикладные работы за их способность раскрывать «черный ящик» нейросетей и одновременно приносить реальную пользу фундаментальной науке.