BERTology: Как нейросети учатся предсказывать 3D-структуру белков

Yannic Kilcher 17,7 тыс. 36 мин 3 мин 02.07.2020
Главное

Разгадка кода жизни: как языковые модели «читают» белки 🧬 0:00

Исследование «BERTology Meets Biology» приоткрывает завесу над тем, как глубокие нейронные сети, обученные на биологических последовательностях, начинают понимать фундаментальные законы молекулярной биологии. Янник Кильчер разбирает, как модель BERT, обучаясь предсказывать «пропущенные» аминокислоты в последовательности белка, без специальной тренировки начинает выявлять сложные структуры: от вторичной спирализации до ключевых сайтов связывания, определяющих функцию белков.

Основы: От ДНК к функциональным инструментам 1:41

Биологическая информация в клетке хранится в ДНК, которая служит чертежом для создания белков. Процесс превращения генетического кода в работающую молекулу происходит в два этапа: транскрипция в РНК и последующая трансляция в последовательность аминокислот.

Мутации в ДНК могут не менять структуру белка, если они не затрагивают критически важные для формы аминокислоты. По мнению Кильчера, анализ последовательностей белков не менее важен, чем анализ ДНК, так как именно в «языке» аминокислот скрыты инструкции по созданию функциональной формы молекулы.

«Языковая» модель для белков: Механизмы BERT 6:03

Модель BERT обучается с помощью техники «masked language modeling» (маскирование): часть токенов (в данном случае аминокислот) в строке скрывается, и модель должна предсказать их, опираясь на контекст.

Кильчер отмечает ироничный факт: когда Ричард Сохер (Richard Socher) опубликовал твит о том, что BERT предсказывает свойства белков только через языковую задачу, это выглядело как сатира на GPT-3, которая «внезапно» начала решать математические задачи, обучаясь на Википедии.

Что «видит» BERT: Контакты и сайты связывания 12:40

Для анализа исследователи использовали два ключевых показателя: контакт между двумя аминокислотами (когда они физически близки в 3D-пространстве) и сайты связывания (участки, которые взаимодействуют с другими молекулами).

Интересно, что корреляция внимания модели с матрицами замещений (BLOSUM62) — данными биологов о том, какие аминокислоты можно заменить без потери функции — оказалась поразительно высокой. Это свидетельствует о том, что языковая модель интуитивно усвоила принципы биологической взаимозаменяемости аминокислот.

Выводы и ограничения 33:46

Анализ с помощью линейных зондов (linear probes) подтвердил иерархичность обучения модели. Более простые вторичные структуры лучше определяются в ранних слоях, тогда как более сложные третичные структуры и сайты связывания — в средних и поздних.

Кильчер подчеркивает: текущие результаты не являются идеальными, но это прорыв. Остается открытым вопрос, является ли текущая точность пределом возможностей языкового моделирования в биологии или же дело в нехватке мощности архитектуры для извлечения всей скрытой информации. Тем не менее, подобные исследования, по мнению ведущего, крайне перспективны, так как они позволяют глубже понять как саму природу нейронных сетей, так и фундаментальные механизмы жизни.

💬 Цитаты

«Если мы тренируем модель на Wikipedia, она может делать математику. Если мы тренируем ее на биологических данных, она может предсказывать биологию.»

Янник Кильчер 12:12
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
BERT
Архитектура нейронной сети, использующая механизм внимания для обработки контекста в последовательностях.
Сайт связывания
Участок белка, ответственный за взаимодействие с другими молекулами.
Механизм внимания (Attention)
Математический метод, позволяющий нейросети определять важность различных элементов входных данных относительно друг друга.
Линейный зонд (Linear probe)
Простой классификатор, обучаемый поверх слоев нейросети для проверки наличия специфической информации в этих слоях.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект BERT Protein Language Models Yannic Kilcher