Исследователи Массачусетского технологического института используют обработку естественного языка для анализа вирусной эволюции и побега

Одной из самых серьезных проблем в борьбе с гриппом и ВИЧ является их высокая скорость мутации, которая позволяет им избегать антител, вырабатываемых конкретной вакциной, с помощью процесса, известного как «вирусное бегство». Это явление возникает, когда мутация позволяет вирусу изменять форму своих поверхностных белков таким образом, чтобы предотвращать связывание антител с ними, но при этом сохраняет функциональность белков нетронутой.

«Если вирус хочет ускользнуть от иммунной системы человека, он не хочет мутировать себя, так что он умирает или не может воспроизводиться», – сказал Брайан Хи, ведущий автор книги. Наука paper и аспирант Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) в заявлении. «Он хочет сохранить физическую форму, но достаточно маскируется, чтобы его не обнаружила иммунная система».

Ускользание вируса от поверхностного белка гриппа и поверхностного белка оболочки ВИЧ объясняет, почему у нас нет универсальной вакцины против гриппа или вакцины от ВИЧ. В случае SARS-CoV-2 до сих пор неясно, насколько быстро вирус мутирует, что поднимает вопрос о том, как долго вакцины, применяемые в настоящее время для борьбы с COVID-19, будут оставаться эффективными, прежде чем погибнут от утечки вируса.

Хи и его соавторы, в число которых входят сотрудники отделов биологической инженерии, вычислительной и системной биологии Массачусетского технологического института, придумали новый способ компьютерного моделирования утечки вирусов, основанный на моделях машинного обучения, которые изначально были разработаны для анализа естественного языка. Модели нейронного языка, которые лежат в основе таких технологий, как распознавание речи и машинный перевод, обучаются на огромных коллекциях текста, чтобы вычислить частоту, с которой определенные слова встречаются вместе.

Модели, адаптированные для вирусной области исследователями из Массачусетского технологического института, включают поиск по ограниченному семантическому изменению (CSCS), который они адаптировали для поиска мутаций в вирусной последовательности, которые сохраняют приспособленность, будучи антигенно отличными, и двунаправленную долгую краткосрочную память (BiLSTM), архитектуру модели нейронного языка, которую они адаптировали для изучения «грамматических» белковых последовательностей и прогнозирования утечки вирусов. Исследователи обучили эти модели аминокислотам из 60000 последовательностей ВИЧ, 45000 последовательностей гриппа и 4000 последовательностей коронавируса.

READ  Солон добивается отсрочки выборов 2022 года из-за опасений пандемии

Модели команды анализируют закономерности в последовательности вирусного белка, чтобы предсказать новые последовательности вирусных поверхностных белков, которые имеют новые функции, но при этом следуют биологическим правилам структуры белка. Это последовательности, которые с большей вероятностью будут мутировать таким образом, чтобы вирус ускользнул. Точно так же модели могут также идентифицировать участки, которые с меньшей вероятностью мутируют, что делает их хорошими мишенями для новых вакцин.

«Языковые модели очень эффективны, потому что они могут изучить эту сложную распределительную структуру и получить некоторое представление о функциях только на основе изменения последовательности», – сказал Хи. «У нас есть большой массив данных о вирусных последовательностях для каждой позиции аминокислоты, и модель изучает эти свойства совместного появления и совместной вариации аминокислот в обучающих данных».

Преимущество такого типа моделирования состоит в том, что для него требуется только информация о последовательности, которую гораздо проще получить, чем сами белковые структуры.

«Все, что нам нужно, это красивая вещь, это данные о последовательностях, которые легко получить», – сказал соавтор Брайан Брайсон, доцент кафедры биологической инженерии Массачусетского технологического института.

По словам исследователей, с тех пор, как их статья была принята к публикации, они использовали свой метод для определения последовательностей, которые могут генерировать ускользающие мутации в новых вариантах SARS-CoV-2, которые недавно появились в Великобритании и Южной Африке.

В более поздней работе команда Массачусетского технологического института сотрудничает с исследователями рака, чтобы определить последовательности, которые будут использоваться в качестве мишеней для противораковых вакцин, которые стимулируют собственную иммунную систему организма для уничтожения опухолей.

Связанное чтение

Авторские права © 2021 scienceboard.net

.

Leave a Comment