• USD 28.2
  • EUR 34.2
  • GBP 38.6
Спецпроекты

Вылечить Альцгеймера и Паркинсона. Как ИИ стал претендентом на Нобелевку

Стартап DeepMind, который менее семи лет назад купила компания Google, решил проблему, с которой биохимики пытались справиться почти полстолетия

Искусственный интеллект научился предсказывать трехмерную структуру белков
Искусственный интеллект научился предсказывать трехмерную структуру белков / Depositphotos
Реклама на dsnews.ua

Искусственный интеллект (ИИ) и медицина — эти два научных направления, развивающиеся параллельно, должны были когда-то пересечься. И наконец это случилось. Нейросеть AlphaFold впервые в истории научилась предсказывать трехмерную структуру белков по их одномерной аминокислотной последовательности, делая это гораздо быстрее и дешевле, чем современные коллективы биохимиков со всеми своими лабораториями.

В результате медики получили перспективу научиться лечить болезни типа Альцгеймера и Паркинсона. А также, подчеркнем, найти эффективные способы борьбы с коронавирусом.

Отставание в тысячу раз

Белки необходимы для жизни, поддерживая практически все ее функции. С точки зрения химии, это огромные молекулы, представляющие собой свернутые сложнейшим образом цепочки аминокислот.

Каждый белок характеризуется собственной аминокислотной последовательностью, которую называют также первичной структурой. Расшифровкой аминокислотной последовательности ученые занимаются с середины прошлого века. В 1958 г. британский биохимик Фредерик Сенгер получил Нобелевскую премию по химии за выдающееся достижение в этом направлении — установление первичной структуры инсулина, которое открыло путь к синтетическому получению инсулина и других гормонов.

С тех пор работы в этом направлении продвигаются все более высокими темпами. Этому помогло выяснение того факта, что аминокислотная последовательность запрограммирована в генах. Революция в геномике сделала возможным считывание первичной структуры белков, так сказать, в промышленном масштабе. Огромные объемы данных об аминокислотной последовательности стали доступны в результате широкомасштабных работ по секвенированию ДНК, таких как проект «Геном человека». К настоящему времени в базе данных Universal Protein (UniProt) представлена первичная структура уже 180 млн белков.

Однако функции белка определяются не только его химическим составом и аминокислотной последовательностью. Во многом они зависят от его уникальной трехмерной структуры, в которую скручивается и укладывается первичная структура. По форме своей трехмерной структуры белки делятся в основном на глобулярные и фибриллярные. Глобулярные белки имеют эллипсовидную форму, как у мяча для регби, а фибриллярные (нитевидные) — вытянутую, как у палочки или веретена.

Реклама на dsnews.ua

Разгадыванием трехмерной структуры белков ученые занялись еще в 1950-е. И здесь тоже были быстро достигнуты впечатляющие успехи. Британские биохимики Макс Перуц и Джон Кендрю за свои исследования структуры глобулярных белков удостоились Нобелевской премии по химии в 1962 г. Однако темпы продвижения по этому направлению в тысячу раз ниже, чем по расшифровке аминокислотной последовательности. На данный момент в Protein Data Bank (PDB) представлены трехмерные структуры 170 тыс. белков. То есть разгадана трехмерная структура лишь у менее чем 0,1% известных белков (у 170 тыс. из 180 млн).

И это притом что все эти годы трехмерная структура белков была предметом интенсивных научных исследований с использованием различных экспериментальных методов, таких как ядерный магнитный резонанс и рентгеновская кристаллография. Недавно к ним добавилась криоэлектронная микроскопия высокого разрешения, позволяющая определять структуру биомолекул в растворе. За ее развитие получили Нобелевскую премию по химии 2017 г. три биохимика: американец Иоахим Франк, швейцарец Жак Дюбоше и британец Ричард Хендерсон.

Однако все эти методы требуют многолетней кропотливой работы крупных исследовательских коллективов и использования специализированного оборудования стоимостью в миллионы долларов. Именно поэтому и накопилось тысячекратное отставание базы трехмерных структур от базы первичных структур.

Идея длиной в полстолетия

Существует ли какой-то чудесный способ обойтись без трудоемких и дорогостоящих экспериментов, чтобы предсказать трехмерную структуру белка? Идея такого способа родилась, как ни парадоксально, благодаря экспериментам.

В 1972 г. Нобелевскую премию по химии получили три американца — Кристиан Анфинсен, Уильям Стайн и Станфорд Мур — за разносторонние исследования рибонуклеазы (этот белок играет ключевую роль во многих биологических процессах). В частности, Анфинсен получил половину премии «за работу по исследованию рибонуклеазы, особенно взаимосвязи между аминокислотной последовательностью и ее биологически активными конферментами». Проще говоря, он изучил взаимосвязь между первичной и трехмерной структурой рибонуклеазы.

В своей речи на присуждении Нобелевской премии Анфинсен высказал предположение, что не только у рибонуклеазы, а у всех белков аминокислотная последовательность полностью определяет трехмерную структуру. Эта гипотеза вызвала поиск, продолжающийся уже почти полстолетия, — поиск возможности предсказать посредством компьютерных вычислений трехмерную структуру белка, основываясь исключительно на его одномерной аминокислотной последовательности.

Конечно, задача, которую поставил Анфинсен, выходила далеко за пределы возможностей науки в то время. Однако по мере развития вычислительной техники все большее число исследователей задумывались над этой проблемой и пытались приступить к ее решению.

С 1994 г. в США каждые два года проводится CASP (Critical Assessment of protein Structure Prediction — «Критическая оценка предсказания структуры белка») — масштабный эксперимент, который объективно тестирует методы предсказания трехмерной структуры. В этом проекте принимают участие на постоянной основе уже более 100 исследовательских групп.

По сути, это чемпионат мира по решению задачи Анфинсена. Все проходит по суровым канонам научных состязаний. Всем участникам предлагается одинаковый тест — около сотни белков, чью трехмерную структуру требуется предсказать. Базовый принцип CASP — отсутствие у участников какой-либо предварительной информации о белке, кроме аминокислотной последовательности. По этой причине в CASP используется двойной слепой метод — ни организаторы, ни эксперты, ни участники не знают структуры тестируемых белков до окончания стадии предсказаний. Затем эксперты сравнивают предсказания участников с экспериментально определенной структурой.

Численная характеристика качества предсказания — GDT (global distance test). Говоря упрощенно, это процент аминокислотных остатков (то есть элементов аминокислотной последовательности), чье пространственное положение предсказано правильно. То есть максимальный возможный результат — это 100 GDT. По словам соучредителя и президента CASP, профессора Мэрилендского университета Джона Моулта, предсказание, получившее оценку около 90 GDT, неофициально считается конкурентоспособным с результатами, полученными с помощью экспериментальных методов.

Однако на пути к вожделенным 90 GDT ученые крепко застряли. В 2006-2016 гг. результаты лучших команд колебались в пределах около 30-40 GDT. И никакого прогресса не наблюдалось.

Благодаря нейросети AlphaFold ученые теперь располагают долгожданным методом предсказания трехмерной структуры белка по его аминокислотной последовательности
Благодаря нейросети AlphaFold ученые теперь располагают долгожданным методом предсказания трехмерной структуры белка по его аминокислотной последовательности / Depositphotos

Нейросеть превзошла людей

И вот тут в нашей истории появляется компания Google. В начале 2014 г. она приобрела за более чем $400 млн лондонский стартап DeepMind, основанный в 2010 г. и занимающийся разработкой систем искусственного интеллекта.

Поддержка Google позволила стартапу браться за самые трудные задачи. В 2016 г. команда DeepMind поставила перед собой амбициозную цель победы в CASP. И за два года эта цель была достигнута. В DeepMind создали нейросеть AlphaFold, которая в декабре 2018 г. была признана победительницей очередных, 13-х по счету соревнований CASP. Она достигла рекордного результата — почти 60 GDT.

Конечно, это еще не означало решение задачи Анфинсена. Но медиа уже предвкушали начало новой эры научного и медицинского прогресса. В январе 2020 г. в журнале Nature вышла статья, в которой разработчики AlphaFold поделились своими методами.

К следующим соревнованиям CASP-14, начавшимся в мае 2020 г., команда DeepMind подготовила усовершенствованную нейросеть AlphaFold. Она была натренирована посредством глубокого обучения: ей задавали один за другим белки из базы PDB, она пыталась предсказывать их трехмерную структуру и училась на собственных ошибках, постепенно приближаясь к совершенству.

30 ноября были обнародованы результаты CASP-14. Нейросеть AlphaFold по всем целям получила средний балл 92,4 GDT. Это означает, что ее прогнозы имеют среднюю ошибку примерно 0,16 нанометра, что сопоставимо с шириной атома (0,1 нанометра). Даже для очень сложных белковых мишеней, относящихся к наиболее сложной категории свободного моделирования, AlphaFold достигла среднего балла 87,0 GDT.

Организаторы CASP признали этот результат решением задачи Анфинсена. То есть ученые теперь располагают долгожданным методом предсказания трехмерной структуры белка по его аминокислотной последовательности.

Профессор Моулт не скрывает своих эмоций. «Мы застряли на одной проблеме — как складываются белки — почти на 50 лет. Очень особенный момент видеть, как DeepMind предлагает решение для этого, — после того как ты лично работал над этой проблемой так долго и после стольких остановок и пробуксовок, когда задавался вопросом, доберемся ли мы когда-нибудь до этого», — говорит соучредитель CASP.

Результат AlphaFold — это фактически достижение нобелевского уровня. И если не сама нейросеть, то хотя бы ее разработчики, возможно, войдут в список номинантов на Нобелевскую премию.

«Эта вычислительная работа представляет собой потрясающий шаг вперед в решении проблемы сворачивания белков, грандиозной задачи биологии 50-летней давности. Это произошло на десятилетия раньше, чем предсказывали многие специалисты в этой области. Будет интересно увидеть, как это фундаментально изменит биологические исследования», — говорит президент Королевского общества (это британский аналог академии наук) биохимик Венки Рамакришнан, который, кстати, в 2009 г. получил Нобелевскую премию по химии.

Умение предсказывать трехмерную структуру белка поможет понять, как возникают и распространяются в организме диабет, болезни Паркинсона, Альцгеймера и Хантингтона /
Умение предсказывать трехмерную структуру белка поможет понять, как возникают и распространяются в организме диабет, болезни Паркинсона, Альцгеймера и Хантингтона / / Depositphotos

Новые перспективы для медицины

Умение предсказывать трехмерную структуру белка поможет понять, как болезни возникают и распространяются в организме. Например, болезнь Паркинсона развивается из-за накопления в некоторых нейронах (клетках мозга) белка альфа-синуклеина: он скручивается и образует внутри нейронов токсичные клубки — тельца Леви. Но как именно появляется этот белок, ученые до сих пор точно не знают. Понимание трехмерной структуры белка поможет ответить на этот вопрос.

Иль возьмем болезнь Альцгеймера. Она порождается, по одной гипотезе, накоплением белка бета-амилоида, по другой — отклонениями в структуре тау-белка. Точная роль этих двух белков в развитии болезни неизвестна. Выяснение их трехмерной структуры должно помочь научиться диагностировать болезнь Альцгеймера на ранних стадиях и создать эффективное лекарство.

Подобных примеров можно привести множество, включая диабет, муковисцидоз и болезнь Хантингтона. Кроме того, особенно острая потребность в срочном предсказании трехмерной структуры белков возникает в случае внезапных пандемий.

Команда DeepMind уже использовала нейросеть AlphaFold для предсказания трехмерных структур нескольких белков, которые производятся в клетках, пораженных коронавирусом. В числе этих белков — ORF3a и ORF8, трехмерная структура которых была затем проверена экспериментально. Предсказания AlphaFold с высокой степенью точности совпали с результатами экспериментов.

В настоящее время DeepMind готовит статью с описанием своей системы для публикации в рецензируемом журнале. После этого опыт создания подобных нейросетей смогут освоить научно-исследовательские коллективы и биотехнологические компании по всему миру.

«Белковая биология фантастически сложна и не поддается простой характеристике, — подчеркивает руководитель проекта AlphaFold Джон Джампер. — Работа нашей команды демонстрирует, что методы машинного обучения наконец могут соответствовать сложности описания этих невероятных белковых машин. И мы искренне рады видеть, какие новые прорывы в области здоровья человека и фундаментальной биологии они принесут».

Стоит отметить еще и то, что человечество получило убедительный аргумент в пользу искусственного интеллекта. Это уже не игры и забавы.

«Конечная цель DeepMind всегда заключалась в том, чтобы создать искусственный интеллект, а затем использовать его для углубления наших знаний об окружающем мире за счет ускорения темпов научных открытий, — говорит основатель и руководитель DeepMind Демис Хассабис. — Для нас AlphaFold представляет собой первое доказательство этого тезиса. Это достижение — наш первый крупный прорыв в давней грандиозной задаче науки, которая, как мы надеемся, окажет большое реальное влияние на понимание болезней и открытие лекарств». 

    Реклама на dsnews.ua