В прошлом году DeepMind выпустила базу данных с открытым исходным кодом, содержащую 3D-структуры сотен тысяч белков, включая все 20 000 известных белков человеческого организма. Теперь эта база данных AlphaFold Protein Structure Database расширена до 200 миллионов структур, включающую почти все известные науке белки.
Белки состоят из цепочек аминокислот, которые складываются в замысловатые трехмерные формы, что определяет их функции. Картирование структур белков важно для понимания того, что они делают и как они работают и как все может пойти не так. Однако рассчитать точную структуру белка на основе входящих в его состав аминокислот по-прежнему сложно. Для этого обычно требуется огромное количество вычислительных мощностей и человеко-часов.
Так было до тех пор, пока компания Alphabet не направила свой мощный искусственный интеллект DeepMind на решение этой проблемы. Первоначально обученная на 100 000 известных белковых структур, система развила способность предсказывать структуры многих миллионов других белков, причем на определение каждой из них уходят минуты или секунды, а не месяцы или годы.
Недавно DeepMind выпустила новое масштабное обновление базы данных, которая теперь включает около 214 миллионов структур от миллиона видов. Это охватывает почти все известные науке белки, что является огромным подспорьем для исследований в области лечения заболеваний, вакцин, устойчивости к антибиотикам и даже загрязнения окружающей среды пластиком.
Всю базу данных белковых структур, состоящую из более чем 25 терабайт данных, можно загрузить из Google Cloud Public Datasets.
Источник: Ferra