Нейросеть научили моментально предсказывать третичную структуру белка +17


AliExpress RU&CIS

image

Решение проблемы прогноза структуры белка откроет новую эпоху управляемой биологии.

Американский исследователь создал нейронную сеть ProteinNet, которая способна предсказывать структуру белка за миллисекунды. Ученый опубликовал статью о разработке на страницах Cell Systems и выложил код на сайт GitHub.

Одна из величайших задач биологии — предсказание трехмерных структур белков по их аминокислотным последовательностям. Существующие методы исследования первичной структуры белка — цепи из аминокислот — работают относительно легко, дешево и быстро. Существующие техники изучения третичной структуры белка — пространственной укладки изгибов, листов и спиралей аминокислотной цепи — проблематичны. Методы разрешения топологии белка включают электронную микроскопию, рентгеноструктурный анализ и ядерную магнитно-резонансную спектроскопию. Чтобы применять их, необходим кристаллизованный белок, замороженный белок, химически обработанный белок или радиоактивно меченный белок. К тому же сложность процесса подготовки образца усугубляется высокой стоимостью методов.

Решение может быть найдено в применении искусственного интеллекта (ИИ). В конце прошлого года Google DeepMind представила алгоритм AlphaFold, который обошел предшественников по эффективности. На основе последовательности аминокислот нейросеть предсказывает расстояния между всеми парами аминокислотных остатков и углы между связями, соединяющими аминокислоты. К тому же алгоритм самостоятельно оценивает точность своих расчетов.

В апреле этого года биолог из Гарвардской медицинской школы в Бостоне Мохаммед Аль Курайши представил алгоритм, который использует совершенно другой подход. По словам исследователя, ProteinNet предсказывает структуры почти в миллион раз быстрее, чем DeepMind, хотя, вероятно, не так точно. Алгоритм работает на основе рекуррентной нейронной сети и предсказывает структуру одного сегмента белка на основе структур сегментов до и после него. Новизна модели заключается в том, что она способна создавать непрерывные предсказания, стык в стык. Это достигается тем, что модель связывает локальную и глобальную структуру белка через геометрические единицы.

Обучение сети ProteinNet занимает месяцы. После она способна преобразовать последовательность в структуру за миллисекунды. Высокая скорость достигается тем, что алгоритм использует математическую функцию для расчета в один шаг. AlphaFold применяет функцию в два шага и потому может прогнозировать топологию часы и даже дни.




Комментарии (9):

  1. poznawatel
    /#20436101 / -1

    Прорыв!

  2. solariserj
    /#20436235

    То есть Rosetta от BOINC уже не нужна?

    • Sau
      /#20436861

      «в миллион раз быстрее, чем DeepMind, хотя, вероятно, не так точно» — думаю, рано розетту списывать со счетов

  3. vesper-bot
    /#20436281

    Интересно, способен ли этот алгоритм учитывать третичные водородные связи дальше нескольких оснований? Вроде как основной затык как раз в них.

  4. vershinin
    /#20436403

    Очень интересно, а способен ли он предсказывать белки с лигандами? С ионами металлов?
    Как он может предсказать белки, которые сворачиваются только в присутствии шаперонов? Или тех, что сворачиваются только в определённых условиях — pH, температура, электролиты?

  5. Dron11
    /#20437413 / +1

    Забавно, сколько внимания уделяется скорости, да пусть хоть полгода считает, если это результат будет соответствовать действительности.

  6. Vsevo10d
    /#20437685

    Вот тут я против нейросетей.
    В первом приближении достаточно хорошо должны работать алгоритмы. Легко задать такие параметры, как Ван-дер-Ваальсов радиус, заряд, водородные взаимодействия, гидрофильность, электроотрицательность. Дальше уже рассматривается принцип энергетической выгодности (минимальной энергии полученной в результате фолдинга молекулы), и вот тут очень выручает человек, задающий основные направления и способы укладки, которые затем проще оптимизировать — привет вышеупомянутым распределенным вычислениям BOINC, Folding и т.д. (да я и сам гнул белки на своем ноуте в Folding в далеком 2009-м).
    А нейросеть, насколько я понял, обучается по конфигурациям, и где-то это может работать, а в сильно экзотическом случае может серьезно споткнуться об отсутствие учета какого-нибудь аддитивного эффекта разного типа взаимодействий, например редкий ион, лиганд и т.д. Или просто провалиться в локальный оптимум чисто математически, не дойдя до истинно выгодной структуры, появляющейся в результате ферментного катализа.

    • fireSparrow
      /#20437785

      Ну, кажется, ничего не мешает нейросети заменить как раз ту стадию, где человек участвует. А всё остальное оставить как в вашем варианте.

  7. KonkovVladimir
    /#20437889

    фолдинг белка же NP-hard задача www.gwern.net/docs/biology/1993-fraenkel.pdf, как можно «за миллисекунды» или белки маленькие???