蛋白结构预测新方法基于语言模型和深度

来源：语言识别时间：2024/12/10

撰文

十一月根据氨基酸预测蛋白质的三维结构是生物物理学中具有重大意义的挑战。一直以来，蛋白质的结构依赖于生物物理的方法，AlphaFold等算法模型使用深度神经网络生成蛋白质结构预测。最近出现的AlphaFold2进一步优化，实现了基于机器学习的方法以足够的精度预测蛋白质结构。但是目前使用机器学习进行蛋白质结构预测仍然是一项巨大的挑战，因为目前AlphaFold2需要深度学习和编码多序列比对（Multiplesequencealignments，MSAs）的协同进化关系来预测蛋白质结构。因此，很难用AlphaFold2去预测孤儿蛋白以及快速进化的蛋白，另外很难提高蛋白质结构预测的速度以及理解蛋白质在溶液中的自发折叠规律。年10月3日，美国哥伦比亚大学MohammedAlQuraishi研究组、哈佛大学PeterK.Sorger研究组以及NazimBouatta研究组合作在NatureBiotechnology上发表了文章Single-sequenceproteinstructurepredictionusingalanguagemodelanddeeplearning，提出了一种端到端的循环几何网络计算模型RGN2，通过使用蛋白质语言AminoBERT对孤儿蛋白质的潜在结构信息进行解析，计算时间更短、性能更上一层楼。AlphaFold2预测蛋白质结构方面需要协同进化信息，因此在缺乏同源性的蛋白质的结构预测方便表现不佳。目前此类蛋白质占据所有宏基因组20%。蛋白质设计和量化序列变化对功能或免疫原性影响的研究也需要单序列结构预测，而且多肽在溶液中折叠的物理过程完全由该链的化学性质及其与溶剂的相互作用所驱动。因此，直接从单个序列进行结构预测会比根据同源蛋白的对比预测更接近真实的物理过程。高效预测孤儿蛋白结构很有价值，作者们先前的工作曾经描述过一个端到端、基于机器学习的蛋白质结构预测方法RGN。在本工作中，作者们描述了一种使用蛋白质语言模型预测单个蛋白质结构的方法（图1）。AminoBERT蛋白质语言的目标是捕获隐含在蛋白质结构中一系列氨基酸的潜在信息。通过对AminoBERT蛋白质语言的实现和训练可以对没有显著同源蛋白的天然以及人工设计的蛋白质的结构进行预测和评估。该模型有两个创新点，其一是该模型基于氨基酸序列的本身，其二是蛋白质几何结果不是通过角度扭转而是基于FrenetSerret对于蛋白质几何结构的描述而确定，并蛋白质固有的平移和旋转不变性引入主干结构以及侧链结构加成的。图1基于蛋白质语言学习的物理结构预测系统为了生成AminoBERT语言模型，作者们使用从UniParc序列数据库中获得的约2.5亿个天然蛋白质序列训练出了一个12层转换器。为了增强对完整蛋白质序列信息的捕获，我们引入了两个不属于AminoBERT蛋白质语言的训练目标，其次采用块置换法交换相邻的蛋白质片段，从而促进AminoBERT蛋白质语言识别全局性的同时又能够识别不同的独立模块。在进行2-3周的AminoBERT蛋白质语言训练后，作者们想知道该模型对于孤儿蛋白结构的预测效果。与AlphaFold2等蛋白质预测模型相比较，新模型在超过20个氨基酸并在多个数据库中被发现是孤儿蛋白的结构预测中的准确性要更高，尤其是在富含的单螺旋结构以及弯曲结构蛋白质上优于所有的方法。另外，作者们还研究了蛋白质长度对于结构预测的影响，发现新模型在较长的螺旋蛋白上的表现通常优于AlphaFold2。随后，作者们评估了新模型RGN2在个合成蛋白质的测试集上的准确性，这些蛋白质最初是使用计算参数化能量函数从头设计的，有许多被用于治疗药物的开发如新型抗菌肽等。作者们发现RGN2在这新蛋白的结构预测方面的表现也优于AlphaFold2。总的来说，该工作通过一种端到端循环网络开放的方式，通过使用AminoBERT蛋白质语言实现了对孤儿蛋白的结构预测。AlphaFold2的出现大大扩展了人们对于蛋白质结构的认识，而新模型RGN2则进一步增加了对不具有同源序列的蛋白以及人工设计的蛋白质的预测潜能。原文链接：

转载请注明：http://www.0431gb208.com/sjszjzl/8030.html

上一篇文章：亚马逊研究新的文字识别技术,没想到先干掉

下一篇文章：没有了