新标题:融合AI技术,AlphaFold实现精准蛋白质化学位移自动分配

编辑 | 绿萝

化学位移分配在基于核磁共振(NMR)的蛋白质结构、动力学和相互作用研究中起着至关重要的作用,能够提供重要的原子级别见解。然而,获得化学位移分配是一项劳动密集型的任务,需要花费大量的测量时间

为了解决这一限制,苏黎世联邦理工学院(ETH Zurich)的研究人员之前提出了 ARTINA——一种用于自动分配二维 (2D)–4D NMR 谱的深度学习方法。

近日,研究人员提出了一种将 ARTINA 与 AlphaFold 和 UCBShift 相结合的综合方法,能够减少实验数据、提高准确性并增强大型系统的稳健性,从而实现化学位移分配。

研究证明,与使用所有实验可用的 NMR 数据(平均每个蛋白质 10 个 3D 光谱,91.37%)的纯 ARTINA 运行相比,五个 3D 光谱产生更准确的分配(92.59%),从而大大减少了所需的测量时间。研究还报告了在多达 500 个残基的大型合成系统中提高了分配准确性。

该研究以《Time-optimized protein NMR assignment with an integrative deep learning approach using AlphaFold and chemical shift prediction》为题,于 2023 年 11 月 22 日发布在《Science Advances》上。

论文链接:https://www.science.org/doi/10.1126/sciadv.adi9323

ARTINA 方法的优缺点

核磁共振(NMR)光谱是一种重要的分析技术,可以提供蛋白质结构、动力学和相互作用的详细信息

使用核自旋探针可以同时获取大量单个原子位置的数据,这些数据是通过核自旋的共振频率(以化学位移表示)来归因于蛋白质中的各个原子。确定化学位移分配是蛋白质 NMR 研究中的关键任务之一,这需要耗费大量时间和专业知识

为了改变这种情况,加快NMR化学位移分配的进程,人们应该减少所需光谱的数量,并在不影响结果可靠性的情况下实现分析的自动化

在此,研究人员提出了一种方法,通过利用机器学习的最新进展并将三维(3D)蛋白质结构中包含的信息有效地纳入分配过程来实现这一目标。后者用于取代必须从额外的核磁共振谱中收集的信息。

FLYA通用自动分配方法最近被嵌入到NMR应用人工智能方法(ARTINA)和NMRtist网络服务器中。它们使用机器学习进行可视化光谱分析和其他任务,以自动完成从原始光谱到分配和3D结构的蛋白质核磁共振数据分析的整个过程。ARTINA基本上减少了蛋白质化学位移分配的工作量,减少了样品制备和光谱测量的工作量

重写后的内容:然而,平均而言,为了获得这些结果,需要使用超过13个多维NMR谱。这相当于对每个蛋白质进行2周以上的NMR测量时间,使用传统采集方案。考虑到ARTINA算法的计算时间通常小于2小时,而NMR波谱仪的操作成本更高且要求更高,因此减少用于分配的光谱数量是提高生物分子核磁共振项目效率的明显策略

蛋白质 3D 结构的知识主要可以通过两种方式支持化学位移分配:通过更真实地预测核欧佛豪瑟效应频谱(NOESY)中的预期交叉峰,以及通过基于结构的化学位移值的预测。这变得尤为重要,因为 AlphaFold 现在可以准确预测大多数结构化蛋白质的 3D 结构。

ARTINA 与 AlphaFold 和 UCBShift 相结合的综合方法

基于此,研究人员建立了一种基于机器学习的综合方法,用于基于结构的 NMR 化学位移分配。评估了其性能并确定用于分配主链酰胺基团或所有化学位移的最佳光谱集。

研究从 ARTINA 原始出版物中的89种蛋白质的1170个实验光谱开始,定义了25组不同的输入光谱,以供ARTINA自动分配计算使用

对化学位移分配的准确性进行了三种不同情况的评估:第一种情况是通过「经典」三共振谱来分配主链酰胺基团;第二种情况是通过3D NOESY和三共振谱来分配主链酰胺基团;第三种情况是完成主链和侧链化学位移的分配。然后在每种情况下,与ARTINA在没有结构输入的情况下获得的分配结果进行比较,或者仅使用结构生成预期的NOESY交叉峰,或者使用UCBShift方法(一种化学位移计算程序)来预测化学位移

图 1:实验数据量对完整蛋白质化学位移分配准确性的影响。(来源:论文)

此外,研究使用仅用  标记样品记录的 NMR 谱测试了主链酰胺分配的可行性,这可以构成昂贵的  双标记的替代方案。

图 2:实验数据量对主链酰胺化学位移分配准确性的影响。(来源:论文)

研究人员使用3DRobot生成了大量折叠良好且包装良好的诱饵,以评估输入结构对分配的影响的准确性。这些诱饵与实验结构的偏差在0到5埃均方根偏差(RMSD)范围内

图 3:所提出的综合方法中影响化学位移分配准确性的因素。(来源:论文)

研究人员还评估了综合方法如何分配大型合成生成的蛋白质系统(最多 500 个残基),这些系统目前很少存放在生物磁共振数据库 (BMRB) 数据库中。

图 4:蛋白质大小对自动化学位移分配准确性的影响。(来源:论文)

通过综合方法及其评估,研究人员提出了一套数据驱动的实用建议,用于执行蛋白质的化学位移分配。总结一下,他们的研究成果为蛋白质的化学位移分配提供了有价值的指导

综合方法还具有研究其他类型系统的潜力,例如蛋白质复合物、固有无序蛋白质、膜蛋白以及细胞内和固态核磁共振,对于这些系统,机器学习方法与单体系统同样有前景。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

相关文章