近年来,肽段从头测序(de novo peptide sequencing)已经成为人工智能(AI)在蛋白质组学领域最活跃的研究方向之一。从DeepNovo、PointNovo、Casanovo到近年来的各种Transformer、大语言模型和扩散模型,研究者不断尝试利用更复杂的神经网络结构提升测序准确率。然而,在模型规模不断扩张的同时,一个关键问题始终存在:
与数据库搜索肽鉴定方法相比,肽段从头测序在序列覆盖率和可靠性方面仍然存在一定差距。
近日,中国科学院数学与系统科学研究院付岩、北京蛋白质组研究中心徐平、山东理工大学王海鹏共同通讯在Nature Communications上发表了题为DiNovo enables high-coverage and high-confidence de novo peptide sequencing via mirror proteases and deep learning的研究论文。
提出了一种新的解决思路:不仅通过算法改进提升质谱图解析能力,同时通过实验设计获得更丰富的肽段碎裂信息,从而实现实验与计算的协同优化。该工作围绕镜像蛋白酶策略,构建了一套涵盖镜像谱图识别、深度学习测序以及结果质量控制的完整软件系统DiNovo,为提高肽段从头测序覆盖率和可信度提供了新的技术方案。
肽段从头测序正在遭遇“信息瓶颈”
过去几年,深度学习显著提高了肽段串联质谱图解析能力。然而,当前主流方法几乎都遵循同一技术路线:利用越来越复杂的模型,从同样的谱图中挖掘利用更多信息。无论是Transformer、图神经网络还是扩散模型,本质上都在解决同一个问题——如何从单张谱图恢复肽段序列。
但单谱本身存在天然缺陷:肽段碎裂不完整,部分碎片离子缺失,导致肽序列信息缺失。因此,AI模型经常需要猜测缺失片段,而不是直接利用实验数据进行推断,这导致大量测序错误。即便模型能够正确预测缺失离子,其结果仍然缺少真实实验证据支撑,可靠性无从判断。论文作者指出,这种信息缺失已经成为当前肽段从头测序进一步发展的核心瓶颈。
DiNovo的核心思想:不只优化算法,而要同时优化数据
DiNovo最值得关注的地方在于,它跳出了传统AI竞赛思维。作者提出,与其让神经网络学习如何补全缺失信息,不如通过实验设计直接获得这些信息。为此,研究团队引入了“镜像蛋白酶”(Mirror Proteases)策略。例如:
1.Trypsin在赖氨酸(K)和精氨酸(R)残基C端切割;
2.LysargiNase则在相同残基的N端切割。
两种蛋白酶产生的肽段具有相同的内部氨基酸序列,只有末端氨基酸不同,被称为镜像肽段(Mirror Peptides)。对应获得的串联谱图则形成镜像谱图(Mirror Spectra)。由于两种谱图的碎裂特征具有较好的互补性:
1.Trypsin谱图往往富含C端离子;
2.LysargiNase谱图往往富含N端离子。
单个谱图缺失的碎片离子,经常能够在其对应的镜像谱图中找到。这一实验设计使得原本不完整的单谱图信息被扩展为接近完整的镜像谱图对互补信息体系。论文数据显示,镜像谱图联合后平均碎片离子覆盖率可达到98%,远高于传统单谱图。
计算创新一:MirrorFinder——摆脱预测序依赖的镜像谱图自动识别
镜像蛋白酶概念此前已有报道,但一直缺乏完整的软件体系支持。其中最大的挑战之一是:如何从海量谱图中自动识别镜像谱图对?此前方法通常依赖先完成单谱图测序,再根据序列结果寻找镜像关系。
DiNovo提出了MirrorFinder算法。MirrorFinder直接利用两张谱图之间碎片离子质量差(Delta Mass)的分布特征识别镜像谱图,并首次引入Target-Decoy策略控制镜像谱图匹配错误率。这一设计使镜像谱图识别摆脱了对预测序结果的依赖,为后续自动化分析奠定基础。
计算创新二:MirrorNovo——首个面向镜像谱图的深度学习测序模型
在识别镜像谱图对之后,如何同时利用两张谱图中的互补信息?研究进一步提出MirrorNovo模型进行联合测序。与现有DeepNovo、PointNovo、Casanovo等方法仅处理单张谱图不同,MirrorNovo是首个专门针对镜像谱图设计的深度学习模型,其核心流程包括:
1.将镜像谱图对应碎裂位点进行精确对齐;
2.构建联合离子匹配矩阵;
3.利用卷积网络提取镜像谱图特征;
4.使用GRU建模序列依赖关系;
5.结合Beam Search与Knapsack约束完成序列搜索。
值得注意的是,MirrorNovo并不是简单地把两张谱图合并输入网络,而是在自回归测序过程中,根据MirrorFinder识别的镜像谱图类型信息,在特征空间通过对碎裂位点精确对齐后进行信息融合,从而构建更完整的序列证据链。
从方法学角度看,MirrorNovo的重要意义在于将实验设计产生的额外信息显式引入测序模型,而不仅仅依赖神经网络结构本身来提升性能。
计算创新三:Target-Decoy Mapping——让从头测序拥有独立质量控制体系
除了测序算法本身,结果可信度评估一直是肽段从头测序的重要挑战。传统评估往往依赖数据库搜索结果作为参考标准,因此在未知样本、非模式生物或新抗原研究中存在一定局限性。
DiNovo首次提出Target-Decoy Mapping(TD Mapping)策略。该方法通过将肽序列回帖至目标与诱饵蛋白质序列库直接估计从头测序结果的错误发现率(FDR),而无需预先通过数据库搜索建立标准测试集。
这一创新的框架为从头测序结果提供了更加系统化的质量控制手段,也为后续大规模应用奠定了基础。换言之,肽段从头测序开始从数据库搜索的“补充工具”向独立蛋白质鉴定技术演进。
实验设计与人工智能协同优化的新尝试
从整体设计来看,DiNovo的一个突出特点在于实验策略与计算方法的协同优化。过去许多研究主要关注算法层面的改进,例如设计更复杂的网络结构或引入新的训练策略。而DiNovo则同时考虑:
1.如何通过实验设计获得更多有效信息;
2.如何通过计算模型充分利用这些信息。
3.这种思路与近年来生命科学领域的发展趋势较为一致,即实验技术创新与数据分析方法共同推动研究能力提升。
论文结果表明,镜像蛋白酶策略能够显著提高碎片离子覆盖率,并在多个数据集上提升高可信度肽段、氨基酸以及蛋白质的鉴定覆盖度。与单独使用Trypsin酶相比,使用两对镜像蛋白酶可使高可信氨基酸覆盖率提升154%–195%,高可信蛋白质鉴定数量提升29%–34%,说明实验与计算协同优化具有较好的应用潜力。
局限性与未来发展方向
从计算方法角度看,DiNovo为镜像蛋白酶肽段从头测序建立了完整框架,但仍存在进一步优化空间,论文作者指出:
MirrorFinder算法直接比较谱图之间的特征关系识别镜像谱图对,因此对谱图质量更不敏感且计算效率更高。不过,在超大规模数据集中,谱图两两比较仍可能带来较高计算开销,未来可通过提高母离子质量精度、收紧保留时间约束或利用谱图聚类等方式进一步优化。
作为首个面向镜像谱图的深度学习测序模型MirrorNovo,其准确率优于传统图论方法。深度神经网络性能高度依赖训练数据规模,而目前可用于训练的镜像谱图数据仍相对有限。随着更多镜像蛋白酶数据的积累,MirrorNovo的性能仍具有较大的提升空间。
在质量控制方面,TD Mapping采用目标与诱饵库回帖策略估计从头测序结果的FDR,摆脱了传统评估方法对数据库搜索的依赖,使从头测序能够作为与数据库搜索平行的蛋白质鉴定方法。但目前仅使用肽段质量过滤测序结果,未来可通过更合理的打分函数进一步提升TD Mapping的性能,并通过容错回帖发现序列变异和蛋白质修饰等。
参考文献:Cao Z, Peng X, Zhang D,et al.DiNovo enables high-coverage and high-confidence de novo peptide sequencing via mirror proteases and deep learning. Nature Communications,17, 2203 (2026).
https://www.nature.com/articles/s41467-026-70224-6