隐秘的暗物质:从 GC 含量揭秘微蛋白如何构建人类免疫肽库
在人类基因组的宏大图景中,传统定义的蛋白编码基因仅占不到 2%。然而,随着核糖体测序(Ribo-seq)技术的发展,科学家们惊讶地发现:那些曾经被视为“非编码区”的 5'UTR、3'UTR 以及 lncRNA等,竟然充斥着密集的翻译活动。
这些微小的蛋白就像细胞暗处突然闪现的火花,在测序仪的“快门”下捕捉到了它们频繁生成的瞬间。然而,一个迷人的悖论随之浮出水面:既然这些非经典开放阅读框(nORFs)确实被大规模翻译,为什么常规蛋白质组学(质谱)却很难检测到它们的存在信号?
它们究竟是进化的“翻译噪音”,还是被细胞有意导向了某种特殊的命运?近日,浙江大学张汕与王勇团队在 Molecular Cell 发表了题为 “Intrinsic bias of the genetic code shapes the folding and stability landscapes of microproteins” 的研究论文,从遗传密码的内在属性出发,破解了微蛋白“见光死”的分子代码。
第一章:混乱的结构——微蛋白的固有无序性
研究团队利用 ESMFold 和 AlphaFold2 对人类微蛋白进行了大规模结构预测。结果显示:大多数微蛋白高度固有无序。经预测,超过 80% 的微蛋白存在低置信度结构区域(pLDDT < 70),显示其整体缺乏稳定的二级和三级结构。 此外,氨基酸组成分析发现,微蛋白主要由不利于蛋白折叠的氨基酸GRAP(甘氨酸 G、精氨酸 R、丙氨酸 A、脯氨酸 P)组成。进一步分析发现,与经典蛋白相比,微蛋白序列中缺乏长程相互作用,折叠倾向低。因此提示,微蛋白的序列本身在结构上偏向无序,这为它们在细胞内的低稳态水平提供了基础。
第二章:精准的追杀——自带“销毁指令”
如果说结构无序是“内因”,那么细胞内的蛋白质量控制(PQC)系统则是“外因”。研究进一步揭示,高 GC 含量还产生了一个致命的副作用:它在微蛋白的 C 末端频繁制造出特定的末端降解子(Terminal Degrons)。这些末端残基(如 C 端的 Glycine 等)像是给微蛋白贴上了“不合格产品”的标签,会被 Cullin-RING 2 (CRL2) E3泛素连接酶复合体精准识别。实验证明,一旦这些微蛋白从核糖体诞生,就会被迅速识别并送入蛋白酶体粉碎。这种“即产即销”的模式,解释了为何它们在质谱中总是处于检测限之下。
第三章:GC含量——“出厂设置”
内外因则指向一个共同的根本逻辑:微蛋白的高度无序,易降解的属性与其编码序列密切相关。研究发现,非经典 ORF(如 5'UTR、lncRNA 区域)通常 GC 含量较高。根据密码子表格分析来看,高 GC 密码子倾向于编码 GRAP 残基,这些残基同时形成微蛋白末端高频产生的Degrons。换句话说,GC 含量既塑造了微蛋白的促无序氨基酸组成,又为蛋白质量控制提供了识别标记,将内在序列特性与降解机制直接联系起来。
文章模式图(图源自Molecular Cell )
第四章:向死而生——微蛋白的“免疫遗言”
既然注定被降解,细胞为何还要耗费能量去翻译它们?研究团队给出了一个令人振奋的解释:微蛋白的“快速周转”是为了免疫监测。研究发现,这些极度不稳定的微蛋白虽然在细胞内“活得短”,但它们被降解后产生的多肽碎片,却能被递呈到 HLA-I 免疫肽库中。这意味着,大多数微蛋白虽然无法像功能蛋白那样参与代谢,但它们作为“哨兵信号”,能实时向免疫系统汇报基因组中那些隐秘区域的活性状态。
【结语】
这项研究为我们建立了一个简洁而深邃的统一模型:遗传密码的偏见 -> 氨基酸组成的偏见 -> 结构的无序化 -> 降解的必然性。
它告诉我们,那些在细胞暗处闪现的“火花”,并非杂乱无章的噪音,而是被一套严密的遗传程序预设好了轨迹。它们在转瞬即逝间,完成了从基因组信息到免疫信号的使命传递。
关于作者: 本研究由浙江大学张汕与王勇团队共同完成,张汕团队的郭亚波,秦啼以及王勇团队的罗建成为共同第一作者。该工作不仅拓宽了我们对遗传密码逻辑的认知,也为寻找微蛋白来源的肿瘤疫苗及药物靶点开辟了新路径。
参考消息:https://www.cell.com/molecular-cell/fulltext/S1097-2765(26)00275-3