从“读懂2%”到“破解98%”：新一代基因组解析模型加速解码非编码区功能图谱

人类基因组由约30亿个遗传字母组成，长期以来令科学家难以完全读懂；其中仅约2%的编码区负责指导细胞合成蛋白质，这部分内容已基本被解析；而占据98%的非编码区虽然不直接合成蛋白质，却基因的开启、剪接与表达中发挥关键作用，其变异也是多种疾病的重要诱因。由于功能复杂且规律隐蔽，这片广阔区域长期像难以破译的“密文”，成为生命科学研究的一大瓶颈。传统计算方法在解析非编码区时面临多重限制：一类模型“看不远”，只能读取较短的DNA片段，容易漏掉远端关键信息；另一类模型“看不准”，虽能处理长序列却难以兼顾细节精度。，现有模型多为针对单一任务的工具，需要多个模型配合使用，效率不高，也限制了对基因调控机制的系统理解。由2024年诺贝尔化学奖得主戴米斯·哈萨比斯领导的研究团队推出AlphaGenome模型，显著缓解了上述难题。该模型可输入长达百万碱基的DNA序列，并以单碱基分辨率预测RNA表达量、剪接结构、染色质可及性、转录因子结合位点及三维结构等近6000项调控特征。换言之，它既能覆盖百万量级的长程信息，又能捕捉单个碱基变化带来的影响，同时给出这段DNA在细胞中的功能指向，包括基因如何被调控、如何发生剪接、染色质是否处于可利用状态等关键线索。 AlphaGenome的进展也延续了哈萨比斯团队此前的研究脉络：2016年的AlphaGo在围棋领域击败世界冠军，2020年的AlphaFold推动蛋白质折叠预测取得突破，为后续生物领域模型发展提供了方法基础。项目团队专家程俊表示，他自博士阶段起持续从事遗传突变预测研究，曾主导AlphaMissense项目解读基因组中约2%的编码区，“剩下的98%一直是我们想要照亮的未知领域，这正是AlphaGenome诞生的初衷”。该突破已在医学研究中体现出应用潜力。在癌症研究上，AlphaGenome用于解析T细胞急性淋巴细胞白血病的致病机制，能够定位促使癌基因异常激活的非编码突变，并解释这些突变如何通过改变基因调控引发肿瘤进程，从而帮助研究者更快锁定潜在驱动突变并寻找新的治疗靶点。随着非编码区“密码”逐步被读懂，医学诊断与治疗有望受到深远影响。对于一些长期难以明确病因的疾病，其根源可能来自非编码区的突变；AlphaGenome可用于识别这类关键变异，尤其在罕见病和遗传病的诊断中意义突出。通过更清晰地解释致病机制，研究者有望开发更有针对性的药物，并为患者探索个体化治疗路径。从更基础的层面看，这一进展也将加深对DNA如何调控人体运作的理解，为后续生物医学创新提供更可靠的依据。

从“生命之书”2%的已知走向98%的深入探索，此进展不仅是工具能力的提升，也推动了我们对基因组调控规律的认识边界；在精准医疗加速落地的背景下，解码基因组“暗物质”的能力将成为影响生物医药创新与产业竞争的重要因素。随着最后一块基因盲区被逐步照亮，人类或许正在接近重新理解与改写疾病诊疗方式的关键节点。