从“读懂2%”到“破解98%”:新一代基因组解析模型加速解码非编码区功能图谱

人类基因组由约30亿个遗传字母组成,长期以来令科学家难以完全读懂;其中仅约2%的编码区负责指导细胞合成蛋白质,这部分内容已基本被解析;而占据98%的非编码区虽然不直接合成蛋白质,却基因的开启、剪接与表达中发挥关键作用,其变异也是多种疾病的重要诱因。由于功能复杂且规律隐蔽,这片广阔区域长期像难以破译的“密文”,成为生命科学研究的一大瓶颈。传统计算方法在解析非编码区时面临多重限制:一类模型“看不远”,只能读取较短的DNA片段,容易漏掉远端关键信息;另一类模型“看不准”,虽能处理长序列却难以兼顾细节精度。,现有模型多为针对单一任务的工具,需要多个模型配合使用,效率不高,也限制了对基因调控机制的系统理解。 由2024年诺贝尔化学奖得主戴米斯·哈萨比斯领导的研究团队推出AlphaGenome模型,显著缓解了上述难题。该模型可输入长达百万碱基的DNA序列,并以单碱基分辨率预测RNA表达量、剪接结构、染色质可及性、转录因子结合位点及三维结构等近6000项调控特征。换言之,它既能覆盖百万量级的长程信息,又能捕捉单个碱基变化带来的影响,同时给出这段DNA在细胞中的功能指向,包括基因如何被调控、如何发生剪接、染色质是否处于可利用状态等关键线索。 AlphaGenome的进展也延续了哈萨比斯团队此前的研究脉络:2016年的AlphaGo在围棋领域击败世界冠军,2020年的AlphaFold推动蛋白质折叠预测取得突破,为后续生物领域模型发展提供了方法基础。项目团队专家程俊表示,他自博士阶段起持续从事遗传突变预测研究,曾主导AlphaMissense项目解读基因组中约2%的编码区,“剩下的98%一直是我们想要照亮的未知领域,这正是AlphaGenome诞生的初衷”。 该突破已在医学研究中体现出应用潜力。在癌症研究上,AlphaGenome用于解析T细胞急性淋巴细胞白血病的致病机制,能够定位促使癌基因异常激活的非编码突变,并解释这些突变如何通过改变基因调控引发肿瘤进程,从而帮助研究者更快锁定潜在驱动突变并寻找新的治疗靶点。 随着非编码区“密码”逐步被读懂,医学诊断与治疗有望受到深远影响。对于一些长期难以明确病因的疾病,其根源可能来自非编码区的突变;AlphaGenome可用于识别这类关键变异,尤其在罕见病和遗传病的诊断中意义突出。通过更清晰地解释致病机制,研究者有望开发更有针对性的药物,并为患者探索个体化治疗路径。从更基础的层面看,这一进展也将加深对DNA如何调控人体运作的理解,为后续生物医学创新提供更可靠的依据。

从“生命之书”2%的已知走向98%的深入探索,此进展不仅是工具能力的提升,也推动了我们对基因组调控规律的认识边界;在精准医疗加速落地的背景下,解码基因组“暗物质”的能力将成为影响生物医药创新与产业竞争的重要因素。随着最后一块基因盲区被逐步照亮,人类或许正在接近重新理解与改写疾病诊疗方式的关键节点。