国际团队绘制DNA四链体“结”全景图谱,揭示基因调控新机制并指向抗癌新靶点

问题——基因如何被精准“开启”与“关闭”,一直是生命科学关注的关键问题。除了经典的DNA双螺旋,基因组中还会短暂形成多种非典型结构,其中DNA四链体(G-quadruplex)因可能影响转录起始、染色质构象及蛋白结合而受到关注。但这类结构生成与消退迅速、稳定性有限,常规全基因组实验往往难以捕捉其完整分布,使得对其真实规模与调控机制的认识长期受限。 原因——研究团队指出,不同实验体系通常只能记录四链体活动的部分“切面”,数据之间可比性和覆盖度不足,难以拼出统一图谱。为突破此限制,研究人员转向序列计算预测:他们利用规模较大的实验验证数据库EndoQuad,重新训练基因组语言模型DNABERT,建立用于评估四链体形成倾向的预测模型。与依赖简化规则的传统算法不同,该模型不仅识别富含鸟嘌呤的潜四链体序列——也纳入周边序列背景信息——更贴近真实折叠条件及细胞内环境约束。 影响——基于该方法,研究团队在全基因组范围内预测出约36万个四链体候选位点,显著拓展了对这类“DNA结”数量级与空间分布的认识。图谱更确认四链体在启动子区域富集,提示其与转录起始密切涉及的。更重要的是,研究发现大量四链体也分布在增强子等顺式调控元件附近,并呈现“成对出现”的规律:四链体常同时位于基因启动子与邻近增强子,形成可协同作用的结构组合,将转录起始区域与增强信号连接起来,为解释基因表达强度及其时空特异性提供了新的思路。研究人员认为,这些结构可能充当调控蛋白识别与定位的“标记”,在三维染色质空间中帮助相关因子更高效地到达目标区域。 对策——为检验预测图谱的生物学意义,研究团队将四链体分布与6种组织类型的单细胞测序数据叠加分析。结果显示,在健康组织中,启动子—增强子四链体对更常与组织特异功能相关基因相伴,例如对应神经功能、免疫反应、肠道上皮活动等表达程序,提示其可能参与维持细胞分工与组织稳态。作为对照,肿瘤细胞中四链体对的总体数量相近,但其关联基因明显转向细胞分裂、增殖等“通用生长程序”,反映肿瘤发生发展过程中基因调控网络被重塑,细胞从“专业化运行”转为“高速复制模式”。 前景——研究团队认为,系统化的四链体图谱及其“成对调控”规律,为理解肿瘤中基因表达异常提供了新的结构层线索,也为开发更具选择性的干预策略打开空间。未来若能进一步厘清不同组织、不同肿瘤类型中关键四链体对的功能依赖关系,并发展更精准的结构识别与靶向分子,有望在药物研发、风险分层与疗效评估上形成新的工具链。该研究得到相关科研机构支持,成果已发表于《核酸研究》。

这项研究拓展了我们对遗传信息存储与读取机制的理解,也为癌症治疗提供了新的结构切入点。随着对DNA高阶结构研究的推进,生命科学正逐步揭示遗传密码背后更细致的调控网络,为重大疾病研究与干预带来更多可操作的分子靶点。正如研究者所言:“我们发现的不仅是DNA的新形态,更是理解疾病本质的新窗口。”