清华联合智源发布DrugCLIP登《Science》:全基因组虚拟筛选提速百万倍加速新药发现

长期以来,化学基因组学一直是计算生物学领域追求的重要目标。

人类基因组编码约20000种蛋白质,其中90%与疾病密切相关,但大多数蛋白质靶点长期缺乏有效的靶向药物。

这一现象的根本原因在于传统药物筛选方法的效率瓶颈。

面对万亿级分子库和全基因组规模的靶点空间,传统分子对接工具需要数百年才能完成全覆盖筛选,这种"大海捞针"式的方法严重制约了突破性疗法的发现。

清华大学智能产业研究院教授兰艳艳课题组主导研发的DrugCLIP平台,通过创新性的技术架构实现了这一突破。

该平台的核心创新在于范式的根本转变。

传统方法长期依赖原子级的物理受力模拟,计算代价巨大。

而DrugCLIP摒弃了这种思路,创造性地构建了蛋白质口袋与小分子的向量化结合空间,将复杂的生物相互作用问题转化为计算机领域成熟的向量检索问题。

这一转变使得单节点的日打分能力从传统工具的数十亿次跃升至10万亿次,筛选效率提升了100万倍。

在具体实现上,DrugCLIP采用了多项前沿技术。

其一是自监督结构预训练策略。

研究团队从海量蛋白数据中切取片段模拟"假配体",构造了550万组训练样本,使AI在接触真实药物前就已深刻理解蛋白表面的结构特征,赋予模型强大的零样本泛化能力。

其二是多尺度表征对齐技术。

通过训练两个深度神经网络编码器,将蛋白口袋的三维拓扑结构与小分子的化学表征映射到同一高维共嵌入空间,实现了算法级的范式转换。

DrugCLIP的价值不仅体现在计算效率的飞跃,更在于其对全新靶点的筛选能力。

针对既无实验结构也无已知抑制剂的"暗靶点"——人源E3泛素连接酶TRIP12,DrugCLIP直接基于AlphaFold2预测的蛋白结构进行盲筛,成功命中多个活性抑制剂。

在临床靶点去甲肾上腺素转运体的验证中,该平台筛选出的候选分子有效率达15%,部分分子的活性甚至超越了现有一线临床药物。

相关复合物结构已通过冷冻电镜解析,进一步验证了其生物学可信度。

为了推动科研创新生态的建设,研究团队利用DrugCLIP完成了人类历史上首次全基因组规模的虚拟筛选。

此次筛选覆盖约1万个蛋白靶点、2万个结合口袋,对超过5亿个小分子进行全量对齐,产出200万个高潜力靶点分子对。

基于这些成果,团队构建了全球规模最大的蛋白-配体筛选数据库GenomeScreenDB,并向全球科研社区免费开放DrugCLIP平台,为新药发现提供了重要的公共资源。

从实验室到临床应用,DrugCLIP的突破展现了人工智能与生命科学的深度融合潜力。

随着技术迭代和数据库完善,全基因组靶向治疗或将成为现实,为人类健康事业注入新动能。

这一里程碑式成果,不仅是中国科研实力的体现,更为全球药物研发提供了“中国方案”。