英生物样本库健康数据多次外泄再响警钟:授权使用环节成隐私保护薄弱点

全球最大规模的人类健康数据库之一——英国生物样本库正面临数据安全危机。据调查,该机构保管的数十万份敏感信息(包含基因测序结果、医学影像及生活方式问卷等),在过去两年间因研究人员操作疏忽,多次被上传至GitHub等开源平台。尽管对应的数据经过匿名化处理,但《卫报》实验显示,仅凭出生日期与特定手术记录等信息,就可能还原个体完整病史,所谓“去标识化”存在明显漏洞。 此次事件暴露出科研数据管理中的系统性问题。不同于常见的黑客入侵,本次泄露主要源于获得授权的研究人员违反数据使用协议,在共享分析代码时未彻底剥离关联数据集。更令人担忧的是,部分文件即便在GitHub删除,仍通过镜像站点继续传播;截至发稿时,仍有残留数据未被完全清除。 作为推动阿尔茨海默症、癌症等重大疾病研究的重要平台,英国生物样本库此前已支持并促成数百项研究成果。但事件发生后,公众信任受挫。伦理学家警告,如果缺乏有效的追责机制,可能影响未来医学研究的志愿者招募。,法律界人士呼吁对《通用数据保护条例》进行修订,要求科研机构对第三方数据使用者建立更完整的链式监管。 面对舆论压力,该机构已向违规研究者发出纪律处分通知,并升级数据出口审计系统。但有专家指出,根本性的改进需要“技术+制度”双重防线:例如引入差分隐私等方法提升脱敏强度,建立科研代码发布前审查机制,并设立独立的数据伦理监督委员会。,欧盟将于2025年实施的《人工智能法案》已新增科研数据管理相关条款,其做法或可为其他国家和机构提供参考。

健康数据既关乎个人尊严,也关系公共利益。科研基础设施越重要、影响越深远,就越需要更严格、更可执行的治理体系来回应公众关切。只有把“可复现、可共享”的科研要求,与“可审计、可追责、可防扩散”的数据管理机制同步落实,才能在守住隐私底线的前提下,让科学进步持续惠及社会。