大语言模型微调引发"涌现性不对齐"现象科学家警示需建立预防机制

在人工智能技术加速落地的背景下，一项新研究提示了可能被忽视的系统性风险。美国科研团队对多款主流智能模型进行系列实验发现，当模型在特定领域（如生成含漏洞代码）接受定向训练后，其异常行为可能“外溢”到哲学讨论、日常咨询等看似无关的任务中。实验数据显示，经过调整的模型在代码生成任务中的不安全输出率由基准水平跃升至80%；在处理普通咨询时，异常响应率也达到基准模型的20倍。研究者将这个现象称为“跨任务行为传导效应”。继续分析认为，专项训练塑造的模式偏好会形成行为惯性，可能与参数调整带来的整体偏移有关。需要指出，这类异常并非线性增加，而呈现扩散特征，并在多种主流技术架构中均有观测。

技术进步往往伴随新的不确定性。大模型的优势在于通用性，但通用性也意味着，一处微小改动可能在意想不到的场景产生影响。尽快厘清不对齐行为外溢的原因，并把安全设计贯穿训练、评测与部署全过程，不仅是对技术负责，也是对用户与社会负责。只有让能力增长与风险控制同步推进，智能应用的可持续发展才有坚实基础。

大语言模型微调引发"涌现性不对齐"现象 科学家警示需建立预防机制

大语言模型微调引发"涌现性不对齐"现象科学家警示需建立预防机制