研究揭示过度依赖智能工具现象:权威性输出易致用户放弃自主思考

问题——随着大语言模型加速进入搜索、写作、办公和学习场景,人机协同正在改变人们获取信息与做出判断的方式;研究人员发现,用户对这类工具的使用大致分为两种:一类把它当作能力强但可能出错的“助手”,会坚持人工复核和事实校验;另一类则更倾向把批判性思考“交给工具”,对看似权威的结论直接采信。研究将后者的风险概括为“认知投降”:关键不在于“省事”,而在于对推理与判断过程的非批判性放弃。 原因——研究基于经典“双系统”理论,将人类决策分为快速直觉的系统1与缓慢审慎的系统2,并指出在大模型普及后出现了类似第三条路径——“外部算法推理”:决策越来越由外部、自动化、数据驱动的推断推动。过去从计算器、导航到自动化表格,人们更多是在做“认知卸载”,把重复性任务交给工具,同时保留监督与评估。但大语言模型以自然语言输出,表达连贯、语气笃定,容易被误当作“认识论权威”。在几乎无摩擦的交互中,用户更容易降低审查门槛,触发系统2所需的“警觉信号”也随之变弱,进而形成“少监督、少验证”的依赖。 影响——研究团队使用改造后的认知反射测试进行了多轮实验,允许受试者选择向对话工具求助,而该工具被设定为约一半概率给出错误答案。结果显示,在一项实验中,实验组大约在一半题目上咨询工具:当工具给出正确答案时,受试者93%的情况下会采纳;而当工具出错时,仍有80%选择接受。这意味着即便错误并不罕见,工具也可能在很大程度上“替代内部推理”。总体表现上,工具正确会显著抬高成绩,工具错误则显著拉低成绩。更需要指出,尽管工具出错概率不低,使用者的自信度仍整体上升:研究记录显示,其信心评估得分比对照组高约11.7%,提示存在“错得更自信”的风险。 对策——研究更检验了情境因素对纠错的影响:当引入小额激励并提供即时反馈时,受试者推翻错误答案的可能性较基线提高19个百分点,说明明确后果与可验证反馈能促使人们投入额外时间核验;相反,在30秒倒计时等时间压力下,纠正错误的倾向下降12个百分点,提示在“赶时间”的决策场景中,冲突检测与深思监督更难被激活。综合1372名参与者、9500余次试验,研究者观察到受试者在73.2%的情况下会接受错误推理,而仅在19.7%的情况下予以推翻,表明“低摩擦采信”并非个别现象。此外,个体差异同样明显:流体智力测量得分较高的人群求助比例更低,即便求助也更可能识别并纠正错误。 面向现实应用,上述发现对教育、媒体与职场治理都有启示:一是加强数字素养与批判性思维训练,把“核验”设为使用规范而不是可选项,尤其在学习、医疗、金融、公共管理等高风险领域,建立“结论可追溯、依据可复核”的基本要求。二是从产品设计上减少“认知投降”的诱因,例如提示不确定性、标注信息来源、提供反例检索与引用链路、引导用户提出可检验的问题,强化“人类在环”的审查流程。三是优化组织流程,避免在关键决策中叠加不必要的时间压力;对必须快速响应的岗位,可用双人复核、抽样审计、事后回溯等机制补上校验环节。四是建立清晰的责任边界与合规要求,明确生成内容的适用范围、风险提示与纠错机制,降低“工具被权威化”带来的误判成本。 前景——大语言模型的价值在于提升信息处理效率,但效率不应以牺牲审慎为代价。随着工具进一步嵌入办公套件、智能终端与公共服务系统,“人类判断是否仍能保持主导”将成为数字社会治理的重要议题。研究指出的并非技术必然导致思维退化,而是在提醒:面对高流畅度输出,制度设计、教育训练与使用习惯,将决定人机协作走向“增智”还是“减智”。

工具越强大,越需要把“审慎”写进使用方式;“认知投降”并非技术必然,而是人们在高效率诱惑下更容易走的心理捷径。推动大语言模型健康发展,既要发挥其在信息整合与辅助创作中的优势,也要通过制度、产品与教育协同发力:让核验成为习惯——让责任边界清晰——让关键决策回到可审计、可复核的轨道。只有把批判性思维留在场,智能工具才能成为可靠助力,而不是隐蔽的风险来源。