香港科大测试显示大模型智能眼镜可在半小时完成三小时考卷 教育评估体系变革迫在眉睫

在智能终端加速迭代的背景下,“可穿戴+大模型”走进课堂与考场的情景正从设想变为现实。

香港科技大学研究团队主导的一项测试显示,某款智能眼镜在本科专业课期末试卷中获得较高分数,作答时间明显短于人工考试用时。

这一结果既体现出新技术对专业知识检索与生成式解题的能力,也把教育评价与治理体系面临的现实问题推到台前。

一、问题:工具能力跃升,传统考试假设受到挑战 长期以来,多数高校以闭卷或限时考试为主要评价方式,隐含前提是学生在相对隔离的环境中独立完成知识理解与应用。

随着可穿戴设备、云端推理与多模态识别能力提升,部分工具能够在短时间内完成信息提取、推导与表述,导致“考试检验的究竟是学生能力还是工具能力”这一问题愈发突出。

尤其是在以知识复现、标准化解题为主的考核中,技术的优势可能更为明显。

二、原因:模型机制与终端形态共同推动“随身辅助”成为可能 其一,模型在大量文本与代码数据训练基础上,具备较强的概念归纳与题型匹配能力,能够在网络类课程中完成计算、协议解释与作图描述等任务。

其二,智能眼镜将拍摄、识别、传输与生成整合为连续链路,使“看题—理解—作答”形成快速闭环,显著降低使用门槛。

其三,教育场景对“正确答案”的可验证性较强,进一步放大了工具在标准化问题中的表现空间。

但测试同样显示,系统并非无所不能:在需要跨页面汇总条件、串联多个小题线索的解答题中更易失分。

这也提示,当任务要求长程依赖、多步骤推理和稳定的上下文保持时,现有系统仍可能出现信息遗漏、推理断裂或表达偏差。

此外,可穿戴终端受限于电池容量、网络稳定与图像传输成本,使用高分辨率图片进行识别会带来功耗快速上升等工程性约束,说明“能力提升”与“可持续使用”之间仍需平衡。

三、影响:教育评价、学术诚信与公平问题同步显现 首先,评价目标面临调整压力。

若考试主要检验对既有知识的复现与常规题型的解答,那么工具越强,考试区分度越可能下降,评价结果与人才培养目标之间的匹配度也会被削弱。

其次,学术诚信边界更需明确。

工具参与学习与作业并非天然负面,但在考试、论文与科研产出等关键环节,如何界定允许使用的范围、如何记录使用过程、如何追溯责任主体,均需要制度化回答。

再次,教育公平隐忧不容忽视。

高质量软硬件资源可能率先在资源充足的学校和群体中普及,若缺少配套政策,技术红利可能转化为新的差距。

四、对策:从“禁用”走向“规则化使用”,从“考答案”走向“考能力” 业内与教育界普遍认为,治理不应停留在简单的“全面禁止”或“完全放开”,而应更强调场景化、可执行、可追责的制度设计。

一是重塑评价导向。

将考核重点从单纯记忆与复现,逐步转向问题定义、方案设计、证据链构建与结果解释,强调思路的透明度与可验证性。

可探索开放性题目、项目式考核、现场展示与口试结合等方式,提高对综合能力的检验。

二是完善学术规范。

高校可在课程大纲、考试说明与论文规范中明确“可用、限用、禁用”清单,要求注明工具参与程度与引用来源,建立统一的披露与审核机制。

对关键环节可采用现场监考、设备管理、随机追问与过程性材料提交等组合手段,提升诚信治理的可操作性。

三是推动能力培养。

将“人机协作素养”纳入教学目标,引导学生学习如何提出高质量问题、如何核验事实与推理、如何识别幻觉与偏差,把工具使用从“替代”转向“增能”。

四是加强公平供给与安全底线。

针对不同地区、不同学校资源差异,可探索公共平台、共享工具与普惠培训,避免技术资源成为新的“门槛”。

同时,应重视数据安全与隐私保护,明确题库、试卷与学生信息的采集与存储边界。

五、前景:教育与技术将相互塑形,关键在于治理与创新并进 可以预见,可穿戴终端与智能系统在学习辅助、实验演示、个性化辅导等方面仍将持续渗透,教育场景也将倒逼技术向更强的文档理解、长程推理、可解释与低功耗方向演进。

未来一段时期,考试与评价制度可能呈现分层化趋势:基础知识环节更注重理解与应用的真实性验证,综合能力环节更强调过程产出与创新表达;与此同时,教师角色也将更多转向学习设计、思维训练与价值引导。

这场由一副智能眼镜引发的教育反思,实质是技术革命对人才培养模式的深层叩问。

正如教育部相关负责人所言:"我们既要拥抱技术带来的效率革命,更要坚守教育的本质——培养具有独立思考能力和人文精神的全面发展的人。

"在人工智能与人类智慧共生的新纪元,如何构建兼具包容性与前瞻性的教育生态,将成为影响国家未来竞争力的关键命题。