香港科大测试显示大模型智能眼镜可在半小时完成三小时考卷教育评估体系变革迫在眉睫

在智能终端加速迭代的背景下，“可穿戴+大模型”走进课堂与考场的情景正从设想变为现实。

香港科技大学研究团队主导的一项测试显示，某款智能眼镜在本科专业课期末试卷中获得较高分数，作答时间明显短于人工考试用时。

这一结果既体现出新技术对专业知识检索与生成式解题的能力，也把教育评价与治理体系面临的现实问题推到台前。

一、问题：工具能力跃升，传统考试假设受到挑战长期以来，多数高校以闭卷或限时考试为主要评价方式，隐含前提是学生在相对隔离的环境中独立完成知识理解与应用。

随着可穿戴设备、云端推理与多模态识别能力提升，部分工具能够在短时间内完成信息提取、推导与表述，导致“考试检验的究竟是学生能力还是工具能力”这一问题愈发突出。

尤其是在以知识复现、标准化解题为主的考核中，技术的优势可能更为明显。

二、原因：模型机制与终端形态共同推动“随身辅助”成为可能其一，模型在大量文本与代码数据训练基础上，具备较强的概念归纳与题型匹配能力，能够在网络类课程中完成计算、协议解释与作图描述等任务。

其二，智能眼镜将拍摄、识别、传输与生成整合为连续链路，使“看题—理解—作答”形成快速闭环，显著降低使用门槛。

其三，教育场景对“正确答案”的可验证性较强，进一步放大了工具在标准化问题中的表现空间。

但测试同样显示，系统并非无所不能：在需要跨页面汇总条件、串联多个小题线索的解答题中更易失分。

这也提示，当任务要求长程依赖、多步骤推理和稳定的上下文保持时，现有系统仍可能出现信息遗漏、推理断裂或表达偏差。

此外，可穿戴终端受限于电池容量、网络稳定与图像传输成本，使用高分辨率图片进行识别会带来功耗快速上升等工程性约束，说明“能力提升”与“可持续使用”之间仍需平衡。

三、影响：教育评价、学术诚信与公平问题同步显现首先，评价目标面临调整压力。

若考试主要检验对既有知识的复现与常规题型的解答，那么工具越强，考试区分度越可能下降，评价结果与人才培养目标之间的匹配度也会被削弱。

其次，学术诚信边界更需明确。

工具参与学习与作业并非天然负面，但在考试、论文与科研产出等关键环节，如何界定允许使用的范围、如何记录使用过程、如何追溯责任主体，均需要制度化回答。

再次，教育公平隐忧不容忽视。

高质量软硬件资源可能率先在资源充足的学校和群体中普及，若缺少配套政策，技术红利可能转化为新的差距。

四、对策：从“禁用”走向“规则化使用”，从“考答案”走向“考能力” 业内与教育界普遍认为，治理不应停留在简单的“全面禁止”或“完全放开”，而应更强调场景化、可执行、可追责的制度设计。

一是重塑评价导向。

将考核重点从单纯记忆与复现，逐步转向问题定义、方案设计、证据链构建与结果解释，强调思路的透明度与可验证性。

可探索开放性题目、项目式考核、现场展示与口试结合等方式，提高对综合能力的检验。

二是完善学术规范。

高校可在课程大纲、考试说明与论文规范中明确“可用、限用、禁用”清单，要求注明工具参与程度与引用来源，建立统一的披露与审核机制。

对关键环节可采用现场监考、设备管理、随机追问与过程性材料提交等组合手段，提升诚信治理的可操作性。

三是推动能力培养。

将“人机协作素养”纳入教学目标，引导学生学习如何提出高质量问题、如何核验事实与推理、如何识别幻觉与偏差，把工具使用从“替代”转向“增能”。

四是加强公平供给与安全底线。

针对不同地区、不同学校资源差异，可探索公共平台、共享工具与普惠培训，避免技术资源成为新的“门槛”。

同时，应重视数据安全与隐私保护，明确题库、试卷与学生信息的采集与存储边界。

五、前景：教育与技术将相互塑形，关键在于治理与创新并进可以预见，可穿戴终端与智能系统在学习辅助、实验演示、个性化辅导等方面仍将持续渗透，教育场景也将倒逼技术向更强的文档理解、长程推理、可解释与低功耗方向演进。

未来一段时期，考试与评价制度可能呈现分层化趋势：基础知识环节更注重理解与应用的真实性验证，综合能力环节更强调过程产出与创新表达；与此同时，教师角色也将更多转向学习设计、思维训练与价值引导。

这场由一副智能眼镜引发的教育反思，实质是技术革命对人才培养模式的深层叩问。

正如教育部相关负责人所言："我们既要拥抱技术带来的效率革命，更要坚守教育的本质——培养具有独立思考能力和人文精神的全面发展的人。

"在人工智能与人类智慧共生的新纪元，如何构建兼具包容性与前瞻性的教育生态，将成为影响国家未来竞争力的关键命题。

香港科大测试显示大模型智能眼镜可在半小时完成三小时考卷 教育评估体系变革迫在眉睫