ReadCai财经资讯

AI眼镜考试夺高分 标准化测评受冲击 教育评估需转型

2026-01-07

摘要:香港科技大学一项实验显示,搭载GPT-5.2模型的AI眼镜在《计算机网络原理》期末考试中,仅用30分钟即获得92.5分,成绩超过了95%的人类考生。该实验不仅揭示了当前AI眼镜在功耗和图像识别清晰度上的技术瓶颈,更引发了对传统教学评估体系的深度反思。当AI能稳定完成标准化答题时,以最终答案为重心的评估方式的有效性受到挑战,教育评估重心可能需要向考察思维过程、创新与复杂问题解决能力转变。

线索

* 投资机会:实验成功验证了“AI+智能眼镜”在教育、专业辅助等结构化知识场景中的应用潜力。硬件厂商(如乐奇Rokid)在开放生态与开发友好性上的优势,以及大模型(如GPT-5.2)在复杂推理任务上的性能,是相关产业链的关注点。同时,催生了对于新型教育评估技术(如AI辅助口试、过程性评价工具)的需求。

* 投资风险:实验同时暴露了当前消费级AI眼镜的明显短板:持续高负荷运行下的功耗问题(30分钟耗电约42%)和摄像头成像质量对AI性能的制约。这些是影响产品体验与可靠性的关键技术瓶颈。此外,AI对传统评估模式的冲击可能引发政策与伦理风险,影响相关教育科技产品的落地路径。

正文

香港科技大学张军教授、孟子立教授团队进行了一项实验,让一副搭载大语言模型的AI眼镜参加《计算机网络原理》课程的期末考试,以测试其在真实考场环境下的表现。

研究团队首先对硬件进行了筛选。在评估了包括Meta、小米、乐奇Rokid等在内的12款主流商业智能眼镜后,团队基于设备需同时具备内置摄像头和集成显示屏、以及开发自由度等条件,最终选择了乐奇(Rokid)的AI眼镜作为实验硬件。在软件层面,团队对比了多款主流大模型后,选定了OpenAI的ChatGPT-5.2模型作为AI“大脑”。

考试过程中,学生佩戴眼镜查看试卷,眼镜摄像头拍摄试题后,通过“眼镜—手机—云端”的链路将图像传输给远程的GPT-5.2模型进行推理。模型生成的答案沿原路径返回,并显示在眼镜屏幕上供学生抄录。

实验结果显示,该AI眼镜系统在考试中获得了92.5分,其成绩在百余人中排名前五,超越了约95%的考生。在多项选择题和单页短答题上,AI获得了满分。即便在面对需要跨页理解上下文逻辑的复杂短答题时,AI也展现了较强的推理连贯性,虽然在最复杂的计算部分偶有偏差,但解题步骤完整。

此次实验也暴露了当前AI眼镜的技术局限。首要问题是功耗:在持续开启Wi-Fi并进行高分辨率图像传输的高压场景下,眼镜在30分钟内电量从100%下降至58%。其次是摄像头清晰度:图像质量直接决定AI识别题目的准确性,若题目存在模糊、反光或拍摄角度问题,将导致AI基于不完整信息推理,从而影响答题稳定性。

该实验结果引发了对于传统教学评估体系的思考。实验表明,在规则清晰、目标单一的标准化考试中,AI能够稳定、高效地完成“读题-理解-推理-作答”的全流程,并取得高分。这指向一个核心问题:当AI在产出标准答案方面表现优于多数人类时,以笔试为主、侧重考察知识点记忆与标准解题步骤的传统评估方式,其有效性面临挑战。

有观点指出,教育的许多重要目标,如提出问题的能力、在不完整信息下做判断的能力、权衡取舍的能力以及理解现实情境与他人立场的能力,难以通过传统笔试有效衡量。这些关乎学习过程、思考路径和决策质量的能力,恰恰是当前AI难以替代、且能区分学生综合素养的关键。

因此,教学评估体系可能需要从侧重于最终答案,转向更关注学生的推理过程、探究方法和创造性解决问题的能力。一些探索已在实践中出现,例如纽约大学斯特恩商学院有教授尝试采用AI辅助的口试评估,要求学生解释自己的作业思路与决策依据,并由多个AI模型对答辩转录进行交叉评分,以考察学生的真实理解程度。此外,部分海外高校也已引入口试、展示型作业等评估形式,旨在让学生的思考过程变得可见。

综上所述,AI眼镜在考场中的表现,更像是一次将传统评估体系局限性显影的实验。它提出了一个现实挑战:在教育环境中,当工具能可靠处理信息提取与标准作答时,教学与评估应如何进化,以有效区分和培养人类独有的高层次思维与创新能力。

发布时间:2026-01-06 19:15:27

相关推荐

评论 ( 0 )

3.6 W

文章

72.2 W

点赞

回顶部