猎云网注:6 月 7 日下午,成都造AI机器人AI-MATHS和学霸君机器人Aidam挑战2017高考数学考试,随即猎云网了报道了此事(两家机器人挑战高考数学告负,AI+教育还将如何进化?)今日,天涯社区一篇名为“这是学渣荣誉的一刻→揭秘高考机器人‘骗局’”的帖子公开质疑这一“高考成绩”,一度成为关注焦点的高考机器人,是否只是镜花水月?本文转自芥末堆看教育(
6 月 7 日下午,学霸君高考机器人 Aidam 公开挑战 2017 年全国卷二文科数学卷,并取得 134 分的成绩(满分 150 分)。今日,天涯社区一篇名为“这是学渣荣誉的一刻→揭秘高考机器人‘骗局’”的帖子公开质疑这一“高考成绩”。
在天涯的帖子中,首先质疑了 Aidam 解答数学卷第 17 题的答题过程,存在题目录入错误、推导结论与题干不符等问题,同时还引用了知乎上对数学卷第 18 题答题过程的质疑,如知识元公布顺序存疑、存在没有意义和逻辑关系的解题步骤等。
该帖引发了业界对于学霸君高考机器人真实能力的质疑,一度成为关注焦点的高考机器人,是否只是镜花水月?甚至有相关公司向学霸君隔空喊话,希望学霸君接受原创命题的实测。
对此,学霸君在接受芥末堆采访时表示,“不想陷入口水战中”。
Aidam 解题过程受质疑
帖子中提到,数学卷第 17 题学霸君录入的题目与真实题目不同,在学霸君录入的题干里,两个条件相互矛盾,但最终这道题机器人却拿到了满分 12 分。
此外,第 17 题的解答过程,也引起了网友质疑。网友指出,根据学霸君录入的题干,无法得出其解答过程中展示的结果。
网友认为,在第 18 题解题过程中,知识元公布顺序存疑,没有公布题意理解过程,存在没有意义和逻辑关系的解题步骤。其中最显著的问题是,在解题过程中给出的两个互相垂直平面的法向量是一样的。
根据对答题过程的质疑,文中提出了学霸君是否真的没有发现问题;为什么录错题目,机器仍能答对;机器在题目尚未录入时就已经知道答案;是否有“隐形手”帮忙填写正确答案等质疑问题。
除了解题过程本身的质疑,网络上还有学霸君团队本身学术能力的质疑。
在知乎问题“如何看待学霸君的高考机器人 Aidam 高考全国文科数学卷考了 134 分?”中,排名第一的是一个超过七百个赞的答案。答案质疑了学霸君人工智能团队成员没有相关学术论文的发表记录,因此不具备相应学术能力。
学霸君如何才能自证清白?
“如果被质疑的内容是真实的,这个质疑确实是十分有力度的。”另一家研发了高考机器人的准星云学 CEO 林辉认为,学霸君现在最需要做的是公布发布会现场全流程视频,因为发布会是要展示出系统经过训练后能够自我分析、自我推理的能力,而非通过题目进行搜索匹配的能力。
林辉对学霸君目前没有公开全流程视频表示疑惑。在他看来,切断互联网和数据库,全程透明公正是特别重要的,录题和批阅过程是没有必要保密的,而没有断掉互联网也肯定会被质疑。
据悉,6 月 7 日下午,准星云学研发的“准星数学高考机器人”AI-MATHS 在成都先后解答了北京高考数学文科卷、全国卷二文科数学卷等多张试卷,并分别获得 105 分和 100 分的成绩。林辉表示,准星云学的高考机器人从录题目、解题目、到人工批阅、全都在会场上接受 863 监督单位科大讯飞的现场监督,执行了全程录制视频和断库断网。
此外,自然语言科学家、艾耕科技 CTO 曹斌则认为,除了公开视频之外,学霸君还可以通过提供 demo 或者 API 让大家测试来证明自己。
对于学霸君被质疑的“学术问题”,林辉认为,技术团队并不一定要发表论文,有时也有可能会出现一些“黑科技”。他表示,准星云学的团队也积累了很多文章,但没有很多时间去写;曹斌则认为,团队成员之前是不是发表过较高质量的 paper 确实可以成为衡量团队实力的参照,但是一个技术是否愿意发 paper,这是公司的选择。
Aidam 每天训练 40-50 万道题是否靠谱?
在接受公开采访中,学霸君创始人张凯磊曾说过,高考机器人 Aidam 每天自己训练 40-50 万道题目。
“单从数量来看,40-50 万对于机器学习来说并不能算是一个很大的训练量,相反还有些偏小。”但曹斌认为,需要关注的是 40-50 万什么样的题目,是否经过人工标注以及是怎么标注的?例如,从以文字表达的题目到机器能理解的结构化信息,这样的数据就需要人去标注。而且不同类型的题目,可能需要的模型也会有区别,这里就需要大量的人工。
林辉认为,学霸君对于高考机器人的训练,只可能是在一种无监督或者半监督的状态下完成,这就代表机器可能并不知道所解题目的正确与否。“解题与下围棋的 AlphaGo 并不一样,AlphaGo 可以根据围棋的特点计算目数来验证结果,虽然要求较高的计算量但是并不复杂,但通过自动推理或者逻辑关系,系统难以判断数学题目的对错。”他解释道。
相较于学霸君公开的 40-50 万道的数据量,准星云学的高考机器人只训练了 400 多套卷子。但林辉告诉芥末堆,准星云学所有的系统测试均是在系统中有标注,而且完成 400 多套的数量已经是准星云学现有人力能够完成的数目。
对于网上的质疑,学霸君也在今天下午给出了回应,“作为一家技术公司,不想陷入到这种口水战中,一切看实际情况说话,以后会做出更多的成绩。”学霸君方面回应称。