新闻频道 > 热点 >正文

AI“高考”考得怎么样?语文、英语表现良好 数学成绩不及格

来源:解放日报2024年06月20日

上海人工智能实验室昨天公布了多名“AI考生”参加今年中国高考的成绩,阿里Qwen2-72B、GPT-4o和“书生·浦语”2.0文曲星(InternLM2-20BWQX)成为前三名,得分率均超过70%。大部分“AI考生”在语文、英语科目上表现良好,但数学成绩不尽如人意。其中,“书生·浦语”2.0文曲星获得数学最高分,超越包括GPT-4o在内的其他大模型。

大模型数学成绩不及格

今年高考结束后,司南评测体系OpenCompass选取6个开源大模型和GPT-4o,开展了语文、数学、英语全卷能力测试,评测采用全国新课标I卷。成绩由具有高考评卷经验的教师人工评判,接近真实阅卷的标准。

这六个大模型分别是阿里巴巴开源的Qwen2-57B和Qwen2-72B、上海人工智能实验室开源的“书生·浦语”2.0文曲星、智谱AI开源的GLM-4-9B、零一万物开源的Yi-1.5-34B、法国企业Mistral开源的Mixtral 8x22B。由于无法确定闭源大模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,只引入GPT-4o作为评测参考。

因为受测的开源模型均为大语言模型,在评测过程中,仅输入文字题干(数学包含2道带图试题),英语听力部分(分值30分)不纳入此次评测。结果,阿里Qwen2-72B以总分303分排名第一,其中语文124分(满分150分),数学70分(满分150分),英语109分(满分120分);GPT-4o以总分296分位居第二,其中语文111.5分,数学73分,英语111.5分;“书生·浦语”2.0文曲星以0.5分之差排名第三,其中语文112分,数学75分,英语108.5分。

可以看到,“AI考生”前三名都擅长文科,语文和英语成绩优良,而数学推理能力有待提升,高考数学成绩都不及格。目前,数学是所有大模型的短板,得益于上海人工智能实验室在数学推理上的投入,“书生·浦语”2.0文曲星在高考中得到75分,在所有受测模型中位居榜首,但仍存在较大提升空间。

阅卷老师点评考生表现

与以往多采用高考客观题评测大模型的方式不同,在此次测试中,研究团队使用了语数外三科的全卷试题,既有选择、填空等“答案唯一性”题目,也包括简答、阅读理解、作文等主观题,在更接近真实高考的环境中测试模型的能力。

为贴近高考评卷模式,研究团队邀请多位有阅卷经验的高中教师对主观题答案评分,每份考卷至少由3人分别打分。遇到评分悬殊的情况,老师们会进行复核,尽量做到评分公正,为人工智能学术界和产业界提供更有价值的参考指标。与真实的高考一样,所有大模型答卷均进行了匿名处理,避免阅卷教师产生“先入为主”的观念。

对于这些“AI考生”的语数外水平,老师们给出了中肯的评价——语文评卷显示,大模型的现代文阅读理解能力普遍较强,但不同模型的文言文阅读理解能力差距较大。大模型写的作文更像问答题,虽有针对性,但缺乏修饰,几乎不用人类考生都会使用的举例论证、引用论证、名人名言等手法。多数大模型不理解“本体”“喻体”“暗喻”等语文概念。对于文章中的一些“潜台词”,大模型也无法完全理解。数学评卷显示,大模型的主观题回答相对凌乱,解题过程有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力很强,但无法在解题过程中灵活运用。大模型的英语整体表现良好,大模型写的英语作文普遍存在因超出字数限制被扣分的情况,而人类考生大多因为字数不够被扣分。

文/俞陶然

供图/视觉中国

【责任编辑:于璧嘉】

青年范儿·文化场|叫醒文物里的神兽

中国青年报客户端2024-06-18 10:52:42

一场跨越时空的“对话”|文化中国行

中国青年报客户端2024-06-17 14:25:39

青年范儿·文化场|首届香港演艺博览将引入更多内地作品

中国青年报客户端2024-06-18 10:52:53

原创歌曲《老屋下的山丘》感恩父亲的付出与奉献

中国青年报客户端2024-06-16 11:28:05

原创歌曲《看,那星空》 展现博白青年风采

中国青年报客户端2024-06-16 12:00:00

老建筑讲新故事,“活起来”后“富起来”

中国青年报2024-06-07 06:14:07

传递祝福!2024高考加油曲来了

人民日报微博2024-06-07 11:10:37

回乡备战!广东人“扒龙舟”是认真的

中国青年报2024-06-07 06:14:52

考古手铲挖出“七三一”遗迹,在文物中看到近现代中国

中国青年报2024-06-07 06:13:36

毕业旅行不设限

中国青年报2024-06-07 09:32:50

哆哆女性网网上在线起名可靠吗姓薛男孩起名称鬼武者2下载jalapsikixkino汉正街中心商城300100股票瓷都姓名测试免费起名茶叶申请商标起名殷男孩起名属鼠的男人宝宝起名好宝宝起名字网上开小店起名字想给面馆起个名字神针侠医周易起名字大全蓬佩奥为乱港分子喊冤中方驳斥工作中存在的不足中国餐饮网用史饭店起名过户费计算器灌篮高手国语版高清农资商场起名大全曹起名男孩的名字程姓女孩子起名字诗词歌赋起名周易起名宝宝起名免费取名今晚世界杯给布偶猫起名字学校广播系统珠海验房公司淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻不负春光新的一天从800个哈欠开始有个姐真把千机伞做出来了国产伟哥去年销售近13亿充个话费竟沦为间接洗钱工具重庆警方辟谣“男子杀人焚尸”男子给前妻转账 现任妻子起诉要回春分繁花正当时呼北高速交通事故已致14人死亡杨洋拄拐现身医院月嫂回应掌掴婴儿是在赶虫子男孩疑遭霸凌 家长讨说法被踢出群因自嘲式简历走红的教授更新简介网友建议重庆地铁不准乘客携带菜筐清明节放假3天调休1天郑州一火锅店爆改成麻辣烫店19岁小伙救下5人后溺亡 多方发声两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#青海通报栏杆断裂小学生跌落住进ICU代拍被何赛飞拿着魔杖追着打315晚会后胖东来又人满为患了当地回应沈阳致3死车祸车主疑毒驾武汉大学樱花即将进入盛花期张立群任西安交通大学校长为江西彩礼“减负”的“试婚人”网友洛杉矶偶遇贾玲倪萍分享减重40斤方法男孩8年未见母亲被告知被遗忘小米汽车超级工厂正式揭幕周杰伦一审败诉网易特朗普谈“凯特王妃P图照”考生莫言也上北大硕士复试名单了妈妈回应孩子在校撞护栏坠楼恒大被罚41.75亿到底怎么缴男子持台球杆殴打2名女店员被抓校方回应护栏损坏小学生课间坠楼外国人感慨凌晨的中国很安全火箭最近9战8胜1负王树国3次鞠躬告别西交大师生房客欠租失踪 房东直发愁萧美琴窜访捷克 外交部回应山西省委原副书记商黎光被逮捕阿根廷将发行1万与2万面值的纸币英国王室又一合照被质疑P图男子被猫抓伤后确诊“猫抓病”

哆哆女性网 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化