当前位置:首页 >> 新闻资讯 >> 行业新闻

成都品茶,七款AI大模型“高考成绩”公布 :前三名文科过一本,理科过二本

  • 发布日期:2025-03-13
  • 成都品茶,七款AI大模型“高考成绩”公布 :前三名文科过一本,理科过二本

    IT之家 7 月 18 日消息,上海人工智能实验室 17 日公布了针对 7 个 AI 大模型的高考全科目测试结果,据大模型开源开放评测体系“司南”相关负责人介绍,“当前大模型仍存在很大的局限性。组织 AI 大模型‘参加高考’,目的是评测当前大模型的真实水平,找准问题,持续推进技术进步。”


    测试结果显示,书生・浦语 2.0 系列文曲星大模型(浦语文曲星)、阿里通义千问大模型 Qwen2-72B 以及 GPT-4o 再次包揽文、理科前三甲;前三名 AI“考生”的文、理科成绩分别超过了“一本”“二本”线(以今年高考人数最多的河南省的分数线为参考)。




    从官方提供的图片来看,此次参与“高考”的大模型还包括来自零一万物的 Yi-1.5-34B、来自通义千问的 Qwen2-57B、来自智谱的 GLM-4-9B 和法国 AI 初创公司 Mistral 旗下的 Mixtral 8×22B。


    据介绍,此次评测具备如下特征:


    全卷考试:进行全卷评分,而不只针对单一题型,且包括带图的高考题


    考前开源:评测覆盖的开源模型均为今年高考前开源的模型,排除泄题的可能性


    老师打分:邀请有高考阅卷经验的老师打分,确保评分和高考尽量一致


    完全公开:生成答案的代码、模型答卷、评分结果完全开源


    在增加综合科目的基础上,Qwen2-72B、GPT-4o、浦语文曲星包揽文、理科前三甲。阿里通义千问大模型 Qwen2-72B 以 546 分的成绩荣获 AI 高考“文科状元”,浦语文曲星则以 468.5 分成为理科第一名,分别超过了“非开源国际插班生”GPT-4o(文科 531 分,理科 467 分)。同为国外机构发布的 Mixtral 8x22B 平均得分最少,弱于国内大模型的高考表现。






    阅卷老师们一致认为,大模型与真人考生仍存在差距,虽然对于基础知识的掌握表现出色,但在逻辑推理和知识灵活应用方面,大模型仍然差强人意。具体而言,在作答主观题时,大模型往往无法完整理解题干,不明白代词指向,结果导致答非所问;解答数学题时,解题过程机械且逻辑性差,对于几何题,常出现与空间逻辑相违背的推断;对物理、化学实验理解肤浅,无法准确识别并运用实验器材。


    此外,大模型也会伪造虚构内容,编造看似合理但实际不存在的诗句,或在存在明显计算错误的情况下之后不反思,“硬着头皮蒙”一个答案,均给阅卷老师带来了困扰。


    据IT之家此前报道,根据上海人工智能实验室上个月公布的 AI 高考全卷结果,Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超过 70%。大部分模型“考生”语文、英语科目表现良好,但数学方面仍有很大提升空间。


    相关推荐

    长沙品茶工作室,人到老年,最好不要去这6个地方,儿女看后记得告诉家里的老人

      长沙品茶工作室,人到老年,最好不要去这6个地方,儿女看后记得告诉家里的老人问题:怎···

    长沙品茶工作室,饮食健康|中老年人不宜多吃的食物

      长沙品茶工作室,饮食健康|中老年人不宜多吃的食物对于中老年人来说,有些食物本应该···

    长沙品茶工作室,“老人难过冬”?牢记这些“忌”“宜”,更安全

      长沙品茶工作室,“老人难过冬”?牢记这些“忌”“宜”,更安全近日一波冷空气降临,···

    长沙品茶工作室,人到老年,洗头3不要,泡脚3不宜,洗脚3不该

      长沙品茶工作室,人到老年,洗头3不要,泡脚3不宜,洗脚3不该问题:怎么才能每天都收到···

    长沙品茶工作室,请告诉老年父母,夜里出门,有“七大忌讳”

      长沙品茶工作室,请告诉老年父母,夜里出门,有“七大忌讳”有句口头禅:“老小老小。···

    长沙品茶工作室,老年人夏季锻炼“五不宜”

      长沙品茶工作室,老年人夏季锻炼“五不宜”小暑节气刚过,天气进一步升温,专家提示,···

    长沙品茶网,警惕!这七个蔬菜老年人不宜多食,否则健康风险超乎想象

      长沙品茶网,警惕!这七个蔬菜老年人不宜多食,否则健康风险超乎想象市面上的蔬菜琳琅···

    长沙品茶网,老人穿衣藏忌讳!“七十不添衣”的5种衣服,千万别买错

      长沙品茶网,老人穿衣藏忌讳!“七十不添衣”的5种衣服,千万别买错老话说“七十不添衣···

    长沙品茶网,步入 70 岁,别再错吃鱼肉等肉类,禁忌速览

      长沙品茶网,步入 70 岁,别再错吃鱼肉等肉类,禁忌速览人到 70 岁之后,身体的各项机···

    长沙品茶网,60 岁以上老人注意,早起散步未必好,晨起几大禁忌要记牢

      长沙品茶网,60 岁以上老人注意,早起散步未必好,晨起几大禁忌要记牢在很多人的观念里···

    30余年行业积淀,为您提供解决方案!
    • 您的需求
    以客户期望为最高追求,以各方需求为最低起点,让产品和服务持续具有竞争力。
    恒诺聚焦岩土锚固工程,专注自钻式锚杆及配套设备的研发,为客户持续提
    供有竞争力的解决方案。
    • 联系电话:xiaobing845848 微信
    • 邮箱:admin@admin.com
    • 地址:重庆
    关于我们
    重庆品茶
    重庆品茶工作室
    重庆品茶
    品茶工作室
    男士品茶
    桑拿品茶
    品茶网
    私人品茶
    重庆品茶
    男士品茶
    桑拿品茶
    会所品茶

    官方微信


    Copyright © 2025 重庆品茶 本站资源来源于互联网 苏ICP12345678 XML 网站模板

    Footer with Tech Support