“jiyzz”--中国报道杂志唯一官方网站

让人工智能大模型做K12学科试题，能赶上人类水平吗？ 辽宁庄河警方通报：男子因家庭琐事将哥哥一家六口杀害

　　中新网北京5月21日电(中新财经记者宋宇晟)记者了解到，近日，在北京市海淀区教委支持下，智源研究院联合与海淀区教师进修学校对齐学生测验方式，考察大模型与人类学生的学科水平差异，其中，答案不唯一的主观题，由海淀教师亲自评卷。

　　评测发现，模型在综合学科能力上与海淀学生平均水平仍有差距，普遍存在文强理弱的情况，并且对图表的理解能力不足，大模型未来有很大的提升空间。

　　北京市海淀区教师进修学校校长姚守梅解读大模型K12学科测试结果时指出，在语文、历史等人文学科的考试中，模型欠缺对文字背后的文化内涵以及家国情怀的理解。面对历史地理综合题时，模型并不能像人类考生一样有效识别学科属性。相较于简单的英语题，模型反而更擅长复杂的英语题。解理科题目时，模型会出现以超出年级知识范围外的方法解题的情况。当出现无法理解的考题时，模型依然存在明显的“幻觉”。

　　此外，智源研究院还发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。

　　评测结果显示，在中文语境下，国内头部语言模型的综合表现已接近国际一流水平，但存在能力发展不均衡的情况。在多模态理解图文问答任务上，开闭源模型平分秋色，国产模型表现突出。国产多模态模型在中文语境下的文生图能力与国际一流水平差距较小。多模态模型的文生视频能力上，对比各家公布的演示视频长度和质量，Sora有明显优势，其他开放评测的文生视频模型中，国产模型PixVerse表现优异。

　　据介绍，本次用于评测的评测体系依托科技部“人工智能基础模型支撑平台与评测技术”和工信部“大模型公共服务平台”项目，智源研究院与10余家高校和机构联合开展大模型评测方法与工具研发。

　　评测使用20余个数据集、超8万道考题，包括与合作单位共建和智源自建的多个评测数据集，如中文多模态多题型理解及推理评测数据集CMMU、中文语义评测数据集C-SEM、中文语言及认知主观评测集CLCC、面向复杂算法代码生成任务的评测集TACO、文生图主观评测集Image-gen、多语言文生图质量评测数据集MG18、文生视频模型主观评测集 CUC T2V prompts。其中，主观题4000余道，均来源于自建原创未公开并保持高频迭代的主观评测集，严格校准打分标准，采取多人独立匿名评分、严格质检与抽检相结合的管理机制，降低主观偏差的影响。此外，为了更准确地评测语言模型的各项能力，智源专门对所有客观数据集的子数据集进行了能力标签映射。(完)

[ 更多头条 ]

更多> 更多>

政法要闻

高层动态

炎亚纶曾强吻曾之乔: 　　5月15日，人社部、教育部等十部门发布《关于进一步推进实施百万就业见习岗位募集计划的通知》，计划聚焦离校两年内未就业高校毕业生和16岁至24岁青年，全年将募集不少于100万个就业见习岗位，确保有见习意愿的高校毕业生等青年都能获得见习机会。[详细]

我爱你: 　　纵观近年来利用高考进行诈骗的案件，犯罪分子的诈骗手段不断翻新、层出不穷，有的虚构有“内部名额”等特殊录取渠道，谎称低分也可上名校；有的伪造国外高校的招录计划，承诺出国入学全解决；有的散布支付费用可以提前查询和调高考试分数；有的甚至通过租赁房屋、聘请师资、安排军训等方式，欺骗学生和家长已经实际入学。犯罪分子的最终目的就是利用考生和家长信息不对称以及焦急、侥幸的心理，大肆骗取钱财。 [详细]

拜登会见莫迪，谈及美印关系硬扯中国，哪些信息值得关注？美印再次拥抱，对中国威胁几何？2024-05-21 13:44:34
俄罗斯成立专门机构研究习近平新时代中国特色社会主义思想2024-05-21 22:39:36
端午假期首日旅游成绩单出炉2024-05-22 07:07:29
泰国和美国两地大量鱼类死亡2024-05-21 11:36:27
汶川地震中的“敬礼娃娃”郎铮高考637分：准备报考北大2024-05-22 06:02:26

热点新闻更多>

: 邓超你到底在哪

{随机集中}[详细]

2023IVL2024-05-22 07:41:05
NBA 选秀大会：马刺状元签选择文班亚马，黄蜂选中米勒，如何看待他们的前景？2024-05-22 07:41:05
�2024-05-22 07:41:05

辽宁庄河警方通报：男子因家庭琐事将哥哥一家六口杀害2024-05-22 07:41:05
盘点各地的上头美食！2024-05-22 07:41:05
持续追踪｜乌多地遭俄无人机袭击，俄威胁打击乌“决策中心”2024-05-22 07:41:05
新一届团中央领导机构产生2024-05-22 07:41:05
安徽高考分数线2024-05-22 07:41:05
如何评价《中国说唱巅峰对决 2023》第八期？2024-05-22 07:41:05
这两年长沙的文和友、茶颜悦色都在走下坡路了？这个是为什么呢？2024-05-22 07:41:05
如何评价《黑镜》（Black Mirror）第六季第二集「Loch Henry」？2024-05-22 07:41:05
Ella陈嘉桦、孟佳、CHIPU芝芙《闭嘴跳舞》2024-05-22 07:41:05

更多> 更多> 更多>

平安建设

市域治理

人事任免

: 四川高考分数线公布

　　有未能参加此次访疆团的日本民众向《环球时报》记者表达了遗憾之情，薛剑透露说，下一次的访疆团已在筹划当中，会尽快发布相关信息，希望该活动能够持续推进，让更多日本民众有机会亲访新疆。[详细]

平稳降落！国产大飞机C919首次载客飞抵成都2024-05-22 07:41:05
41℃高温把盆里的衣服晒冒烟了2024-05-22 07:41:05
翟欣欣被逮捕2024-05-22 07:41:05
泰坦尼克观光艇5人全部遇难2024-05-22 07:41:05
多家大行存款利率将再迎下调？2024-05-22 07:41:05

: 全国都在纪念屈原，只有广东人在抢救屈原

　　据新华社今年4月报道，美国政客伙同一些媒体一直以来不断散布种种毫无根据的所谓“结论”。据美国媒体早前报道，美国能源部向白宫和部分国会议员递交秘密报告，称新冠病毒“很可能源自中国武汉的一个实验室”。实际上，美国能源部这份报告的“依据”仅仅是所谓的“情报”，就连该部自己对这份报告的结论也是持“低可信度”。[详细]