随着国内百度、阿里、讯飞等各大厂商陆续发布大语言模型,百模大战的态势愈演愈烈、一触即发。各类评测也纷纷登场,分析到底谁才是国产ChatGPT的“扛把子”。
评测榜单是技术圈常见的一个评估维度。不过,前提是榜单得是公开透明、且具有权威性,国内外行业巨头都参与并认可,榜单才具有公信力,否则就会成为一家之言,毫无说服力,甚至会诱导大众。近日,一份自称“中文通用大模型综合性评测基准SuperCLUE”发布,权威性待考证,存在三点较大疑问。
一、试图混淆认知:国际权威榜单SuperGLUE,而非SuperCLUE
(资料图片仅供参考)
众所周知,在国际NLP领域,有大名鼎鼎的数据集GLUE和SuperGLUE,非常权威,OpenAI、谷歌等的大模型都在上面评测,极大推动了NLP领域的发展。
这次这份SuperCLUE评测的发起方为Chinese GLUE组织 (简称CLUE),CLUE是仿照GLUE由国内民间组织的评测,权威度和影响力与GLUE相比差很远,其微信账号主体属性为个人。但这也迷惑了不少圈内人,GLUE和CLUE分不清楚。从评测排名显示来看,刚发布的讯飞星火大模型在总榜单和子榜单中均排名第一位,仅次于人类排名和GPT-4、GPT-3.5。而国内发布最早、实力最强的文心一言却排在榜单最后。
二、心虚火速删除官网讯飞、杭州实在智能等相关信息
还有一点存疑,评测榜单发布当天5月9日,其官网显示信息,中文基准测评成员顾问中排名第一的是崔一鸣,身份为学术顾问委员会主任,哈工大讯飞联合实验室(HFL)资深级研究员。而5月10日,官网已删除此条顾问的信息。
而001号创始会员徐亮,是会长,相当于这个榜单的实际负责人。昵称brightmart,中文任务基准测评发起人。多个预训练模型中文版、文本分类和数据集开源项目作者。
徐亮还有另一个身份,在5月9日官网中显示,他是杭州实在智能算法专家,也就是元语智能的创始人,曾在2月份发布自称“国内首个功能对话大模型ChatYuan”,不仅无法测试,发布几天即被监管叫停。4月,又被报道套壳推出开源组件。有分析人士认为,不排除创业公司有融资压力,蹭热度吸引投资人关注。
该SpuerClue榜单发起方,001号顾问是讯飞身份背景、001号基准发起人是创业公司创始人。在榜单发布后,担心行业质疑其公平、公正,相关信息还被删除。这就有点不言而喻了。
三、评估数据、评估方式未知,评测题目恐怕只有100道,相距权威有万倍差距
最后来说下这个榜单本身,业内人士一眼就可以看出来,评测的很不合理,首先,没有公布评估数据,以及具体的评估方式。同时从它的公开表述,可推断总共题目就100道题目。这个题目量少到难以置信。专业人士可能有参与过,像国际权威SuperGlue榜单,题目一般都得有2万多道,离权威可是差了几万倍。况且,它的评测得分榜首都是人类,那这个评分的基准到底是什么?是否有很多主观性因素在里面?是否某些大模型提前在这个数据集上已经训练过?
任务设计太武断,所谓“通用”基准,是用以测试通用的人工认知能力的,那么我们自然希望,评测任务是参考了模型想要模拟的认知能力及相关理论,系统化地选择出来的。而实际上,我们观察到的则是,基准的作者们在选择任务的时候,更像是图方便、省事。以往,CLUE 中存在着部分数据集,一味考虑任务的复杂性,却在最起码的分布边界划分上(如NER各个类别的边界,如场所、景点类,组织机构及其子类),模糊不清,且数据的一致性无法保证。
要么别比,要比就来点正规的比赛。自己出题自己考,说不准还抢跑,自己还是评委,那这是欺不负了解真相的吃瓜群众吗?投机取巧,终皆散去。苦练内功,才是王道。打铁需先自身硬,国内的大语言模型厂商,还是好好“卷”研发、“卷“创新”吧。
关键词:
上一篇:总投资近80亿元,沿太行高速公路首座隧道贯通_全球今热点
下一篇:最后一页
凡本网注明“XXX(非中国微山网)提供”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和其真实性负责。
金山办公(688111)5月10日晚间公告,经向机构投资者询价,金山办公(688111)股东询价转让初步确定的转让价格
2023-05-10 20:25
泰恩康(301263)5月10日晚间公告,公司控股子公司江苏博创园生物医药科技有限公司近日收到国家药监局签发的
2023-05-10 20:47
近日,由中车时代电气(688187)旗下湖南中车通号自主研发的SigThemisCCO-600型CCS(Control-CommandandSignali
2023-05-10 20:42
雅运股份(603790)5月10日晚间重大资产重组预案,公司拟通过发行股份及支付现金方式,购买成都鹰明智通科技
2023-05-10 20:40
5月9日,2023世界超高清视频产业发展大会在广州开幕。工信部总工程师赵志国出席开幕式并致辞。赵志国表示,
2023-05-10 20:40
巨轮智能(002031):公司生产并送检的“精密摆线针轮减速机 JLRV40E”获得中汽检测技术有限公司(国家机器人
2023-05-10 19:36
5月10日,红旗连锁(002697)与蜀道城乡集团签订战略合作协议,双方就地产板块、商业领域、物业服务和乡村振
2023-05-10 19:44
岳阳林纸(600963):拟定增募资不超过25亿元,用于岳阳林纸(600963)提质升级综合技改项目一期年产45万吨文化
2023-05-10 19:30
汉王科技(002362)5月10日晚间公告,公司董事、高级管理人员李志峰拟在15个交易日后的6个月内,以集中竞价方
2023-05-10 19:44
罗欣药业(002793)5月10日晚间公告,温岭市大任投资管理有限公司(简称“大任投资”)拟通过集中竞价或大宗交
2023-05-10 19:28