11月25日消息,在最新的CLUE中文语言理解权威榜单中,阿里AI取得了86.685的总分成绩,刷新了记录。这是该榜单推出近三年以来,首次有AI超越人类的表现(人类的成绩为86.678),表明AI在中文语言理解能力上达到了新的水平。本次参与评分的是阿里通义大模型系列中的AliceMind(简称“阿里通义AliceMind”)。该基础模型已开放于ModelScope平台(魔搭,https://modelscope.cn)。

CLUE最新榜揭晓:阿里通义AliceMind总分数超出人类得分。
作为业内备受尊重的中文自然语言处理(NLP)榜单之一,CLUE涵盖了文本分类、阅读理解及自然语言推理等9种任务,全面评估AI模型的语言理解能力。过去三年来,该榜单吸引了众多国内顶尖NLP团队参与,在此期间尽管榜首位置几易其主,但参评的AI模型始终未能超越人类的成绩。根据最新结果,阿里通义AliceMind在4项任务上超过了人类的表现,私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596并首次实现了总榜平均分的突破。
中文语言理解是AI行业亟需解决的关键难题之一。为了提高AI模型对词汇、句子以及整体语言的理解能力,在预训练过程中,阿里云的达摩院沿用了大规模超大模型使用的海量高质量中文文本数据,并对其进行了一系列优化工作。这些措施包括使用激活函数GLU和混合字词的大词表以增强文本建模能力;利用StrongHold技术加速迭代过程,减少算力消耗并显著提升性能。在精调阶段,达摩院采用迁移学习、数据增强和特征增强等方法应对如文本分类、阅读理解及自然语言推理等下游任务,进一步提升模型的表现。
以CLUE榜单上的CHID成语阅读理解填空任务为例,这项任务要求AI模型选出正确的成语来填充空白处。阿里通义AliceMind通过大量文本数据的学习,实现了“博闻强识”的效果。它在预训练阶段掌握了词义理解能力,并将这种私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596能力应用到成语领域的迁移训练中。最终,在测试任务中的表现远超人类水平。
作为最早的预训练语言模型研究团队之一,阿里云研发了阿里通义AliceMind。该体系包括预训练模型、多语言预训练模型以及超大中文预训练模型等多种类型,并具备阅读理解、机器翻译、对话问答和文档处理等能力。该模型已取得36项冠军。当前,相关技术已应用于医疗、电商和法律等多个领域,在跨境电商方面,达摩院的机器翻译系统能提供214种语言的服务,每天帮助国内200万中小企业完成数亿字的文字翻译任务,助力中国产品走向全球市场。
顶: 9946踩: 4
阿里AI刷私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596新中文语言理解记录
人参与 | 时间:2026-03-23 13:01:46
相关文章
- 暖经济向“新”风劲吹!选品、询价、成交……企业做足“内功”开辟大市场
- 科学家发现迄今最古老的复杂三维潜穴系统
- 任天堂 Switch 2 港版 / 日版 60W 充电器深度拆解,核心元器件全一致,仅两处细节有差异!
- 真爱美家跌停,实控人套现12亿,八零后接手
- 深度拆解多款饼干快充,高压滤波电容选型全解析
- 记者体验荣耀Magic8系列的自动领券功能:一句话便可找到全网最优惠商品
- 合肥国资入主维信诺助力OLED发展
- 方50天套现2.8亿,A股募4.8亿,拟发H股
- 景区回应蹦极项目不用绳子:在测试阶段,20米至50米高度可自选,下方有160平方米的安全网接着
- 不只是外壳换了!小米新旧两款45W氮化镓小布丁充电器深度拆解对比




评论专区