加载中 ...
首页 > 热点> 正文

商汤商量获SuperCLUE 评测总榜第一,成为最具生产力大模型

每日财经网 2023-10-23 10:39本文提供方:网友投稿原文来源:网络 阅读量:8838   会员投稿

 近日,SuperCLUE中文大模型评测基准最新排名发布,商汤商量SenseChat3.0位列中文大模型总榜排名第一,以总分62.75分位列第一,第二...

image.png

 

近日,SuperCLUE中文大模型评测基准最新排名发布,商汤商量SenseChat 3.0 位列中文大模型总榜排名第一,以总分62.75分位列第一,第二和第三分别是百度文心一言和智谱AI的ChatGLM2-Pro,其中在OPT客观题部分,商汤SenseChat 3.0得分还超过了GPT-3.5,展示了在中文大模型方面极强的综合竞争力。

 

image.png

 

注:国外代表性模型(GPT-4/Claude2/GPT-3.5)不参与排名。

 

除了总榜第一的最佳成绩以外,更值得关注的是SenseChat 3.0在新增的AI Agent(AI智能体)榜单的领先表现。AI智能体榜单中,SenseChat 3.0 同样排名第一,领先所有国内中文大模型,以及GPT-3.5 和 Claude 2,表现仅次于GPT-4,成为能够准确使用工具的大模型,掌握了解放行业生产力的关键。该榜单是中国市场首个评估大语言模型在“工具使用”和“任务规划”两个关键能力上的评测基准。

 

评测显示,SenseChat 3.0具备作为人类超级助手的潜力,可以根据人类需求自主完成任务,充分释放大模型生产力,使其在AI智能体榜单上表现仅次于GPT-4,全面领先其余大模型。

 

随着大模型发展,“聊天”已远远不能满足人们的要求,能够准确使用工具成为解放大模型生产力的关键。目前全球领先的AI 智能体,几乎都以领先大模型GPT-4为核心驱动,它们借助强大的工具使用能力等,可将复杂问题拆解成可实现的子任务、类人的自然语言交互等能力。

 

SenseChat 3.0作为领先的中文大模型,通过使用代码解释器、API调用和搜索三类常用工具来解决复杂任务,灵活搭建AI智能体应用,支撑企业的生产力革新。

 

image.png

SuperCLUE中文大模型评测基准,旨在对大模型在各个能力维度上的表现进行全方位的评估,是国内最具专业性和代表性的中文大模型评测基准之一。

 

该评测基准聚焦于大模型的四个能力象限:语言理解与生成、专业技能与知识、AI 智能体、安全性。基于四个象限细化出12项基础能力,并进一步衍生出100多个细化任务。

 

SuperCLUE的评测分为"OPEN多轮开放问题"和"OPT三大能力客观题"两部分。OPEN多轮开放问题的评测,SuperCLUE前瞻性引入了超级模型和基线模型,通过与特定代表性基线模型对战,根据超级模型给出的胜、和、负的结果计算得分。OPT三大能力客观题,考察基础能力、中文特性、学术与专业能力,根据题目的得分汇总而来。

 

image.png

 

总榜单和AI智能体榜单的优异表现,展示了商汤在大模型领域创新发展及释放生产力的优势,以及在探索AGI道路上的积累与潜力。目前,商汤商量SenseChat已经在金融、手机、医疗、汽车、地产、能源、传媒、工业制造等众多垂直行业与超过500家客户建立了深度合作。

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

   广告责任编辑:景舍

{"error":401,"message":"site error"}/news/2022/0711/94304.html