加载中 ...

商汤商量获SuperCLUE 评测总榜第一，成为最具生产力大模型

每日财经网 2023-10-23 10:39本文提供方：网友投稿原文来源：网络阅读量：8838 会员投稿

近日，SuperCLUE中文大模型评测基准最新排名发布，商汤商量SenseChat3.0位列中文大模型总榜排名第一，以总分62.75分位列第一，第二...

近日，SuperCLUE中文大模型评测基准最新排名发布，商汤商量SenseChat 3.0 位列中文大模型总榜排名第一，以总分62.75分位列第一，第二和第三分别是百度文心一言和智谱AI的ChatGLM2-Pro，其中在OPT客观题部分，商汤SenseChat 3.0得分还超过了GPT-3.5，展示了在中文大模型方面极强的综合竞争力。

注：国外代表性模型（GPT-4/Claude2/GPT-3.5）不参与排名。

除了总榜第一的最佳成绩以外，更值得关注的是SenseChat 3.0在新增的AI Agent（AI智能体）榜单的领先表现。AI智能体榜单中，SenseChat 3.0 同样排名第一，领先所有国内中文大模型，以及GPT-3.5 和 Claude 2，表现仅次于GPT-4，成为能够准确使用工具的大模型，掌握了解放行业生产力的关键。该榜单是中国市场首个评估大语言模型在“工具使用”和“任务规划”两个关键能力上的评测基准。

评测显示，SenseChat 3.0具备作为人类超级助手的潜力，可以根据人类需求自主完成任务，充分释放大模型生产力，使其在AI智能体榜单上表现仅次于GPT-4，全面领先其余大模型。

随着大模型发展，“聊天”已远远不能满足人们的要求，能够准确使用工具成为解放大模型生产力的关键。目前全球领先的AI 智能体，几乎都以领先大模型GPT-4为核心驱动，它们借助强大的工具使用能力等，可将复杂问题拆解成可实现的子任务、类人的自然语言交互等能力。

SenseChat 3.0作为领先的中文大模型，通过使用代码解释器、API调用和搜索三类常用工具来解决复杂任务，灵活搭建AI智能体应用，支撑企业的生产力革新。

SuperCLUE中文大模型评测基准，旨在对大模型在各个能力维度上的表现进行全方位的评估，是国内最具专业性和代表性的中文大模型评测基准之一。

该评测基准聚焦于大模型的四个能力象限：语言理解与生成、专业技能与知识、AI 智能体、安全性。基于四个象限细化出12项基础能力，并进一步衍生出100多个细化任务。

SuperCLUE的评测分为"OPEN多轮开放问题"和"OPT三大能力客观题"两部分。OPEN多轮开放问题的评测，SuperCLUE前瞻性引入了超级模型和基线模型，通过与特定代表性基线模型对战，根据超级模型给出的胜、和、负的结果计算得分。OPT三大能力客观题，考察基础能力、中文特性、学术与专业能力，根据题目的得分汇总而来。