商汤商量获SuperCLUE 评测总榜第一,成为最具生产力大模型
近日,SuperCLUE中文大模型评测基准最新排名发布,商汤商量SenseChat 3.0 位列中文大模型总榜排名第一,以总分62.75分位列第一,第二和第三分别是百度文心一言和智谱AI的ChatGLM2-Pro,其中在OPT客观题部分,商汤SenseChat 3.0得分还超过了GPT-3.5,展示了在中文大模型方面极强的综合竞争力。
注:国外代表性模型(GPT-4/Claude2/GPT-3.5)不参与排名。
除了总榜第一的最佳成绩以外,更值得关注的是SenseChat 3.0在新增的AI Agent(AI智能体)榜单的领先表现。AI智能体榜单中,SenseChat 3.0 同样排名第一,领先所有国内中文大模型,以及GPT-3.5 和 Claude 2,表现仅次于GPT-4,成为能够准确使用工具的大模型,掌握了解放行业生产力的关键。该榜单是中国市场首个评估大语言模型在“工具使用”和“任务规划”两个关键能力上的评测基准。
评测显示,SenseChat 3.0具备作为人类超级助手的潜力,可以根据人类需求自主完成任务,充分释放大模型生产力,使其在AI智能体榜单上表现仅次于GPT-4,全面领先其余大模型。
随着大模型发展,“聊天”已远远不能满足人们的要求,能够准确使用工具成为解放大模型生产力的关键。目前全球领先的AI 智能体,几乎都以领先大模型GPT-4为核心驱动,它们借助强大的工具使用能力等,可将复杂问题拆解成可实现的子任务、类人的自然语言交互等能力。
SenseChat 3.0作为领先的中文大模型,通过使用代码解释器、API调用和搜索三类常用工具来解决复杂任务,灵活搭建AI智能体应用,支撑企业的生产力革新。
SuperCLUE中文大模型评测基准,旨在对大模型在各个能力维度上的表现进行全方位的评估,是国内最具专业性和代表性的中文大模型评测基准之一。
该评测基准聚焦于大模型的四个能力象限:语言理解与生成、专业技能与知识、AI 智能体、安全性。基于四个象限细化出12项基础能力,并进一步衍生出100多个细化任务。
SuperCLUE的评测分为"OPEN多轮开放问题"和"OPT三大能力客观题"两部分。OPEN多轮开放问题的评测,SuperCLUE前瞻性引入了超级模型和基线模型,通过与特定代表性基线模型对战,根据超级模型给出的胜、和、负的结果计算得分。OPT三大能力客观题,考察基础能力、中文特性、学术与专业能力,根据题目的得分汇总而来。
总榜单和AI智能体榜单的优异表现,展示了商汤在大模型领域创新发展及释放生产力的优势,以及在探索AGI道路上的积累与潜力。目前,商汤商量SenseChat已经在金融、手机、医疗、汽车、地产、能源、传媒、工业制造等众多垂直行业与超过500家客户建立了深度合作。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
广告责任编辑:景舍