智源最新模型评测：百度文心大模型4.0登顶闭源榜

2024-06-18 北京--

导出Word 导出PDF 收藏打印

所在地区：

北京--

发布日期：

2024年6月18日

建设快讯正文

　　近日，由北京智源研究院打造的FlagEval天秤大模型评测平台实现了全面升级，并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示，百度文心大模型4.0以89.72的综合评分在闭源对话模型中排名第一。

点击此链接查看图片

FlagEval大语言模型评测能力榜单官网截图

　　FlagEval天秤大模型评测平台是智源研究院推出的科学、权威、公正、开放的大模型评测体系，自2023年发布以来，已从主要面向语言模型扩展到视频、语音、多模态模型，实现多领域全覆盖，目前已评测国内外300余个开源和商业闭源的语言及多模态大模型。资料显示，FlagEval大语言模型评测体系当前包含6大评测任务，近30个评测数据集，超10万道评测题目。

点击此链接查看图片

FlagEval大语言模型评测能力榜单官网截图

　　从榜单中可以看到，百度文心大模型4.0以89.72的综合评分在闭源对话模型中排名第一，云雀2-Pro、豆包、GPT-4o分别位居二三四位，百川、零一万物、kimi等追随其后。

　　日前，国际数据公司IDC发布的《中国大模型市场主流产品评估，2024》中，百度同样位于第一梯队。评测显示，百度旗下生成式AI产品文心一言和文心一格在问答理解类、推理类、创作表达类、数学类、代码类的基础能力，toC通用场景类、toB特定行业类的应用能力等7大维度均具备领先优势。其他评测厂商中，阿里获6项优势维度，OpenAI GPT-4和商汤分获5项。

点击此链接查看图片

IDC《中国大模型市场主流产品评估，2024》

　　公开资料显示，2023年10月，百度文心大模型4.0正式发布，实现了基础模型的全面升级，在理解、生成、逻辑和记忆能力上明显提升。截至目前，文心一言累计用户规模已达2亿，日均调用量也达到了2亿。（李妍）

按照客观、公正、公开的原则，本条信息受业主方委托独家指定在中国建设招标网 www.jszhaobiao.com 发布

注册会员享受贴心服务

标讯查询服务

让您全面及时掌握全国各省市拟建、报批、立项、施工在建项目的项目信息。

帮您跟对合适的项目、找对准确的负责人、全面掌握各项目的业主单位、设计院、总包单位、施工企业的项目经理、项目负责人的详细联系方式。

帮您第一时间获得全国项目业主、招标代理公司和政府采购中心发布的招标、中标项目信息。

标讯定制服务

根据您的关注重点定制项目，从海量项目中筛选出符合您要求和标准的工程并及时找出关键负责人和联系方式。

根据您的需要，向您指定的手机、电子邮箱及时反馈项目进展情况。

咨询热线：4000-156-001