文心大模型5.1发布，预训练成本仅为行业6%

【TechWeb】5月9日，百度正式发布了文心大模型5.1版本。该版本在文心5.0的基础上，显著降低了预训练成本，总参数量减少至约三分之一，激活参数量也减少至约一半。文心5.1的预训练成本仅为同行同规模模型的6%，在保持与同级别模型相当的基础效果的同时，进一步提升了竞争力。

用户可以在文心一言官方网站体验文心5.1的对话功能。开发者则可以通过千帆大模型平台，将Model_name更改为eRnie-5.1，以使用相关的API服务。

此外，从今天起，文心大模型5.1将逐步在十多个创意生产智能平台上线，包括ISEK AI ZERO（全球领先的AI角色扮演互动平台）、Mulan AI（创意智能体平台）、谛听幻流（AI原创创意画布）和Story Master（AI短剧生成平台）等，欢迎创作者和用户前来尝试。

登顶多个榜单

在5月9日，文心大模型5.1在ARena Search排行榜中获得了123分，全球排名第4，在中国模型中位居第一。

文心大模型5.1在多个权威行业基准测试中表现突出，尤其在智能体能力、知识、推理和深度搜索等领域取得了显著成绩。

在τ³-bench和SpreadsheetBench-Verified智能体评估任务中，文心大模型5.1超越了DeepSeek-V4-Pro，其智能体能力接近于领先的闭源模型。同时，在Search Arena排行榜中也展现了卓越表现。

在知识与创意写作方面，文心5.1在GPQA和MMLU-Pro评估中，其性能接近于领先的闭源模型。在内部评估中，文心5.1的创意写作能力与Gemini 3.1 Pro相当。

在推理能力方面，文心5.1的表现接近于领先的闭源模型，在具有挑战性的学竞赛基准AIME26（使用工具）测试中，文心5.1得分99.6，仅次于Gemini 3.1 Pro。

预训练计算成本仅为同类模型的6%

文心大模型5.1源于文心5.0，通过多维弹性子模型矩阵提取最优子网络架构，有效继承了文心5.0所具备的知识与能力，同时显著降低了预训练成本。

研发团队提出了一种创新的“一次训练，处处部署”（Once-FoR-All）弹性训练框架，传统方法需为不同规模的模型分别进行预训练，而文心5.0通过动态采样机制，在一次预训练过程中联合优化多个不同深度、专家容量和路径的稀疏子模型，构建了一个涵盖不同参数规模和计算预算的子模型矩阵。

在这一过程中，模型实现了三个维度的弹性压缩与扩展：

弹性深度：在训练期间，根据激活的TransfoR层数，使不同深度的子模型能够共享权重，自适应地学习深层与浅层表示的平衡。

弹性宽度/专家容量：通过改变参与路径的专家数量，灵活控制MoE层中的有效专家容量。通过动态采样专家子集，模型能够在完整和缩减的专家池配置下高效运行。

弹性稀疏度：通过可变Top-k路由机制灵活调整激活的专家数量。激活较少的专家可以降低推理成本并提升解码效率，而激活更多专家则可以增强模型能力，从而实现推理开销与性能之间的动态平衡。

基于这一突破，文心大模型5.1的总参数数量被压缩至文心5.0的约三分之一，激活参数量也压缩至约二分之一，预训练计算成本仅为同行同规模模型的6%。与文心大模型5.0相比，推理成本显著降低，同时在同规模模型中仍保持领先性能。

互联网资讯 / 人工智能 · 2026年5月9日 0