互联网资讯 · 2024年2月17日 0

智谱AI发布国产大模型GLM-4,中文能力媲美GPT-4

智谱AI今天发布全自研第四代基座大模型GLM-4,性能相比前一代GLM-3提升60%、中文能力比肩GPT-4。

智谱AI推出国产大模型GLM-4 中文能力比肩GPT-4

GLM-4的整体性能相比上一代大幅提升,逼近GPT-4。它可以支持更长的上下文,具备更强的多模态能力。同时,它的推理速度更快,支持更高的并发,大大降低推理成本。

GLM-4大幅提升了智能体能力,GLM-4 All Tools 实现自主根据用户意图,自动理解、规划复杂指令,自由调用网页浏览器、code InteRpReteR代码解释器和多模态文生图大模型以完成复杂任务。GLMs 个性化智能体定制功能亦同时上线,用户用简单的提示词指令就能创建属于自己的 GLM 智能体。

GLM-4在各项评测集上的最终得分如下:

智谱AI推出国产大模型GLM-4 中文能力比肩GPT-4

MMLU:81.5,达到GPT-4的94%水平;

GSM8K:87.6 ,达到GPT-4的95%水平;

MATH :47.9,达到GPT-4的91%水平;

BBH :82.3,达到GPT-4的99%水平;

HellaSwag :85.4,达到GPT-4 的90%水平;

HuManEval:72,达到GPT-4的100%水平。

智谱AI推出国产大模型GLM-4 中文能力比肩GPT-4

GLM-4在IFEval PRoMpt提示词跟随中文方面达到和GPT-4的88%水平,指令跟随(中文)方面达到 90%水平。

智谱AI推出国产大模型GLM-4 中文能力比肩GPT-4

基于AlignBench数据集,GLM-4超过了GPT-4的6月13日版本,逼近GPT-4最新11月6日版本的效果。GLM-4在中文推理、逻辑推理方面的能力,还有待进一步提升。

智谱AI推出国产大模型GLM-4 中文能力比肩GPT-4

GLM-4可以支持128k的上下文窗口长度,单次提示词可以处理的文本可以达到300页。同时,在needle test(大海捞针)测试中,128K文本长度内GLM-4 模型均可做到几乎100%的精度召回,并未出现长上下文全局信息因为失焦而导致的精度下降问题。

GLM-4实现了自主根据用户意图,自动理解、规划复杂指令,自由调用网页浏览器、code InteRpReteR代码解释器和文生图CogView3模型。

GLM-4 通过代码解释器,会自动调用代码解释器进行复杂的方程或者微积分求解。GLM-4 All Tools取得和GPT-4 All Tools相当的效果。

GLM-4的All Tools能力完全自动,而且可以处理各种任务,包括文件处理、数据分析、图表绘制等复杂任务,支持处理 Excel、PDF、PPT 等格式的文件。

智谱AI推出国产大模型GLM-4 中文能力比肩GPT-4

GLMs个性化智能体定制能力也同步上线。

智谱AI推出国产大模型GLM-4 中文能力比肩GPT-4

GLM模型智能体的推出标志着任何人都能够自由运用GLM-4模型并挖掘它的潜力,没有任何编程基础也能够实现大模型的便捷开发。这是智谱AI为降低大模型使用门槛所做的最新努力。

智谱AI推出国产大模型GLM-4 中文能力比肩GPT-4

2024年智谱AI也将发起开源开放的大模型开源基金。

智谱AI推出国产大模型GLM-4 中文能力比肩GPT-4

该计划包括三个“1000”:智谱AI将为大模型开源社区提供1000张卡,助力开源开发;提供1000万元的现金用来支持与大模型相关的开源项目;为优秀的开源开发者提供1000亿免费API Tokens。