互联网资讯 · 2026年4月24日 0

混元Hy3预览发布并开源:首个重建模型,智能体能力显著提升

2023年3月3日,腾讯混元Hy3预览发布并宣布开源。这款模型是一个经过深度融合的混合专用模型,拥有295亿的总参数,其中激活参数为21亿,支持256K的上下文长度。作为混元的首个重建模型,Hy3在复杂推理、指令遵循、上下文学习、代码理解、智能体能力及推理性能上实现了显著提升。

2026年,腾讯混元构建了预训练和强化学习的基础设施,并制定了三个原则以追求模型的实用性:

1. 能力体系化:不推崇“偏科”,因为即使是单一应用,也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同。

2. 评测真实性:主动跳出易被“刷榜”的公共榜单,通过自建题目、最新考试、人工评测、产品众测等多种方式评估和改进模型的“真实战斗力”。

3. 性价比追求:实用性离不开商业合理性,深度协同模型架构和推理框架的设计,大幅降低任务成本,让智能体的使用更加经济和实惠。

Hy3预览可以视为混元快速探索实用性大模型的一个开端。

腾讯首席AI科学家姚顺表示,Hy3预览是混元大模型建设的第一步。他们希望通过这次开源和发布,获得来自开源社区与用户的真实反馈,帮助提升Hy3正式版的实用性。同时,他们也在持续扩大预训练和强化学习的规模,提升模型的智能上限,并通过与腾讯众多产品的深度合作,持续提升模型在真实场景中的综合表现,并开始探索特色模型能力。

目前,Hy3预览已在腾讯云、元宝、iMa、codeBuddy、WorkBuddy、QQ、浏览器、腾讯文档、腾讯乐享等多个主线产品中首发上线,同时支持接入流行的开源智能体产品,如OpenClaw、OpenCode、KiloCode等,并已上架腾讯云大模型服务平台TokenHub。

Hy3预览主打全方位实用性,Agent能力大幅提升

多个测评结果显示,Hy3预览模型能力全方面提升。

1. 出色的上下文学习和指令遵循能力。

在各种真实的生产与生活场景中,理解杂乱冗长的上下文并遵循复杂多变的规则是模型的首要挑战。基于腾讯业务场景的灵感,腾讯混元推出了CL-bench和CL-bench-life来评估模型的上下文学习能力,并在Hy3预览中显著提升了模型上下文学习和指令遵循能力。

腾讯混元Hy3 preview发布并开源:混元重建后首个模型,Agent能力大幅提升

2. 复杂推理能力突出,清华大学博士资格考试国内分数最高。

复杂推理能力是模型解决各种问题的基础。Hy3预览在Frontier Science-Olympiad、IMOAnswerBench等高难度理工科推理任务表现突出,并在最新的清华大学求真书院博士资格考(26春)和全国中学生生物学联赛(CHSBO 2025)中取得优异成绩,展现了可泛化的强推理能力。

腾讯混元Hy3 preview发布并开源:混元重建后首个模型,Agent能力大幅提升

3. 代码与智能体提升最为显著,展现出高性价比。

代码和智能体是Hy3预览提升最为显著的方向。得益于预训练及强化学习框架的重建和强化学习任务规模的提升,腾讯混元以较快的速度在SWE-Bench Verified、Teral-Bench 2.0等主流代码智能体基准以及BrowseComp、WideSearch等主流流搜索智能体基准中取得了有竞争力的结果。

腾讯混元Hy3 preview发布并开源:混元重建后首个模型,Agent能力大幅提升

在数字世界中,代码关注的是模型在开发环境中的执行能力,搜索则聚焦于开放信息空间中的检索、筛选与整合能力,两者共同决定了模型在复杂智能体场景中的可用性。Hy3预览在ClawEval和WildClawBench等评测中表现突出,表明我们的智能体正在稳步走向全面与实用。

腾讯混元Hy3 preview发布并开源:混元重建后首个模型,Agent能力大幅提升

腾讯混元还进一步构建了多个内部的评测集,对模型在真实开发场景中的表现进行评估。结果表明,无论是在后端工程集Hy-Backend,贴近真实用户开发交互的Hy-Vibe Bench,还是高难度软件工程开发任务集Hy-SWE Max,Hy3预览均体现出了强竞争力。

腾讯混元Hy3 preview发布并开源:混元重建后首个模型,Agent能力大幅提升

比较各个开源模型的大小与智能体综合表现,Hy3预览展现出高性价比。

腾讯混元Hy3 preview发布并开源:混元重建后首个模型,Agent能力大幅提升

腾讯核心业务已全面接入,多主线AI产品验证收益明显

正式上线之前,Hy3预览在腾讯主要AI业务进行了产品测试,获得明显正收益。

在元宝端,混元与元宝进行了深度合作。一方面,提升了模型在意图理解、文本创作质量、深度搜索等指标上的表现;另一方面,对文风、情商、内容组织和内容专业度进行了调优。模型与产品的深度协同,为用户带来了更智能的交互体验。

在iMa知识库问答和通用问答两个场景下,测试结果显示,Hy3预览处理长文的能力突出,特别是检索类任务,在回答信息的准确性和覆盖度上表现较好。

在codeBuddy、WorkBuddy等产品上,Hy3预览首延迟降低54%、端到端时长降低47%、成功率提升至99.99%+。实际用户环境中,Hy3预览已稳定驱动复杂Agent工作,覆盖文档处理、数据分析、知识检索等多样化办公场景。

在公众号AI分身和AI客服的场景专项评测中,Hy3预览相比Hy2能力升级显著。新模型在用户意图理解和知识信息组织等方面表现更成熟,能够更准确地把握用户诉求,并输出更清晰、稳定的回复。结合知识库、用户记忆与上下文生成回答时更贴合AI分身和AI客服的角色,减少了主观代入和情绪化表达,使整体交互体验更贴近“可信、自然、高效”的回复目标。

在和平精英AI NPC场景中,团队第一时间在Hy3预览上线后基于AI NPC场景完成接入并开展评测,整体表现令人印象深刻。在游戏局外的角色扮演场景中,Hy3预览能够精准理解角色设定,并针对开放性问题输出高质量内容,带来了更加真实、自然的对话体验。而在游戏局内的复杂对战场景中,模型回复贴近真实玩家聊天体验,展现出优秀的稳定性与拟人化扮演能力,整体效果表现亮眼。

在腾讯文档AI PPT场景中,较上一版本取得了显著进步:生成成功率提升20%,评测得分提升10%,同时生成耗时缩短20%。新模型在评测场景中表现优异,在模型选择、色彩匹配、生成大纲、补充内容多个阶段均体现出优秀的表现,无幻觉,契合主题,视觉效果好。

在QQ AI助手小Q产品评测中,较上一版本在长文本首字节时延、整体响应速度与流式输出效率方面显著优化;核心能力上,数学推理表现提升尤为明显,多场景指令遵循与泛化能力进一步增强;在工具调用推理及多轮指代消解方面表现更稳定高效,在OpenClaw测试中取得突出效果,综合体验实现明显跃升。

推理效率提升40%,同等成本智能密度最优

得益于模型和推理框架上的深度协同,整体推理效率提升40%。Hy3预览的成本相比上一代模型大幅下降。

在腾讯云大模型服务平台TokenHub上,Hy3预览输入价格最低1.2元/百万Tokens,输入命中缓存价格0.4元/百万Tokens,输出价格最低4元/百万Tokens。同时,腾讯云联合混元推出定制的Hy3预览Token plan套餐,个人版定价最低28元/月,为Agent开发提供更具性价比选择。

腾讯混元Hy3 preview发布并开源:混元重建后首个模型,Agent能力大幅提升
腾讯混元Hy3 preview发布并开源:混元重建后首个模型,Agent能力大幅提升