资讯

全行业都在测语音AI”接话准不准”，但从没人问过：它真的听懂了吗？

2026年4月9日 · www.rgndhq.blogspot.fi - 281796 USD DYROV roq

先说一个数。

超过40%。

这是当前某主流全模态大模型在语音交互中”蒙对”的比例。也就是说，它每做100次正确操作，有4次以上是错的。

它不是听懂了才回答的。它是碰巧没答错。

这个数来自百融团队刚刚开源的TT Benc。我们给Gemini 3-Pro、GPT-4o-audio、Qwen3-Omini、mini CP-Mo-4.5这些当红明星模型，出了一张从没出过的卷子。

结果，整体翻车。

一个价值千万的bug，藏在”正确”里。

先别急着看数据。我给你讲个真实场景，你就懂了。

一个智能语音坐席正在给客户介绍理财产品，说得正欢。这时候客户咳嗽了一声。

AI停了。安静了两秒。等客户开口。

看起来很贴心，对吧？很”智能”对吧？

但真相是：它根本不知道那是一声咳嗽。

它只是检测到”有声音了”，然后条件反射般地闭嘴了。如果下一次客户是在跟旁边的同事说话，它也会停。如果是窗外传来一声汽车喇叭，它还是会停。如果客户真的想打断说”我不感兴趣”—它的反应，跟听到咳嗽，一模一样。

四种完全不同的情况。四种需要完全不同处理方式的场景。但在这个AI的”大脑”里，它们是同一件事—有动静，闭嘴。

从外面看，它每次都”做对了”。从里面看，它一次都没”听懂”。

这不是个案。这是整个语音AI行业的系统性盲区。

整个行业都在考一张错误的卷子。

为什么这个问题存在了这么久，却没人发现？

因为我们的考试出错了。

目前全行业评测语音交互能力，最主流的方法叫端点检测—用户说完了没有。说完了就接话，没说完就等着。

一个二分类问题。简单。粗暴。而且，严重失真。

近两年出现了一些进阶Benc，FLEXI测社交场景、Full-Duplex-Bench-v2评多轮任务、MTR-DuplexBench考性能衰减。它们确实比二分类进步了。

但它们有一个致命的共同缺陷：只看”做了什么”，从不问”为什么这么做”。

它们能看到”模型沉默了”，却无法分辨：这次沉默，是因为正确判断了用户在思考？还是把咳嗽当成了说话？还是把背景噪音当成了用户指令？

这三种沉默，在现有Benc里得分完全一样。但在真实通话中，一种是智能，一种是愚蠢，一种是危险。

所有人都在用这张”错误的卷子”打分，然后宣布自己的模型”表现优秀”。

难怪没人发现问题。因为卷子本身就看不出问题。

这件事有多严重？

你可能觉得：就算蒙对了，用户也感知不到啊，结果不是一样的吗？

不一样。非常不一样。

在百融云创的各种业务场景中，智能坐席每天要处理海量实时通话。营销、回访、客服、贷后—每一通电话都是真金白银。

想象一下这些场景：

客户正在犹豫要不要买。他停顿了三秒，在心里算账。一个”真听懂了”的AI会安静等待，给他思考空间。一个”蒙”的AI可能误判为”用户说完了”，急匆匆接上话，打断了客户正在形成的购买决定。

客户被旁边的同事叫了一声。他扭头说了句”等一下”。一个”真听懂了”的AI立刻停下。一个”蒙”的AI可能把这句话当对话指令，做出莫名其妙的回应。

客户明确说了”你别说了”。一个”真听懂了”的AI立刻停下。一个”蒙”的AI可能还在犹豫—因为它上次听到类似的声音强度时，判断的是”背景噪音，忽略”。

每一次误判，都是一次转化率的流失、一次客户满意度的损耗、一次合规风险的累积。

乘以日均百万级的通话量。

这不是小问题。这是一个被”正确的分数”掩盖的巨大隐患。

我们撕开了这个口子。

我们做了一个Benc，叫codeTT—它不测”做了什么”。它测”为什么这么做”。

它不测”做了什么”。它测”为什么这么做”。

图注：传统评测（左）只看到前者，如同”黑箱阅卷”；codeTT（右）深入决策意图，实现分层诊断。直观展示评测理念的根本性差异。

14个”陷阱”，层层递进。

codeTT构建了一个三层诊断体系，把turn-taking从”判断对错”变成了”诊断病因”。

第一层：你现在在干嘛？ 系统正在说话（system Speaking），还是在等用户说话（system Idle）。

第二层：你打算怎么做？ 四个宏观动作—继续说（Maintain）、停下来听（Stop & Listen）、接管发言（Take Over）、忽略不理（Disregard）。

第三层：你凭什么这么做？ 这是杀手锏。codeTT设置了14种细粒度意图场景，每一种都是精心设计的”陷阱”。

图注：codeTT定义的14种轮次交接决策场景完整分类体系—相当于给”轮次交接”这张试卷划分了14道大题，每道题考的能力不同。

同样是”继续说不停下”，你的理由是什么？

用户只是”嗯嗯”两声表示在听？—对，继续。

旁边传来一声咳嗽？—对，继续，但理由完全不同。

用户在跟旁人说话？—对，继续，但这又是另一个理由。

背景里有人在聊天？—对，继续，但你必须知道为啥。

四个一模一样的”正确答案”，四种截然不同的”正确理由”。传统Benc只看到前者，codeTT要看穿后者。

数据集：300小时，绝不含糊。

codeTT不是一个玩具级的测试集。

300小时中英双语多轮对话。18,000个标注决策实例。14个诊断场景均匀覆盖。每个实例带有5轮完整对话历史。

数据构建经过六阶段流水线：Gemini 3-Pro生成对话文本、GPT-5做语义质检、Qwen3-TTS合成多个人语音、Qwen3-AS转录验证、专项声学复杂场景模拟、真实自然对话语料融合。两名双语标注员人工审核，标注一致性Cohen’s kappa = 0.87。

图注：codeTT数据六阶段构建流水线全景图—从文本生成到声学模拟，再到真实数据融合，展示数据工程的完整性和严谨性。

不是随便攒的。是用造武器的态度造的尺子。

一个指标，撕掉”蒙题”的遮羞布。

codeTT还发明了一个全新的指标—语义错位率（Semantic Misalignment Rate，SMR）。

这个指标只做一件事：揪出那些”动作蒙对了，但理由完全错误”的case。

公式很简单：在所有”动作正确”的样本中，有多少是”意图判断错误”的？

SMR越高，说明模型越像一个考试蒙题的学生—选择题选对了，但你问他为啥这么选，他说”因为今天周三”。

这个指标在此之前，从未有人提出来过。 因为以前的卷子根本没有”问理由”这一栏。

成绩单来了。请坐稳。

我们把当前最能打的语音模型和全模态大模型全部拉上了考场。

图注：主流模型在4类核心决策上的准确率对比（中英文），清晰展示各模型的”偏科”现象—许多模型只在一种场景下表现尚可，其余场景大幅崩塌。

专用控制器：”瘸腿冠军”

Easy Turn、FireRedChat、SMart-Turn-v3、NAMO-Turn—这些专门做端点检测的选手，在”接管话轮”（Take Over）上分数很高，FireRedChat中文达到86.67%。

但一到”该不该忽略”（Disregard），成绩直接崩盘。FireRedChat只有6.83%。

什么概念？100次该忽略的情况，它只判断对了不到7次。剩下93次，它都做出了不该做的反应。

这些模型把”判断用户说完没”练到了极致，但面对真实世界的复杂性—背景噪音、旁人说话、用户犹豫—它们基本是瞎的。

全模态大模型：”优等生”的成绩单里全是水分。

Gemini 3-Pro在动作级别看起来最风光，中英文平均准确率超过81%。看起来是妥妥的优等生。

但打开SMR的”X光”—

图注：14种细粒度意图场景下各模型的准确率和SM对比，清晰呈现”动作对但理由错”的普遍性。

mini CP-Mo-4.5：SMR在AIntn场景下高达55.93%（中文，1轮历史）。

什么意思？它”正确保持说话”的case里，超过一半是蒙对的。 它不知道用户是在”嗯嗯”还是在咳嗽还是在跟旁边的人说话，反正统统选”继续说”—碰巧蒙对了。

GPT-4o-audio：动作级别表现体面，但在Collaboration（第三方协作插入）场景下准确率不到8%。 几乎完全无法识别”另一个相关的人加入了对话”这种情况。

Qwen3-Omini：增加上下文到5轮，Side-talk（旁人对话）识别率从45%暴跌到7%。 上下文越多，反而越糊涂。

即使是全场最佳的Gemini3-Pro，SMR也在15%~25%之间。 也就是说，它每5次”正确操作”中，至少有1次是碰巧做对的。

没有任何一个模型的SMR低于15%。没有。任何。一个。

上下文越多越好？大错特错。

我们在0轮、1轮、3轮、5轮对话历史下分别测试。发现了一个反直觉的结论：

适度的上下文（1~3轮）确实有帮助。 比如帮模型分清”用户在思考”和”环境噪声”。

但加到5轮？反而变差了。 尤其在”打断”场景下，性能下降，SMR升高。

图注：GPT-4o-audio的语义混淆矩阵，直观展示模型在哪些场景间产生了意图混淆。

模型确实停下来了，但它停下来的不是因为听到你在打断，而是因为它的”历史惯性”告诉它该停了。

这就像一个老司机在红灯路口停了车—不是因为他看到了红灯，而是因为他在这个路口每次都会停。看起来一样，但本质上，一个是安全驾驶，一个是定时炸弹。

codeTT撕开的三层真相。

所有实验数据指向同一个结论：当前语音AI的turn-taking能力被严重高估了。

codeTT揭示了三层能力阶梯，现实是残酷的：

第一层：边界检测—说完了吗？ 专用控制器能做到。大部分系统止步于此。

第二层：上下文推理—为啥这样？ 全模态大模型开始触及，但远未过关。SMR无情地证明了这一点。

第三层：多方语消歧—谁在说、说给谁、什么意图？ 所有模型在这里集体趴下。Collaboration和Exclusion场景的惨淡数据就是铁证。

传统Benc只测第一层，而后宣布胜利。codeTT告诉你，战争才刚刚开始。

这对行业意味着什么？

对语音AI从业者： codeTT是第一个能告诉你”模型为什么做错了”的诊断工具。不再是”准确率低了，但不知道低在哪”。现在你能精确定位：是backchannel识别弱？是多人场景搞不定？还是上下文用多了反而过拟合？修什么，一目了然。