【TechWeb】5月8日,奇富科技在今年早些时候发布的首个面向信贷场景的多模态评测基准FCMBench-V1.0之后,再次推出了专为信贷场景设计的视频评测任务FCMBench-Video-V1.0。该项目旨在通过视频评测推动信贷AI的评估,从“看懂证件”向“理解过程”迈进。这一新方法为信贷场景中的视频理解能力确立了可量化的新标准,标志着AI评测从“静态识别”向“动态研判”的重要转变。

一张精心制作的证件照片可能会通过静态审核系统,但一段手持拍摄的连续视频却能揭示更多:人物动作的连贯性、光照变化的连续性、聚焦的漂移过程,甚至纸张翻页时的物理褶皱,这些自然带来的真实信息极难被伪造。
FCMBench-Video正是基于这一特征,将多模态大模型的评测从二维图像提升至三维时空。
如果FCMBench解决了“模型能否理解静态证照”的问题,那么FCMBench-Video则关注更具挑战性的能力边界。视频不仅提供了更多的画面,还引入了时间维度,并在时间轴上构建信息的方式。模型不仅需要识别内容,还必须理解这些内容何时出现、是否重复出现、与前后信息是否一致,以及在复杂干扰下是否能保持稳定判断。这些能力直接关系到反欺诈链条中的关键环节,也是传统评测体系难以覆盖的盲点。
例如,在一段视频中,同一证件反复出现,模型需要学会“去重”,不能简单地计数;如果多份文件连续出现,模型则需“对账”,比较它们之间是否存在矛盾;在出现风险时,模型还能根据具体画面做出判断。这些已不再是简单的识别,而是对记忆、推理和判断能力的综合考验。
FCMBench-Video还创新性地加入了“防忽悠”测试,专门检验模型的反欺诈能力。在测试中,研究人员会在视频的末尾故意添加“已核实通过”等误导性提示,以观察模型是否能忽略之前发现的风险。测试结果显示,不同模型的反欺诈能力差异显著,并且目前尚无通用方法能够规避此类误导。这一发现突显了视频AI模型的安全性需要专项测试和持续优化,同时为行业技术迭代指明了方向。
在数据构建方面,FCMBench-Video延续了源于业务、服务于业务的原则,同时在真实性与合规性之间进一步平衡。通过模拟真实拍摄过程,结合多种现实环境下的画质变化,构建出不同复杂度的视频样本,使得评测既具备真实世界的挑战性,又避免涉及敏感信息。这种方法不仅确保了评测结果的参考价值,也为行业提供了一条可复制的数据构建路径。
整体评测结果显示,当前主流的视频多模态模型之间仍存在较大能力差距,即使是表现最优的模型,在关键任务上也未达到可以直接应用于生产环境的水平。这表明,视频理解能力在信贷场景中的落地仍处于早期阶段,进一步证实了FCMBench-Video在能力区分度上的强大,能够准确衡量模型的真实水平与提升空间,为企业技术选型和科研机构的研究提供权威参考。
作为FCMBench评测基准的重要组成部分,FCMBench-Video延续开放共享的理念,配套的数据集与工具已同步开源,旨在吸引更多科研工作者和行业机构参与信贷AI能力建设,为信贷AI的实际应用搭建稳固的桥梁。
需要指出的是,当前版本的FCMBench-Video所覆盖的文档视频分析,仅为信贷场景分析任务的细分维度之一。本次任务的设计提炼自奇富科技当前迭代中的视频尽调AI产品。视频尽调不仅要求模型具备准确的文档内容理解能力,还需对企业经营现场进行全面评估,包括厂房环境、生产设备、原料库存、工艺流程和人员作业状态等关键维度,从而推演企业的真实经营状况、偿债能力及潜在经营风险。这类实际业务需求对视频尽调AI模型的产业化落地提出了更高的标准和全新的挑战。
FCMBench-Video所构建的评测方法论,能够助力复杂视频尽调场景构建核心技术基础,推动多模态信贷AI评测从“理解一张图”升级为“理解一座工厂”,逐步完善覆盖信贷全业务流程的评测能力体系,实现评测基准源于业务场景、赋能业务落地。