人工智能 · 2024年1月30日 0

计算机视觉:技术与艺术实践

从1956年的达特茅斯会议起,人工智能就深深地烙印在了IT技术的发展史上。60余年的发展、沉淀,已是“AI技术万口传,至今已觉不新鲜”。从概念到实践,从技术到产品,AI技术已经在智能客服、智能家居、医疗诊疗、工业机器人、无人驾驶等领域多点开花。

计算机视觉技术堪称AI皇冠上的一颗明珠,不论是在技术深度还是商业应用方面都走在了行业的前沿。9月5日,腾讯云TVP AI技术闭门会遍邀计算机视觉领域的技术大咖、专家学者、资深从业者们一起线上论道,层层深入解构计算机视觉技术,从个性化的商业化实践中探索共性化的发展方向,为行业进一步发展勾勒出潜在的蓝图。

面向规模化落地的视觉AI技术

“视觉AI技术严谨的叫法是计算机CV,在过去,AI是AI,CV是CV。最近几年伴随着深度学习的火爆,开始逐渐有了统一融合的趋势,所以有了现在的视觉AI。在To B领域,视觉AI技术已经渗透到了众多行业,开启了一轮规模化的落地之旅。”

优图实验室-昊天研究中心负责人 & 专家研究员郭晓威老师向与会者介绍了视觉AI技术的历史起源。他表示,视觉AI的基本任务就是读懂图像,目前为大众所熟知的商业化应用案例包括人脸核身、内容理解与广告推荐、泛娱乐、内容审核等方向。目前尤其是在教育、工业、支付、广电等行业有深度结合。

郭晓威表示,影响AI规模化、商业化落地的因素无非就三个:成本、安全和数据。

成本 :数据、设备、人才、市场培育与开拓,这些都需要大量资金的投入,成本高昂。

安全 :精度和可靠性,在某些领域比如医疗行业,AI能给的只是参考,对解决医生痛点的帮助不够大。

数据 :AI需要的数据尤其是细分场景数据的获取难,标注难,此外数据隐私的问题也是一大掣肘。

细分之下,又有5大规模化落地挑战需要解决。

挑战一:标注成本过高,如何降本增效
业界曾有过一种自嘲的说法叫有多少人工,就有多少智能。这一句话道出了标注成本过高的痛点,如何用技术的手段实现降本增效?郭晓威表示主动学习是一个有效的解决方式。主动学习的好处是不需要进行全量标注,经验下只需要小于标注总量的一半即可,这个过程可以边学习,边筛选,直至收敛。为此,他举了一个优图实验室在智慧医疗场景下糖网分级识别的案例。在这个案例中,腾讯优图基于信息熵与特征空间密度的主动学习,做到了同等效果下,标注成本节省超过一半,标注量级达到数十万时,节省成本可达百万级。

挑战二:数据量太少,训练效果差,怎么办
第二个挑战在于数据量太少,影响到训练效果。在To C场景下,数据的获取方式相对容易,数据量也比较大,但在To B场景下却完全相反。这种情况下,样本增强,小样本学习(Few shot learning),GAN等技术就比较值得推荐。尤其是小样本学习,支持极少量样本训练,最大化利用存量的样本,以实现最大可能性的泛化效果。在货架商品识别与小样本学习技术方面,腾讯优图提出了样本构成、损失函数和后处理三个相对业界主流方案的创新点,实现了相对优化前提升10-30个百分点,与全量样本差距小于10%的显著效果。

挑战三:数据太少,伪造行不行?
第三个问题其实是对第二个的追问,能不能通过数据生成的手段,或者说伪造数据的方式来弥补数据的不足。GAN是最近几年比较火的对抗生成技术,它的本质其实就是通过生成器来学习符合目标分布的数据,也就是所谓的“无中生有”。郭晓威表示,如果GAN的结果符合目标的真实分布,还是能起到一些作用。但是这种作用可能还是分场景,不见得每个场景都一定会有很好的效果,所以需要小心的设计。

郭晓威提到一个车型识别的案例:白天场景下的车型识别对AI而言相对轻松,但在夜晚场景就难度陡增。一是因为这类数据量相对较少,另一个是光线昏暗也不利于人工标注。优图实验室的解决方案是利用CycleGAN的技术,通过大量使用白天数据自动生成、模拟夜晚数据,然后将模拟后的夜晚数据与真实夜晚数据混到一起训练,最终成功使夜晚识别效果大幅提升。

挑战四:商业场景多变,AI泛化能力差,调优又太慢
技术上而言,在一个特定场景下训练出的表现效果可以做到非常好,但换了场景以后效果就直线下降。解决方案上,技术手段要做场景迁移,常用的手段就是迁移学习,最简单的就是把目标数据标完之后再进行训练。但这种情况下需要大量的标注数据,从采集标注到训练,通常也需要较长周期。郭晓威推荐了领域自适应技术,可以快速适应新场景,具有成本低、效果好、普遍适用等优势。

优图实验室针对领域自适应技术,提出了一个创新的ReID技术,具体原理及效果如下图所示:

挑战五:AI需要海量数据,如何保护客户/用户隐私?
AI的成长需要海量的训练数据,从场景中来的数据能让效果最大最优化。但通常场景中的数据也涉及一个隐私问题,很多时候用户数据不能离开本地。有没有办法既能满足AI的训练,又能够保护用户的隐私呢?郭晓威分享了一个名为AceCV系统,它可以支持本地数据训练,模型自主进化与集成,实现方案基于领域自适应与模型集成等技术,完成端+云升级。

与联邦学习相比,AceCV系统不需要传数据和梯度,只需低频进行模型回传,同时具备自主进化模块和模型集成模块,保证场景模型持续低成本迭代、联合多场景优势升级云端模型。优图实验室去年创新地提出了滤波器嫁接技术(Filter Grafting),可支持多模型之间取长补短,互助升级。

分享结束后,郭晓威老师还针对留言区提出的问题作了精彩解答。

腾讯云视觉AI的商业化产品实践探索

“顶天还是立地,改变世界还是努力赚钱?这是我本次分享的副标题,也是我们想与业界一起探讨的问题。”

腾讯云AI视觉产品中心总经理王磊向与会者完整地分享了腾讯云AI目前所处的位置与所做出的成果。他介绍到,腾讯云AI是腾讯AI的商业化出口,在底层的算法、云资源层面,有包括腾讯优图、微信AI、AI Lab、音视频实验室在内的一系列顶级实验室和海量的服务器、GPU/CPU等资源;在平台和产品层面,包含泛娱乐平台、工业AI平台、广电传媒AI中台、内容审核平台四大平台,提供文字识别、人脸识别、图像识别、知识图谱、AR/VR等一系列丰富产品;在生态层面,围绕开发者社区、培训、竞赛、AI加速器、众创空间、专项合作计划为行业提速。

腾讯云AI在商业化落地的探索中,不断踩坑填坑,一路成长,积累了可供业界参考的宝贵经验。王磊将其总结为四大阶段:确定方向、孵化产品、打造标杆、推广复制。

确定方向
确立方向是第一个环节的工作,简单来说就是选择做什么。道路千万条,胜利第一条。选择方向错,团队两行泪。腾讯云AI的做法是首先对行业的关键流程或重点问题进行深入的分析,推演应用方式和商业模式。比如在教育行业,可以从核心的教、考、管、育的教学流程中去寻找AI的应用场景,最后发现使用人脸识别可以帮助学生非常方便的完成网课的登录,不需要再去设置密码,而且天然地带有身份认证,避免了代打卡、*等情况。

孵化产品
这里主要考虑两个问题,一是技术是否可行;二是产品的价值是什么,特别是和竞品比,产品的差异化或者优势是什么。王磊以腾讯慧眼的案例拆解了孵化产品这一步的核心问题,可以看到,慧眼人脸核身的四层设计形成了这样一整套立体化丰富的安全的刷脸系统,具备较高的商业价值和广泛的应用场景。目前国内市场上,慧眼是份额第一的人脸核身产品。

打造标杆
标杆的打造也是检验产品的过程,产品是不是一个好的产品,关键要看产品是不是真正为客户创造了价值。只有好的价值才能获得客户的认同,才会有后续的、持续的、健康的使用和付费。

腾讯云AI的标杆客户不胜枚举,王磊表示微众银行是一个比较典型的客户案例。微众银行是国内首家互联网银行,微众的远程核身流程应用了腾讯云慧眼人脸核身技术,在总理视察微众银行时当场见证了人脸核身的演示,经过媒体报道以后慧眼有了更多的客户慕名而来。

王磊指出,标杆的打造不是一锤子买卖,所谓隔行如隔山,在某些重要的行业仍旧需要头部企业的背书以为产品带来更高的认可度。中国联通就是腾讯云AI在电信运营商领域拿下的首个头部标杆客户,腾讯云AI也为其提供了显著的降本效果。

除此以外,王磊还提到了深圳市的政务场景以及直播场景中的斗鱼公司等案例,揭示了腾讯云AI在增效、合规等方面提供的客户价值。

推广复制
推广复制环节背后的问题很复杂,但核心提炼下来其实就一个词:增长。它和市场的供需、产品的价值和产品的特点都密切相关。王磊表示,想要做好增长首先需要想清楚三个问题:

目标客户:目标客户是谁?目标客户所在的行业是哪些?客户是什么类型?是谁在使用它?是谁在给它付费?

定价策略:策略是利润最大化还是收入最大化,是要去抢占市场份额还是要去拉动活跃用户?

复制效率:如何把产品快速地卖给新客户,并完成交付。

只有想清楚了这几个问题,并做好针对性的设计,才有可能在商业化产品的实践探索中找到可持续发展的方向。

王磊总结道,确定方向、孵化产品、打造标杆、推广复制背后有一条暗