张枫:计算机视觉技术在虎牙直播中的实践
分享嘉宾:张枫 虎牙 计算机视觉算法工程师
出品平台:DataFunTalk
导读: 大家好,我是张枫,来自虎牙公司内容安全组。虎牙公司作为国内知名的直播平台,在直播游戏化技术、虚实融合内容生产方面积累了丰富经验,为了给观众创造绿色安全的网络环境,计算机视觉技术在虎牙得到了广泛的应用。本文将从内容安全方面作为切入点,跟大家交流计算机视觉技术在虎牙直播中的实践经验,内容将围绕以下四方面进行阐述:
- 项目背景
- 常见内容风险
- 图像识别算法实践
- 未来展望
01 项目背景
在直播和短视频平台,图像相关的业务场景非常丰富多样,主要包括头像类、视频类、直播类、聊天图类等。上述业务每天会生产丰富的音视频内容,不可避免地会出现一些不适合直播的内容,如音频、视频、图像中的涉政红线、涉黄低俗、暴恐敏感、广告版权、其他违规等。我们通过精细化标签,对风险内容进行快速召回。亿级别量级的数据,全违规覆盖,我们做到了秒级别的响应。
以图像为例。业界内容安全审核方式主要有3种:滞后审核、实时拦截、实时屏蔽。
第一种,滞后审核指由机器发现高危图像,继而推送给人审, 最终由人审执行处罚 。其优点为人审处罚避免机器误杀;缺点为响应速度较慢,一般取决于人审的响应速度。
第二种,实时拦截指 由机器发现高危图像后,直接进行处罚。 其优点是响应速度快,减少不良信息暴露的风险;缺点是误杀影响用户体验。
第三种,实时屏蔽, 机器发现高危图像,并对图像中违规的区域进行打码模糊 。其优点为响应速度快,用户无感知;缺点是对算法要求高。
02 常见内容风险
常见内容风险很多,ppt罗列了几种典型的风险。如涉政类,包含涉政人物、涉政标志、涉政事件、涉政文字等。涉黄类、涉恐类、违禁类、广告类等如下所示。每个大类的违规细类别种类繁多,单一技术方案无法全覆盖,一般需要图像识别、图像检测、人脸识别、logo识别、文字识别,以及其他技术综合处理。
以涉黄低俗类为例,大家一起看下常见案例。
- 常规案例 ,特点是低俗主体明显,处于中间位置,占图像面积比例较大。
- 困难案例 ,特点是低俗主体隐晦,目标区域较小,图像内容复杂。
- 其他违规类别也大同小异,复杂多样的违规案例,给我们带来了很多挑战。
03 图像识别算法实践
下面将为大家介绍我们的图像识别算法实践,以及工作过程中遇到的一些难点。
在单帧图像维度,我们希望做到精准识别,不断提升召回,降低误报,对badcase能快速召回。在业务维度,我们希望做到通过通用算子的编排能力,快速满足各个业务需求。
为了完成上述目标和挑战,打击上述各类风险,我们构建了Skyeye天眼系统 。本图为天眼系统整体的系统框架图。
当业务接入天眼时,我们获取到具体的业务数据,一般为图像或者视频。由数据处理模块,进行截图拉流、视频分片、图像处理、业务分流等操作;再经过特定业务入口输入算子流程,输出对应的识别标签,按规则推送至对应业务出口,一般为人工审核、实时审核、实时打码三种。这就是一个普通业务上线的总体流程。
上述流程的核心是算子构建与算子编排 。当业务方提出需求时,先评估现有算子是否满足要求,若不满足,则积累业务数据,进行算子构建。待该算子效果评估通过后,结合其他现有算子进行算子编排,拟定适合特定业务的算子流程。灰度数据进行数据验证,若满足要求则开始推送,不满足则反馈迭代,进而形成闭环。
以上是天眼的系统框框架介绍。下面将介绍一些算子的构建方法。
目前,涉黄低俗类为主要打击对象。 我们对样例进行分析,大致分为两种 :第一种图像主体明显,一般采用 【多标签+多分支】 的方法。而第二种,图像主体隐晦,以画中画、小框图、表情包等形式出现,一般采用 【检测+分类+搜索】 的方法。
针对常规样例,我们采用 【多标签+多分支分类】 的方法。
①由于涉黄低俗类属于小样本,我们会人工扩充部分样例。业务数据+爬虫数据。
②单张图,我们为其打多个标签。例如样例1,性感、腿部、人体前景框、人体掩膜等。分类标签采用人工标注与机器打标方式进行,而人体前景框与掩膜区域采用预训练模型进行打标。
③模型结构采用的主干网络+注意力模块的形式,经试验发现,注意力模块热力图更聚焦于身体部位。
④模型推理时,可同时输出多个标签,综合多个标签输出结果,这种方式在一定程度上增加了识别准确率。例如,一级标签属于大类,图像一致性较弱,对应的召回率高,但准确率较低;二级标签属于细粒度标签,图像一致性强,准确率较高,召回率较低。当一级分类标签与二级分类标签不冲突时,才作为类别命中。以上就是常规样例的技术方案。
针对困难样例,我们采用 【检测+分类+搜索】 的方法。
①我们需要多阶段构建算子,训练检测网络与抽特征网络,建立特征索引库。
②采用检测算子筛选候选框,去除了多余的背景干扰,使后续抽特征算子更易于聚焦目标抽取特征。
③抽特征算子同时输出分类类别(有泛化性)与特征向量,特征向量与搜索库比对,输出索引类别。多输出进行逻辑组合,输出最终类别,这也是模型集成的思想。
④构建搜索库的优势是,特征可以快速入库,处理误召或者漏召案例。
相比于涉黄低俗类数据,涉政、暴恐类数据更少,某些特定类别只有几百的原始数据。我们在实际应用中,发现部分类别在跨域识别的表现极差。原本在业务A表现良好,迁移到业务B上表现不好。分析原因是由于,训练样本少且业务倾向性较强。针对上述问题,我们采用了多任务形式构建分类算子。
⑤训练时,分类任务我们一般用backbone + attention作为主干网络,同时多个任务共用一个主干网络,扩大主干网络的训练数据量。
⑥假设,需要对任务1进行微调,则只需微调分支网络,可快速迭代。
⑦模型部署时,共用主干网络,便于单卡多模型部署。
⑧推理时,对多个输出进行综合判断,提升单帧图像的准召。
某些标签难以用单一方法进行召回,如游行图像。我们尝试过上述方案,准召情况不理想。后分析具体数据,我们发现 可以通过综合图像多个元素,进行逻辑组合确认游行类别 。如图一,单一分类模型将赶集图像命中为游行图像。图二,为召回游行案例,我们通过对单帧图像进行多维度理解,输出游行标签。即命中多人聚集标签,且命中敏感旗帜标签,即为游行。
我们统一了各类算子的接口,实现在整体流程中即插即用的功能 。下面以一个具体业务的例子来说明天眼系统的实际应用。
该典型案例是,某业务需对军装类、禁播游戏类、软色情类等数据进行拦截。分析业务场景与需召回的违规样例,使用到了以下算子:流量算子、场景分类算子、图像缩放算子、禁播游戏算子、软色情算子、涉政军算子、逻辑脚本算子。经算子编排,如上右图所示。
每个业务均有一个固定的业务流量入口。
- 流量算子 :用于控制流量大小,同时可对品类信息,地域信息等进行过滤。
- 场景分类算子 :输出不同场景,如游戏类、影视类、户外类、窗口类等多个类别。举个例子,大家可以看下上图左下角这个样例,它实际是该业务必须要找回的一个禁播游戏的案例,若命中游戏类,则数据流向左边,进行图像缩放到适合下个算子的大小,最终由禁播游戏算子命中某类游戏,进而上报高危类。
上述方案优势为 :节省资源(不需要并行过所有违规),多维度理解提升准召;通过算子编排,快速满足各个业务需求。
图像识别算法在内容风控的实践可由上图进行总结:我们通过构建精细化算子标签,加上灵活配置的策略,在各个业务实现了对违规数据的高召回率与低推送率。
基于上述方案,我们在某业务上,2021年整体违规召回率>95%;全类别违规推审量<0.001。下方为部分困难样本的精准召回。图1为敏感网站的广告图;图2为手机里的一些小电影的封面;图3与图4为微信聊天图与表情包。
基于在各类业务的成功试验,我们也对现有能力进行了开放,开放能力主要涵盖图像安全、文本安全、音频安全、视频安全等这几个大类,欢迎大家使用!
04 未来展望
在内容安全方面,目前常用的依旧是滞后审核,与实时拦截的方式。 具有滞后或影响用户体验的缺点。随着不断迭代技术,我们希望可以做到实时打码,即机器发现高危图像,对图像中违规区域进行打码模糊。优点为响应速度快,减少不良信息暴露风险,用户无感知。以下是我们做的一些工作。
某业务的胸线实时打码,降低低俗类暴露风险。
某业务的文字实时打码,降低涉政类文字的暴露风险,不影响用户的观看体验。
05 精彩问答
Q:涉黄暴恐,大概推理用的多少个服务器?
A:我们是多云部署,单个云高峰期的图像量依赖于主播开播的数量。常规模型吞吐量为56K每分钟,具体多少服务器,按图像量级去换算。
Q:图像长宽高比差距较大时如何处理?
A:以直播图像为例,获取图像一般有两个来源,PC端或者手机端。这两种来源的图片一般都会有较固定长宽比。如果有不同的大小,我们会在模型推理之前做统一的图像预处理。
Q:文字安全怎么处理?
A:弹幕类数据,一般采用自然语言的方法处理;嵌在图片里的文字,一般要采用OCR+词库,或者OCR+NLP的方法处理。
分享嘉宾: