工业界内容审核系统构建

P.S. 还有少量数据&工程HC,欢迎推荐和自荐,关注该公众号->人才招聘,获取更多信息。

背景

目前,随着智能手机的普及,几乎人手一个智能手机,并且上网的费用也越来越便宜,这就导致内容的生产以及内容的传播变得非常方便,有一种说法就是东北的产业,主要是主播和烧烤就是在这样的大背景之下产生的。

同时,从增长飞轮的角度,内容也是非常重要的环节,很多的互联网产品如抖音头条,小红书,快手都是这样。都是优质内容增长,带来流量增长,流量增长带来收入的增长,而收入的增长又可以反哺激励内容创造者带来更多的优质内容,形成正向的内容生产循环,所以,内容,特别是优质内容就变得越来越重要。

图:内容增长飞轮, 更多流量带来更多创作者, 更多创作者生产更多优质内容,优质内容带来好的用户体验,产生更多流量,同时更多流量可以进行商业化变现,这些收入可以用于内容生产者的激励,以便产生更多内容形成正向循环。

而每个内容平台也会有自己内容的调性和定位,例如,抖音是用户年轻内容清晰;快手是搞怪奇特;小红书是白领年轻有品位;B站是二次元。

此时,内容平台会面临一个巨大的挑战,就是内容的合规性和质量保障,比如平台的内容必须符合国家的法规,否则,就不仅仅是内容质量问题了,而是犯法的问题可能会面临国家的严重处罚,一条内容有问题导致整个平台完蛋的例子也不是没有。

在这样的大背景下,生产的内容需要保障其调性和质量。这就需要构建完整的内容审核平台来对内容的合规性和质量进行审核。每一个内容平台都会在审核上投入大量的产业以及外包审核人员。

甚至有一种说法是字节跳动的内容审核团队一直在增长,有上万人的规模, 类似于B站等都有小几千人的审核员。在这样的环境下, 如果构建一个算法+人工的审核平台, 最大化提升审核效率同时保障内容质量, 降低内容带来的风险就尤为重要。

审核具体的工作范畴

审核就是一个专家系统打标签&决策的过程

绝大部分的数据处理工作,例如数据挖掘,文本分析或者图像语音分析,我们都可以将其视为一个打标签的工作。审核也不例外,我们可以认为,审核就类似一个信息专家系统,是不断地打标签的过程。

例如,审核的内容是不是合规?内容是不是优质?都可以说一个打标的过程。

再简单一点,我们可以将其视为一个不断使用规则进行二分类的过程:不断用不同的规则检查是否通过?YES OR NO。是否优质?YES OR NO。

审核是一个算法与人工配合的过程

一方面, 是否违规,内容是否涉及黄赌毒, 是否涉政, 这些都是相对明确禁止的;如果UGC内容中出现这些内容, 直接判定审核不通过就可以。

但更多的情况是针对不同的业务, 需要判断内容是否符合内容调性, 质量, 这时候就会存在很多灰色的部分, 机器很难做到100%覆盖, 此时就需要机制引入人工审核。例如LBS场景中,内容中不能出现广告, 但评论中对某个门店露骨地使劲夸, 这样算不算广告?如果不算, 那如果发评论的人经常夸这个店呢?

又或者内容本身没什么大问题, 但被评论的POI是一个高风险的类别呢, 例如‘按摩’ 这个类别风险比较高, 那需不需要人工审核呢?

所以, 在机器无法完全判黑, 或者在识别存在潜在风险的情况下, 需要引入人工审核。 审核系统永远是算法 + 人工的组合。算法无法做到全自动化。

从这个角度构建审核系统, 更像是构造一个专家系统的过程,并不像搜推广一样倾向于使用端到端解决问题。这一点和搜推广有本质区别。

审核是一个需要分级处理的过程

为什么需要分级呢?主要的出发点,还是审核的计算, 人力资源有限, 需要将资源投入在最重要, 最需要审核的环节。

这里的分级, 包括用户的分级, 以及待审核内容的分级,如果做的精细化, 还需要根据具体审核人员根据审核质量的分级。

工作中的一个方法论:只要(而且是必然)资源有限, 就需要进行分级,而且只要存在2/8原则, 就能够分级进行处理。很简单超级有用的思维模式。

  • 用户分级:此处需要对用户进行分级, 根据C端内容提交用户的活跃程度,账号存在时间, 对内容的正向贡献, 或者负向内容提交的比例等, 对用户进行行为信用分级, 总的思路是信用好的用户审核偏松, 信用差的用户审核偏严格。思路比较直接, 一直做好人好事的C端用户, 有理由相信他作恶的概率较低, 反过来有前科的用户就要重点关注了。

  • 内容分级:例如涉黄涉政这种原则问题, 直接审核不通过, 而一些模棱两可, 例如可能是偏营销的内容, 则审核要求会没有那么高。

  • 影响面分级:如果一个评论发表后, 预估看到的人会比较多, 则这条评论审核通过后的影响面会比较大, 则需要投入的审核资源要多一些, 而如果预期这条评论审核通过后, 看到的人会比较少, 则影响面相对较小, 此时投入的审核资源也较少。

  • 生效手段的分级:在审核内容生效后, 需要综合考虑用户分级, 内容分级, 影响面分级确定生效手段的分级。例如高风险的内容, 但没有触发明显的规则, 则可以小流量试投, 低风险的则可以直接全流量。

在经过必要的安全审核和机器自动审核后, 就会根据以上前3个维度, 将内容审核分发至不同的审核流程分支, 之后决定生效手段:有些内容可以直接上线 ,有些需要人工审核, 有些则可以小流量试投。

审核的内容划分

从具体审核的内容的角度来看,我们可以将审核的内容分为安全审核和业务审核两类:

  1. 安全审核:就是看待审核的内容,是不是触犯法律法规.例如,是不是涉及黄赌毒?或者内容是不是侵权等,这是原则问题, 一旦触碰, 直接将内容干掉, 没有任何余地。

  2. 业务审核:主要看内容是不是符合平台的规则和调性,例如,内容可能有长度限制,图片可能有尺寸或者图片内容的限制,或者想中提到的一些调性的限制。

在大公司一般安全审核会有专门的平台或中台团队来支持,一般审核内容更多的指业务审核。

对审核平台的要求

  1. 准确性:一般审核平台对准确性有较高的要求,很多平台出问题,不管是法律风险或者舆论风险,可能就只是因为一条内容内容,所以一般审核平台对准确性有较高的要求。

  2. 审核效率:从内容创造者的角度,他希望自己发布的内容很快能被C端用户看到,那种平台的角度,很多内容是具有时效性的,需要具有很强的新鲜度,所以审核效率是很重要的一个考量因素。这里面还需要考虑的一个点,就是机器审核的占比在审核平台当中,我们不能过多的投入人力资源,人力资源,人力资源是比较贵的。

  3. 可扩展性:内容支持的形态和字段都会不断的在变化或者扩展,所以平台需要具有一定的可扩展性

审核逻辑必须规则化

这里要重点说一下,在审核平台当中,技术体系和业务体系的关系:

我可以说,在审核平台当中,还是以业务体系为主导的,最终,我们在审核过程当中,都是将逻辑抽象成一组组的规则,然后去用规则去判定内容是否符合规则,之后用这些规则去对内容进行达标分级,我们可以认为是我还是以规则驱动的,从这个角度来说,审核平台更新是一个专家系统。

只是在判定是否符合某条规则的时候,需要有很强的技术性,甚至里面会包含多个执行单独任务的模型,例如,以下规则的判定就需要很强的技术能力,甚至每个条件的判定都是一个单独的算法模型,甚至会用到深度学习:

  • 图片中是否包含广告字样内容,中间可能需要使用到OCR的文字识别引擎。

  • 是否为截屏图片,需要去识别图片当中各部分的组成,有没有投入的时间信号等各种要素。

  • 图片中是否包含色情内容,内容中是否以人像为主体,这会涉及到图像识别和分类

  • 图片中是否包含建筑,是否是一个加油站的图片,或者说是一个门店的门脸。

以上这些规则都很简单,但是要实现的时候都需要使用图像识别的模型来解决判定。

简单来说,就是整体审核或是一个规则系统,所有的审核逻辑都通过规则进行串联,只是规则的判定会使用到算法模型。

系统架构

图:审核系统算法架构图

整个审核系统从业务逻辑的角度,主要要包含以下部分:

  1. 安全审核,例如是否黄赌毒是否涉政,一旦命中,直接干掉。

  2. 机器审核,将规则引擎中的审核规则都按照合适的顺序过一遍,命中黑规则的直接干掉;其余的打上灰或白的标签,供后续走不同的分支使用;从业务的角度,可能还需要区分是否优质,是否高质量,这个和具体审核系统的业务逻辑相关。

  3. 派单人工审核:根据机器审核的不同结果,再结合影响面和用户信用的分类,确定是否需要人工审核,以及线上投放的话,需要按照什么样的流量比例进行投放。例如,提交内容的用户是优质用户,而提交的内容预估影响面比较小,同时,机器审核的时候没有命中任何违规的规则,这这条内容甚至可以不过人工审核;如果预估这条内容审核通过后,影响面比较大,则需要进入人工审核的流程。

  4. 线上投放:一条评论经过机器审核,而如果因为内容创作者的信用比较好没有经过人工审核,此时,满足上线条件,我们可以先让这条内容小流量上线,如果小流量上线之后发现用户的观看比较多,则可以让人工再次进行审核;如果上线之后流量比较小,则人工无需再次进行审核。

  5. 定期机器巡查:有时候内容是否违规,需要综合内容创作者在多天在不同poi上的行为来进行综合定,这样的判定规则是无法实施实现的,所以我们需要对已经上线的内容进行定期的巡查,把这种单挑没有问题,但汇总起来就有的问题给干掉。例如,有的用户会在同类型不同的POI上都发表相同的评论,我们需要在单条审核通过的情况之下,批量的把这一类评论下线。

  6. 人工抽查:需要对线上审核通过的评论进行定期的抽查,以检查审核的准确度。

其中,在审核&决策部分,需要综合考虑用户信用等级,内容影响面, 内容质量确定是需要进入人审, 还是进行线上小流量投放, 还是直接正常投放。这是加速审核逻辑非常重要的核心思想:将有限的审核资源投入到影响面,风险最大的内容审核上。

图:审核&决策思路,在进行完用户信用分级, 内容质量分级, 内容影响面分级后, 就会根据这三个要素维度进行接下来的审核决策, 图中仅展示了用户信用为高的用户路径,红勾代表需要人工介入审核, 例如内容影响面较大,而内容质量一般就必须人工审核,而对于高信用用户,影响面偏低的内容,过了基本的机器审核后, 就可以直接上线投放。

审核元素的设计

上面也提到,在进行审核平台建设的时候,我们需要考虑平台的扩展性。我们可以简单的将社会平台看成是一个规则的系统,所以为了扩展性,我们需要抽象规则的定义以及作用于规则的逻辑。以便能够灵活地增加各种字段以及这些字段上所作用的规则。

我们可以使用xml或者json这样的格式去描述对应的字段,以便接字段以及其上的规则,可以进行灵活的扩展。

同时,对于审核的各种基础算子,我们可以进行抽象,以便在不同的字段,甚至不同的业务里边都可以服用这些具体的算子。

评价&优化

审核系统就类似于球场上的后卫,他和前锋不一样,我们很难去评判他对业务的直接贡献,但是我们可以通过机器审核的比例的提升,以及审核人力的减少去评估系统效率的提升。

同时,有些系统可能比较注重审核的时效性,在这样的业务场景审核的时效性也可以纳入指标统计。

另外,做审核系统的一个经验就是审核系统是非常CASE驱动的,所以做审核系统的同学,一定要细致的去看各种CASE,不过,幸运的是,一般某几类CASE就会占到问题的大部分,所以我们可以开始先解决头部问题,先解决容易的性价比高的问题,之后再去精细化的构建其他审核规则完善系统。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注