今日头条“灵犬”升级,算法反低俗准确率91%

上线一年多之后,今日头条反低俗助手“灵犬”又迎来一次技术升级,如今的3.0版本同时支持图片和文本识别。

今日头条在算法反制低俗内容上又进一步。

上线一年多之后,今日头条反低俗助手“灵犬”又迎来一次技术升级,如今的3.0版本同时支持图片和文本识别。只要在今日头条内搜索“灵犬”,就可以在小程序内对相关内容进行检测。

“一方面帮助创作者从源头上避免和减少低俗低质内容发布,另外一方面希望普通用户参与低俗内容打压,帮助灵犬提升能力,完善进化反低俗技术模型。”字节跳动人工智能实验室总监王长虎在现场表示。

王长虎在现场展示了“灵犬”背后的技术原理,3.0版本的“灵犬”同时应用了“Bert”和半监督技术,相比前版本的“灵犬”,最新“灵犬”准确率提升至91%,这倚赖于背后1.2个T训练数据集总量,其相当于20倍百度百科或100倍维基百科的数据总量,包含920万个样本。

与此同时,新版“灵犬”重点拓展了反低俗识别类型和模型能力,现已覆盖图片识别(反色情低俗、反血腥暴力)和文本识别(反色情低俗、反暴力谩骂、反标题党),王长虎介绍,“灵犬”后续还将支持语音识别和视频识别。

“灵犬是机器学习反低俗的产物。”王长虎说。每天,今日头条平台上发布的内容就超过60万条,这就需要引入机器学习,人提供充分的具体样本,机器经过训练就能总结出一套判断准则,从而实现自我进化。

在今日头条客户端,用户只需要在“灵犬”内输入一段文字或文章链接,“灵犬”就可以帮助其检测内容健康指数,返回一个鉴定结果。对于用户输入的内容,“灵犬”会先进行提取、分词和语义识别,然后根据相关规则, 输出对应的分数、评级和结论。图片和图片链接检测同理,用户在“灵犬”内上传图片或图片链接,即可快速获取鉴定结果。

“灵犬”运用的具体解决方案,是深度学习。“我们分别在数据、模型、计算力等方面做了很多优化。”王长虎说。数据层面,“灵犬”已累积上千万级别的训练数据。模型层面,“灵犬”针对许多困难样本做了模型结构调优,尝试解决多尺寸、多尺度、小目标等复杂问题。计算力层面,“灵犬”利用分布式训练算法以及GPU训练集群,加速模型的训练和调试。

​​

图注:字节跳动人工智能实验室总监王长虎分享“灵犬”背后的技术原理

但机器学习并非万能,尤其是相比于文本识别,图片识别的难点在于,低俗图片占整体图片内容的比例较低,低俗图片的种类丰富、繁杂,构成低俗图片的特征千差万别。此前Facebook也因为不显示裸体照片为由,封杀了一张越战时期著名的照片,照片中越南女孩赤裸身体惊恐奔跑。

因此现阶段仍需要人工识别加以判断,“灵犬”助手和人工识别的关系,就像警犬和警察,警犬在跟踪可疑物上比警察灵敏,但警犬是警察的管理者。

比如技术暂时难以制定标准的案例:世界名画中常常出现裸体女子,如果完全交由机器判断,机器通过识别画中人物的皮肤裸露面积,就会认为这幅画是色情低俗的;而某些拍摄芭蕾舞的图片,以机器的视角来看,其实类似于裙底偷拍。

事实上,在移动互联网时代,打击低俗低质内容,是互联网巨头面临共同难题。不管是国外的Facebook、Google,还是国内的微信、今日头条,都在寻求解决方案。

从2012年以来,今日头条内部搭建了反色情、反低俗、反标题党、反虚假信息、反低质等数百个模型,并投入近万人专业审核团队。当前,“灵犬”建设了比较完善的模型迭代系统。通过“数据收集—数据标注—数据清洗—模型训练—模型评估—badcase分析”这一套完整的流程,持续做优化。

打开APP阅读更多精彩内容