今日头条“灵犬”升级，算法反低俗准确率91%_

今日头条“灵犬”升级，算法反低俗准确率91%

2019/07/31 16:43「蓝洞商业」的团队曾供职《中国企业家》杂志，坚持价值写作。来自北京

上线一年多之后，今日头条反低俗助手“灵犬”又迎来一次技术升级，如今的3.0版本同时支持图片和文本识别。

今日头条在算法反制低俗内容上又进一步。

上线一年多之后，今日头条反低俗助手“灵犬”又迎来一次技术升级，如今的3.0版本同时支持图片和文本识别。只要在今日头条内搜索“灵犬”，就可以在小程序内对相关内容进行检测。

“一方面帮助创作者从源头上避免和减少低俗低质内容发布，另外一方面希望普通用户参与低俗内容打压，帮助灵犬提升能力，完善进化反低俗技术模型。”字节跳动人工智能实验室总监王长虎在现场表示。

王长虎在现场展示了“灵犬”背后的技术原理，3.0版本的“灵犬”同时应用了“Bert”和半监督技术，相比前版本的“灵犬”，最新“灵犬”准确率提升至91%，这倚赖于背后1.2个T训练数据集总量，其相当于20倍百度百科或100倍维基百科的数据总量，包含920万个样本。

与此同时，新版“灵犬”重点拓展了反低俗识别类型和模型能力，现已覆盖图片识别（反色情低俗、反血腥暴力）和文本识别（反色情低俗、反暴力谩骂、反标题党），王长虎介绍，“灵犬”后续还将支持语音识别和视频识别。

“灵犬是机器学习反低俗的产物。”王长虎说。每天，今日头条平台上发布的内容就超过60万条，这就需要引入机器学习，人提供充分的具体样本，机器经过训练就能总结出一套判断准则，从而实现自我进化。

在今日头条客户端，用户只需要在“灵犬”内输入一段文字或文章链接，“灵犬”就可以帮助其检测内容健康指数，返回一个鉴定结果。对于用户输入的内容，“灵犬”会先进行提取、分词和语义识别，然后根据相关规则，输出对应的分数、评级和结论。图片和图片链接检测同理，用户在“灵犬”内上传图片或图片链接，即可快速获取鉴定结果。

“灵犬”运用的具体解决方案，是深度学习。“我们分别在数据、模型、计算力等方面做了很多优化。”王长虎说。数据层面，“灵犬”已累积上千万级别的训练数据。模型层面，“灵犬”针对许多困难样本做了模型结构调优，尝试解决多尺寸、多尺度、小目标等复杂问题。计算力层面，“灵犬”利用分布式训练算法以及GPU训练集群，加速模型的训练和调试。

图注：字节跳动人工智能实验室总监王长虎分享“灵犬”背后的技术原理

但机器学习并非万能，尤其是相比于文本识别，图片识别的难点在于，低俗图片占整体图片内容的比例较低，低俗图片的种类丰富、繁杂，构成低俗图片的特征千差万别。此前Facebook也因为不显示裸体照片为由，封杀了一张越战时期著名的照片，照片中越南女孩赤裸身体惊恐奔跑。

因此现阶段仍需要人工识别加以判断，“灵犬”助手和人工识别的关系，就像警犬和警察，警犬在跟踪可疑物上比警察灵敏，但警犬是警察的管理者。

比如技术暂时难以制定标准的案例：世界名画中常常出现裸体女子，如果完全交由机器判断，机器通过识别画中人物的皮肤裸露面积，就会认为这幅画是色情低俗的；而某些拍摄芭蕾舞的图片，以机器的视角来看，其实类似于裙底偷拍。

事实上，在移动互联网时代，打击低俗低质内容，是互联网巨头面临共同难题。不管是国外的Facebook、Google，还是国内的微信、今日头条，都在寻求解决方案。

从2012年以来，今日头条内部搭建了反色情、反低俗、反标题党、反虚假信息、反低质等数百个模型，并投入近万人专业审核团队。当前，“灵犬”建设了比较完善的模型迭代系统。通过“数据收集—数据标注—数据清洗—模型训练—模型评估—badcase分析”这一套完整的流程，持续做优化。

打开APP阅读更多精彩内容