计世网

AI审核“黑夜总会过去,白天总会到来”,为啥说敏感词审不过?
作者:钱柳君 | 来源:南方都市报
2018-08-24
随着移动互联网、云计算、物联网等新兴技术的发展,互联网络环境愈加复杂。

 

随着移动互联网、云计算、物联网等新兴技术的发展,互联网络环境愈加复杂,各大互联网企业开始利用人工智能技术(又称“AI”)应用于网络安全领域。“人工智能+网络安全”成为了热议的话题。

8月21日,由中国互联网协会、阿里巴巴、蚂蚁金服主办的2018网络安全生态峰会在北京举行。会上,中国互联网协会发布了《AI技术赋能网络内容安全保障研究报告》(以下简称“报告”)。报告指出,人工智能可以有效进行文本内容检测、网络视频/图片内容检测、语音内容检测等。但与会专家表示,人工智能仍存在成本较高、某些内容无法识别等问题。

AI鉴黄师可识别多国语言和多地方言

由于网络内容安全存在审核标准差异化、动态化,对抗行为较为突出的特点,传统的基于人工审核、人工特征工程的网络内容分析方法正面临着严峻的挑战。对于,人工智能技术正逐渐以一种截然不同的方式,应用于网络内容安全领域。

深度学习是近期人工智能中发展迅速的领域之一,它在语言处理、图像识别、语音识别等领域展示出巨大的优势。

报告指出,文本分类技术可以根据文本的某些特征,在预先给定的类别标记集合下,根据文本内容来判定类别。基于深度学习的方法已经取得了最佳的结果,诸如命名文本分类、实体识别、词性标注和情感分析等。

网络视频和图片作为一种视觉信息载体,是网络内容最重要的组成部分之一。如今,在网络视频和图片的内容检测中,深度学习主要应用于文字识别、人脸检测、特定标识检测、有害视频场景检测等。

报告表示,深度学习将网络视频和图片文字识别技术分为两个阶段,首先,对图片中的文字进行检测和提取,然后再对检测出的文本区域进行识别。这种输入原始图片而输出为最终识别的结果文字的方式,称为端到端识别技术。同时,还可对视频和图片中的人脸进行检测。

据专家介绍,AI鉴黄师每天可审核数亿张图片,识别准确率高于99.5%。举个例子,单纯由人工一天审核4亿张图片,一人一天审1万张,需要4万人,而AI鉴黄只需将其中20万张可疑的图片筛出来,由人工再审一次,仅需 20人。

视频和图片中的标识包含了重要的信息,比如电视台标、招牌、车牌、交通标识等。基于深度学习的标识识别方法提升了标识和对象检测性能和效率,实现了端对端的、像素级的标识和对象检测。

“使用深度学习方法解决场景识别问题已经成为场景识别领域未来的发展方向”,报告指出,暴力、血腥、爆炸等有害视频在光照变化、相机运动、内容复杂度等方面比一般的网络视频更复杂。从海量网络视频中高效、精准地识别出有害的视频,对识别速度、识别准确率、和识别召回率都要求达到极高水平。

据媒体报道,Google在应用深度学习后,将语音识别模型的错误率降低了20%。报告表示,深度学习可以自动从海量数据中提取复杂而且有效的特征,提升了模型的准确度。当前,几乎所有关于语音的研究都已经转入深度学习。

比如,AI鉴黄师就是通过声纹识别技术,识别语音中存在的涉黄、广告等违规信息,支持中文、日文、英文、俄文等多国语言,甚至支持湖南、湖北、河南、东北、四川等地方言。

AI存在成本高、部分内容无法识别等问题

随着人工智能的不断发展,带来了更多样化、更先进的应用,但技术仍还不够成熟。据媒体报道,某银行的语言识别ID,允许用户使用语音指令访问他们的帐户,但是,一名BBC记者的孪生兄弟,通过模仿记者的声音,经过七次尝试后,成功访问了记者的账户。

报告指出,世界上约有7000种语言,但是,绝大多数语音识别系统能够支持的语言数量大约只是几十种。除此之外,当说话声音比较远或者环境很嘈杂时,语音识别系统的效能就会降低。值得注意的是,深度学习与语音识别相结合,对CPU和内存的占用量不容小觑。

国家互联网应急中心高级工程师徐杰表示,AI技术存在成本较高的问题外,还可能存在某些内容无法识别的问题。AI需要获取到大量的数据才能够识别、分类,但是在没有充足量的数据的情况下,AI就有可能无法识别。他强调,AI未来的发展方向是识别性。

科大讯飞北京研究院副院长李剑锋举例称,AI为何审核不通过“黑夜总会过去,白天总会到来”,是因为出现了敏感词“夜总会”。

徐杰还强调,AI模型的可解释性是未来需要重点关注的问题。“我们需要解释清楚模型是如何训练出来的,才能够放心使用”,他表示。

当攻击者知道AI模型是如何训练出来时,就可能会对数据进行针对性的攻击,“辛辛苦苦建立的模型就会失效了”,徐杰说。此外,中国社会科学院世界经济与政治研究所博士后陈哲强调,使用AI还要考虑到数据保护和伦理问题。

责任编辑:何周重