域名频道资讯站
我们一直在努力制造惊吓

AI 算法起家的今日头条为何败给了色情?

12 月 29 日,国家互联网信息办公室在官网发布消息称,针对今日头条、凤凰新闻手机客户端持续传播色情低俗信息、违规提供互联网新闻信息服务等问题,要求北京市互联网信息办公室分别约谈两家企业负责人,责令企业立即停止违法违规行为。

对此,今日头条乖乖表示,依据有关部门的整改要求,今日头条手机客户端“推荐”、“热点”、“社会”、“图片”、“问答”、“财经”6 个频道自 2017 年 12 月 29 日 18 时至次日 18 时暂停更新 24 小时,进入维护状态。

如此,今日头条遭遇史上最严“整改”,网信办动真格了。

其实,今日头条不是第一次被抓小辫子了。

2017 年 1 月,北京市网信办对今日头条“头条问答”栏目中的低俗问答,提出严肃批评,并责令其整改。

 AI 算法起家的今日头条为何败给了色情?

2017 年今年 4 月,今日头条旗下火山直播,由于大量女主播穿着暴露,表演低俗不堪,被北京市网信办、市公安局等联合约谈,责令限期整改。

对此,人民日报曾以三评算法推荐系列文章,斥责今日头条“明明拥有精密算法和先进的数据抓取技术,却屡屡游走在法律的灰色地带不能自拔。”

真是成也人工智能,败也人工智能。

那么问题来了,作为纯靠人工智能起家,以迅雷不及掩耳盗铃之势,从百度、四大门户、各类新闻客户端中横杀出来,在移动互联网红利殆尽之时,抢得大量用户日均时长,与 BAT 分食天下的大黑马,到底能不能靠人工智能再度打硬这场色情硬仗呢?

这就是营长今日关注的问题,AI 到底能不能准确识别色情,能不能真正做到鉴黄?

说到这个问题,营长先带你们从历史的角度来看看, 从人工到智能,互联网鉴黄的三个发展阶段。

互联网鉴黄的三个阶段

第一阶段:人肉阶段

十年前,互联网刚刚起步,网络信息还不多,网络环境也不够稳定,互联网鉴黄主要走“人肉攻略”,人工肉眼盯着,发现不良图片及时删除。

第二阶段:算法过滤阶段

随着互联网的快速发展,网络数据量开始暴增,人肉已难以为继。以肤色识别算法过滤“黄色”图片成为“鉴黄”主流,机器鉴黄与人工审核分别占比为 80%:20%。

第三阶段:深度学习阶段

到了移动互联网阶段,网络数据再次暴增,人工审核连 20%的数据量也无法承受了,加上视频、直播等业务和数据的爆发式增长,纯靠肤色识别算法作为“过滤”的方式,已经不够用了。

这时,机器学习开始作为一种新的方式,担当其网络鉴黄的重任。

“网易云安全每天为中国互联网过滤的有害信息达 1 亿条左右。”那么,机器学习鉴黄的原理是什么呢?

据朱浩齐介绍,“辨别一张图是不是黄图,从机器学习的角度看,本质上是一个分类问题:给定一张图片,让机器判断是不是黄图,因此,技术层面要做的就是研发一个‘分类器’,让它根据输入的图片计算出该图片属于“黄图”类别的概率,然后再根据这个概率值输出一个“是”或者“否”的结果。”

具体来说,因为电脑擅长的是数学运算,所以黄图“分类器”需要先抽象成某种数学模型,这样才有可能用电脑来运算。

“为了方便理解,我们把数学模型定义为:y=f(x)。即给定图片 x,我们要找到一个函数 f,通过计算 f(x)可以得到这个图片的黄图概率 y”,朱浩齐说,这看上去非常简单,但既然要教机器分类,还需要有明确的分类标准,就是给“黄图”下个准确的定义。

“比如,黄图并不是简单的露点就是黄图了,还包括不露点的色情、以及低俗图片,另外还要排除雕塑、艺术作品等”,朱浩齐说到。

有了定义之后,下一步就是根据定义来收集样本数据。

再之后的一步,为特征提取,即通过图片训练,得到数学模型 y=f(x)中的 f。

由于深度学习的神经网络模型在各种图像识别的比赛中获得了突破性的进展,目前一般鉴黄会采用 CNN(卷积神经网络)、GoogLeNet、ResNet(残差网络)三种深度网络模型结构。通过模型,高效地将图片数据转变成了可以运算的数学模型,以便更快更好地得到 f。

此后,经过不断地迭代、算法调参,就可以得到越来越精准的 f(模型)。

总的来说,鉴黄的一般步骤为建模-下定义-收集样本-特征提取-调参、迭代-获得越来越精准的模型。

那么,直播、视频又应如何鉴黄呢?实时视频影像大致可以从三个方面来鉴定:

1. 是否有人物(有:色情概率增加)

2. 人形轮廓的肤色比例(大:色情概率增加)

3. 姿态分析(性行为姿势:色情概率增加)

鉴别视频,其实在本质上与鉴别图片类似:

视频/直播是动态的,图片是静态的。在鉴别视频和直播时,动态的内容可以解码成图片帧来进行判断,这就与静态图片鉴别方法相似了。

不过,直播实时性强,对响应时间要求高,并且里面的场景和人物变化比较大,审核要求比较严格,所以识别难度会相对比较大,需要实时不断对房间进行截帧传输识别,并且结合人工来实现预警处理;

而视频在画质整体上比图片和直播差,一定程度会影响识别效果,通常是以视频为单位进行等时间间隔截图,以一个视频多张截图的结果来综合判断视频是否色情违规。

举个例子,如果企业对视频或直播的每一帧的图片都进行识别,数据量将变得非常巨大,运营成本会很高。面对这类情况,一般会采用对视频抽帧的方式进行处理。

例如,一分钟视频,可以按照时间段来抽取 6-15 帧左右的图片进行识别处理,以此企业减少成本。

但即便使用大数据采用深度学习训练,想要真正实现 AI 鉴黄,也并没有那么容易。

离真正的 AI 鉴黄还有几条街?

此前,今日头条人工智能实验室李磊在接受采访时坦言,人工智能识别内容最大的难点在于攻克语义的复杂性,其涉及到对逻辑推理和因果关系的上下文分析。

也就是说,人工智能可以鉴别色情内容,但在区别色情、性感、艺术等照片上还存在很大难度。比如,下面的的沙漠图片,会被 AI 给“冤枉”为色情图片。

 AI 算法起家的今日头条为何败给了色情?

为了更好地解决色情问题,AI 算法傲视群雄的 Facebook 的小扎,也依然在全球投入超 7500 人做内容人工审核。

“这个事情要这么看。AI 鉴黄在识别能力上目前肯定是比不上人力鉴黄的,但是 AI 鉴黄的效率高,成本低,节省企业的人力成本,并不是说让 AI 完全替代掉所有人力。”姜泽荣解释到。

看来,完全取代人工的 AI 鉴黄,还任重道远啊。

借用专栏作者“开眼二郎”的一句话:2017 岁末,2018 跨年,本该是烟花爆竹,擂鼓轰鸣的喜庆日子,天空却划过来自今日头条的一声哀鸣。

曾经靠 AI 雄霸天下的今日头条,如今也因 AI 的不足,败给了色情。

广告时间:22商标宝是国内知名的知识产权服务机构,2017年商标申请量排名全国前十,有商标、版权等知识产权需求的可以微信添加工作人员(dk22533)进行免费咨询~

来源:AI科技大本营

本文章素材来自互联网

赞(0)
分享到: 更多 (0)

中国专业的网站域名及网站空间提供商

买域名买空间