近日,麻省理工学院计算机科学与人工智能实验室宣布与卡塔尔计算研究所合作,研究出一种可以鉴别信息来源准确性和个人政治偏见的AI系统。
据报道,实验室研究人员利用这个AI系统创建了一个包含1000多个新闻源的开源数据集,这些新闻源均被标注了“真实性”和“偏见”的分数。并且,AI系统对其所评估的媒介有广泛的语境理解,不只单独从新闻文章中提取特征值,而是兼顾了维基百科、社交媒体,甚至根据URL和Web流量数据的结构来确定可信度。人类与假新闻的战争旷日持久,这次这个新的AI伙伴会帮助人类更快取胜吗?
做法不难,但需要丰富数据源
谈及AI的这个本事,中科视拓(北京)科技有限公司CEO刘昕表示:“相关做法并不难。我认为这是一个非常基础的文本分类,看介绍这个系统会标记出各类新闻是真的、假的、是否存在偏见,这是一个基础的算法,就像标记图片中的猫、狗一样,做出分类,然后可以识别一张新的图片是猫还是狗,所以这本身是一个比较简单的文本分类技术。”
不过虽然原理不难,但实现难度不小。谈到实用性,刘昕认为,决定AI监测假新闻效率的关键在于识别数据的量级是否足够大、假新闻的来源和数量是否足够丰富。要成功判断出新闻是不是被捏造的,用来训练AI的假新闻的数据库必须够大。
另外就是“如何抽取新闻文本中的信息”,是采用简单的分词的技术还是更高阶的文本语义理解。“有足够的假新闻用于学习,采用文本语义的信息抽取方式,可以让AI的工作更有效、准确率更有保证。”刘昕表示。
在扩充数据量以及兼顾不同倾向的数据方面,这个新的AI系统作出有效改进:根据介绍,维基百科和推特被加入了系统的预测模型。正如研究者所说,维基百科页面的缺失也许说明了一个网站是不可信的,相关网页上也可能会提到这个问题的政治倾向如何。此外,他们还指出,没有经过验证的推特账户,或者使用新创建的没有明确标注的账户发布的消息,真实的可能性很低。
消灭假新闻,AI也无法手到擒来
不只这个系统,用AI阻击假新闻的尝试近年常有,不少大公司都有涉及。2017年初,Facebook曾推出Disputed标签,当网站上某些新闻被认为是错误的时,这个标签会出现在新闻下面,作为对读者的提醒。Facebook使用AI检查每天在Facebook上分享的数百万个链接,识别出其中的可疑内容,然后将它们发送给事实核查人员。当事实核查人员确定其为假时,Facebook就会减少访问范围,降低其在用户的信息流中的排序位置。听来理想,但在去年底,Facebook已经悄然放弃了这个标签功能,原因是这项努力并没有带来多大改善。追究可能的原因:确认一则消息为假需要至少两名事实核查员,这个应用过程太慢;对某些新闻给予特殊标记反而强化读者对它的印象;假新闻被标记,那部分为假或是无法证实真假的消息无法被标记等。
虽然存在各种想象中的可能性,AI在检测假新闻方面也确实有一些优势和成效,但是,更核心的障碍或许在于连人类都无法在什么新闻是真是假、尤其是“偏见或倾向”的判断上达成一致意见。中科院自动化研究所研究员王金桥表示,AI的判断结果是训练的结果,而训练的数据来自人。如果机器学习的数据本身就是有偏见甚至偏差的,那AI的准确性很难保证。
据了解,他们的AI系统只需检测150篇文章就可以确定一个新的源代码是否可靠,其在检测一个新闻来源是否具有高、低或中等程度的“真实性”方面的准确率为65%,在检测其政治倾向是左倾、右倾还是中立方面的准确率为70%。如何在大量含混不明、挖苦反讽、讳莫如深的政治话语中判断出倾向,目前来看,机器和人似乎一样迷惘。
本文素材来自互联网