维基百科使用AI 整治社区恶意评论

信息化观察网
编译
维基百科社区是一个由可公开编辑的内容模型构建的免费百科全书平台,但是因用户可以恶意篡改词条而臭名昭着。这个问题的严重性导致活跃的贡献者或编辑人员(每月进行一次编辑)的人数在八年期间下降了40%。尽管没有...

维基百科社区是一个由可公开编辑的内容模型构建的免费百科全书平台,但是因用户可以恶意篡改词条而臭名昭着。这个问题的严重性导致活跃的贡献者或编辑人员(每月进行一次编辑)的人数在八年期间下降了40%。尽管没有一个解决方案可以解决这个问题,但支持维基百科的非营利组织维基媒体基金会决定使用AI来更多地了解问题,并考虑如何解决这个问题。

注:维基媒体基金会(英语:Wikimedia Foundation, Inc.),简称维基媒体,是负责维基百科、维基词典、维基语录、维基教科书、维基文库、维基物种、维基新闻、维基导游和维基共享资源项目的非营利组织。

维基媒体基金会和Jigsaw合作以阻止恶意评论泛滥

为了阻止恶意评论,维基媒体基金会与Jigsaw(科技孵化器,前身为Google Ideas)合作开展一项名为Detox的研究项目,目的是使用机器学习来标记可能涉及到人身攻击的评论。该项目是Jigsaw计划的一部分,旨在构建开源AI工具,以帮助打击社交媒体平台和网络论坛上的骚扰行为。

该项目的第一步是使用来自Wikipedia Talk页面的10万条恶意评论来训练机器学习算法,这些评论由一个4,000人组成的团队标记,其中每条评论都由十个人审核。这个最大的网络滥用数据集不仅包括直接的人身攻击,还包括第三方和间接的人身攻击(“你太可怕了”、“鲍勃太可怕了”、“莎莉说鲍勃很可怕”)。经过训练,机器能够和人类一样决定一条评论是否涉及到人身攻击。

然后该项目团队通过算法审查了14年期间(从2001年至2015年)发表的6300万条英语维基百科评论,以研究恶意评论的类别。他们将研究成果发表在名为Ex Machina:Personal Attacks Seen at Scale paper的论文中:

●在所有的恶意评论中,有超过80%是由9,000多名用户发表的,这些用户在一年内发表的评论少于5次;

●在所有涉及人身攻击的评论中,近10%是由34名用户发出的;

●匿名用户发表的评论占维基百科所有评论的34%;

●虽然匿名用户发表人身攻击的评论可能性是注册用户的六倍,但是超过一半的人身攻击评论是由注册用户发表的(注册用户数比匿名用户多20倍)。

现在,算法已经能够清晰地指出哪些用户在社区发表了恶意评论,维基百科也可以找出消除负面评论的最佳方法。虽然可能仍需要人工监管,但算法可以帮助整理这些评论,并标记需要人工介入的评论。

物件版本评估服务(ORES系统)

维基百科编辑人数大幅下降的另一个原因被认为是该组织复杂的官僚主义以及苛刻的编辑策略。对于首次撰稿人/编辑而言,通常系统会在没有任何解释的情况下把他们编辑的内容完全删除。他们希望通过使用ORES系统来解决这一问题,ORES系统可以充当编辑系统机器,由经过训练的算法驱动,可以对修改和编辑的质量进行评分。维基百科的编辑人员使用在线工具来标记以前编辑的示例,并且也是通过这种方法来让算法学习到这些编辑错误的严重性。

AI编写维基百科文章

AI可以“写”维基百科的文章,但你必须要给它开个头,不是吗?Google Brain中的一个团队教授软件来总结网页上的信息,并撰写一篇维基百科风格的文章。事实证明,文本摘要比我们大多数人想象的要困难得多。Google Brain让机器总结的内容质量略好于以前,但是要让机器像人类一样可以写出抑扬顿挫的文章,还要付出更多的努力。而且我们还没有准备好让机器自动生成维基百科条目,但是我们正在朝着这个目标努力。

虽然我们还在不断优化维基百科运营中AI的使用案例,但机器无疑可以帮助公司分析他们每天产生的大量数据。更好的信息和分析可以帮助维基百科创建成功的策略,以解决其社区的负面影响和词条贡献者的招募问题。

原文作者:Bernard Marr

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论