再见了，键盘侠与僵尸粉！Instagram推出评论过滤功能，自动删除垃圾留言

2017-06-30

这一过滤器目前仅支持英语，之后会开发其他不同语言。

【猎云网（微信：ilieyun）】6月30日报道（编译：蔡妙娴）

每个单词独立开来的时候都有自己的意思，但是根据语境，甚至时间，这些单词的意思也会有多变化。原本中立的词语可能充满敌意，原本敌意的话语可能中立。

人类一向擅长分析语境，但机器做不到。为此，去年6月，Facebook宣布开发了一个文本分类系统，帮助机器理解不同语境下的词语意思。

这套系统名叫DeepText，基于近两年兴起的人工智能技术“单词嵌入”（word embeddings）——也就是模拟大脑处理语言的过程。当系统遇到新词时，会模仿大脑的行为，尝试通过其他词来解析意思。

举个例子，“white”这个词在和snow、Sox、House、power组合的时候，代表的是不同的含义。DeepText能够像人类一样思考，并越来越智能。

DeepText被嵌入一个内部工具中，Facebook员工可以用它对大量文本进行分类，创建分类规则，并借此开发产品帮助用户。如果你在Facebook上搜索White Sox（白袜子），系统会很快知道你说的是棒球。如果你搜索White House，它会知道你大概想看新闻了。

几乎在DeepText开发的同一时间，Instagram高管看到了平台打击刷屏信息的机会。用户使用Instagram是为了浏览照片，但常常因为评论里充斥着机器（有时候是真人）发布的产品宣传等垃圾信息感到心烦，而最终选择离开这一平台。

Instagram的第一步是招聘一支团队，筛查评论，并将这些信息分为垃圾内容和非垃圾内容。Instagram的筛查工作好比排雷，是社交媒体公司经常使用的手段。人类可以训练机器做这些枯燥甚至说令人泄气的工作，最终也一定会做得比人类更好。与此同时，用户的页面也变得清爽多了。

筛查团队对大量信息进行分类后，其中4/5都会被输入到DeepText中，然后Instagram的工程师会开发相应算法，将这些垃圾信息正确分类。

系统会分析每个句子的语义，同时考虑信息来源。不认识的人发过来的消息一般来说是垃圾信息，你关注的人发来的则不是；哪位明星的帖子下面如果出现不断重复的话，一般都是机器发布的。

接着，系统算法会被用于测试剩下1/5的内容，看是否能够达到人类筛查员的水平。最后，Instagram终于认可了测试结果，并于去年10月推出了这款产品。自那之后，Instagram上的垃圾信息开始“消失匿迹”。

Instagram没有透露这款工具到底减少了多少垃圾信息，或暴露了多少系统内部的秘密。如果你把自己的防御系统曝光在垃圾信息制作者面前，他们会想方设法来反攻你。不过对于Instagram CEO Kevin Systrom来说，他已经很高兴了。

实际上，因为太高兴，Systrom决定派DeepText前去完成更复杂的问题：让违反Instagram社区规定的评论消失，或者用该公司发言人的话来说就是，“从精神上消失”。社区规则是Instagram的“宪法”，长达1200字，它的要求包括用户应当保持尊重，不发布裸体内容，该公司员工一直以来也以社区规则为工作指导。

于是，另一支团队又组建起来了。这支团队负责浏览评论，判断它是否合适。如果答案是否定的，那么团队成员会将其放在各种的禁言行为分类中，包括欺凌、种族歧视、性骚扰等等。这些筛查员至少都懂两门语言，分析过200多万条评论，且每条评论至少被筛查两次。

与此同时，Instagram员工也在自己的手机上对系统进行测试，相关算法诞生至少进行了多次调整：能够正确筛查信息的就留下并加以修改，反之则删除。系统会给每条评论评分，从0到1，根据评论是否有攻击性或是否合适而定。超过一定的分数，评论就会被系统删除。

今日，Instagram宣布这一系统将具备实时筛查功能。当你输入刻薄、敌意或骚扰内容时，如果系统识别区来，你的内容就会消失。这项技术将自动运用于用户的消息推送中，但如果你想关闭也很简单，点击设置中的椭圆形按钮，再点击评论就可以了。

这一过滤器目前仅支持英语，之后会开发其他不同语言，包括西班牙语、葡萄牙语、阿拉伯语、法语、德语、俄语、日语和中文。

不过，某些仇恨性评论或许会“逃过一劫”，毕竟我们所说的是无所不有的互联网啊。过滤系统的推出或许也会带来新的风险，比方说无伤大雅甚至有所裨益的评论会被系统删除。曾帮助推特开发机器学习系统以识别仇恨言论的Thomas Davidson指出，Instagram想要解决的问题难度太高了。机器是很聪明，但它们可能会被不同语言、不同语境下的词语所迷惑，Davidson开发的系统出现过许多“漏网之鱼”。

说到被漏掉的具体语句，Instagram没有给出详细回应。他们只说，会出现错误。系统评分基于原评分者的判断，而人类都是会犯错的。此外，算法也不是完美无缺的，因为训练时的数据不同，它们本身或许也存在偏见。

在问到系统是否有些“野蛮”的时候，Systrom回答：“这是非常经典的问题。如果你要求精确度，那么一定会把一些实际上非常好的内容错误分类。比方说，我是你的朋友，和你开了几句玩笑话，这样的内容是应当能够通过筛查的。我们不想看到任何不应被屏蔽的内容被屏蔽。但现实是，这样的情况一定会发生，于是问题成了：这一代价是否值得？我们不是为了阻止自由言论的，也不是让朋友之间聊然无趣的，我们开发筛查系统，是为了防止Instagram上出现恶意评论。”

如果Systrom是对的，筛查系统起了作用，那么Instagram将成为互联网上最友好的平台。也或者，人们会认为它受到过多管控，Systrom很想知道到底会出现哪一种情况。

“机器学习技术的核心在于，它比以往任何算法都更能理解语言的细枝末节，甚至优于人类。我想我们要做的是，搞清楚如何处理灰色地带，评价算法的表现，看它是否真的让平台变好了。因为如果它不能带来好的结果，我们就得把它销毁，寻找新的途径。”