【AI星球(微信ID:ai_xingqiu)北京】8月17日报道(编译:福尔摩望)
斯坦福大学的人工智能研究人员创造了一种具有社会公平性的自然语言处理(NLP)工具。据研究人员介绍,目前的AI解决方案没有考虑到诸如地方方言、俚语以及语言自然切换方式。
在上周发表的文章中,研究人员发现Equilid要比往常使用的langid.py和谷歌CLD2等识别工具更加准确。目前普遍使用的语言识别工具所使用的是以欧洲为中心的语料库、网页、维基百科等文字来源,并不能呈现出人们真实交流的方式。
语言识别是用于诸如服务谷歌搜索结果或社交媒体跟踪作出预测的自然语言处理的一种形式。Equilid可以更好地理解俚语、方言以及人们自然切换语言的方式。
该报告发现对非正式方言进行语言识别的效率越高,则越有助于帮助了解传染病高发区的危险趋势。
文章的第一作者David Jurgens表示:“我们的应用可以追踪流感、预测选举结果等。如果一个社区只会讲当地的方言,那么你很有可能会忽略掉这些人口,最终产生的结果也很有可能是出乎意料的。”
用俚语训练AI
为了使Equilid工作,研究人员使用了多种来源的语言和文本,比如维基百科和欧洲立法,还使用了Urban Dictionary、维基百科上有关谈话的文章以及非裔美国人英语方言ebonics。此外,研究人员也参考了圣经和古兰经的解释和来自耶和华见证人的Watchtower杂志。
Jurgens表示,到目前为止,大多数用于训练Equilid并加强其识别特定地理区域的语言都来自于推特。Equilid学习了来自150万名用户近9800万条推特,涉及53种语言。
“虽然推特的数据只占据了数据库的1/4,但是在社会代表性上却占据了100%。如果没有社交媒体的帮助,我们可能完全不知道该如何进行系统训练。”
通过准确性提高平等
Jurgens说,Equilid的目标不仅仅是成为一个更加社会公平的产品,还是为了提供精度以及自然语言处理的总体质量。
Equilid的灵感来源于Dirk Hovy的研究。Dirk Hovy发现通过华尔街日报和一家面向老年人的德国报纸训练的自然语言处理结果脱离了年轻人和女性的交流方式。
Jurgens表示,参与自然语言处理研发的人员一般会认为语言识别已经不再是需要解决的问题了。但是其他人的研究以及Equilid的结果表明并非如此。
他说:“很明显,之前的自然语言处理工具具有种族和性别上的偏差,我希望Equilid能够给自然语言处理或者计算语言学带来公平的观点。”