当监控摄像头有了AI大脑，是福还是祸？

2018-01-31

这些技术是价值中立的，它们被谁如何使用决定了技术的好坏。

【猎云网（微信号：ilieyun）】1月31日报道 （编译：堆堆）

我们通常会把监控摄像头想作是电子眼。对此，不同的人看法也大相径庭，有人认为电子眼是在监控我们，有人认为它在帮助我们密切注意环境。但实际上，它们更像是舷窗：当有人通过舷窗看时，它们才有用武之地。有时候这意味着人们会从磁盘录像中查看现场画面。但是大多数监控摄像头都是被动观察者。它们只是用作震慑，或是在出现问题时提供线索。你的汽车被偷了？那就去查看闭路电视监控吧。

不过这一情况正在发生改变——且以一种很快的速度。人工智能为监控摄像头配备了数字大脑来匹配“眼镜”，并让其无需人力参与就可自行分析现场视频。这对公共安全来说也许是好消息，它可以帮助警察以及第一目击者更容易得发现犯罪或事故。此外，它还可以广泛应用于科学和工业。但是这却会严重侵犯未来的隐私并对社会公平带来新的风险。

如果政府通过闭路电视能够追踪到大量人群，那会发生什么情况呢？如果警察在数据库中仅仅通过上传侧面照片，就能以这种“电子”方式在城市里跟踪你呢？如果在当地购物中心，摄像头运行的是一个具有偏见的算法，它会因为不喜欢某一类型的年轻人就去通知警察吗？

这些情况也许距离我们还很遥远，但当下我们已经发现人工智能结合监控会带来什么样的后果了。IC Realtime就是一个例子。去年十二月发布的旗舰产品被称作是闭路电视界的Google。有一个叫做Ella的应用及网页平台就是利用人工智能分析视频中发生的事情并且使其提供及时搜索。Ella可以识别成千上万种自然语言查询，用户可以搜索镜头从而找到呈现特定动物、穿着某种颜色衣物或是单个车型的片段。

在网页演示中，IC Realtime的首席执行官Matt Sailor向我们展现了Ella与大约40个摄像头连接起来对一个公园实施监控。他输入了各式各样的搜索内容——“红衣服的男士”、“UPS火车”、“警车”——几秒钟时间内，所有关键词都得到了相关的影像片段。之后，通过限定时间和地理位置，他将搜索结果的范围缩小了并展示了用户可以如何表达赞成或是反对从而优化结果——就像Netflix一样。

“举个例子，某地发生了一起抢劫，但你不知道实际情况到底如何。”Sailor说道，“但抢劫发生之后，有一辆Jeep牧马人向东加速驶去。所以我们就输入‘Jeep牧马人’，然后我们就可以获得影像片段了。”屏幕上开始出现片段，显示出镜头前滑过的多辆Jeep牧马人。Sailor表示这是人工智能和闭路电视结合的第一大优势：更容易去找到你要寻找的内容。“没有这项技术，除了摄像头，你什么都不知道。你需要连续数小时观看影像从而进行筛选。”他解释道。

Ella在Google Cloud上运行，它可以从几乎任何一个闭路电视视频系统中搜索镜头。Sailor表示：“从单摄像头系统——例如保姆摄像头或宠物摄像头——到拥有成千上万摄像头的企业系统，Ella都能适用。”用户每月支付费用，起价为大约7美元，总价会根据摄像头数量的增加而增长。

IC Realtime的目标受众是各种规模的企业，但它也认为这一技术能够吸引个人消费者。新兴市场上，亚马逊、Logitech、Netgear以及谷歌旗下的Nest智能家居已经让这些顾客开始广泛使用安防摄像头。但是Sailor表示这一技术要比IC Realtime简陋得多。这些摄像头连接到家庭WiFi上，通过应用程序提供实时视频流。当它们发现有东西在移动的时候，它们就会自动记录影像。但是Sailor表示它们无法区分闯入者和鸟类的区别，这就会导致很多误报。“这是非常基础的技术，已经存在很多年时间了。”他说道，“这不含人工智能，也不包括深度学习。”

这种情况不会持续太长时间了。虽然IC Realtime提供的云分析工具可以升级现有傻瓜式的摄像头，其他公司则是直接将人工智能嵌入在硬件里。Boulder AI就是这样一家初创企业，公司利用自己独立的人工智能摄像头推出“视觉即服务”。在设备中结合人工智能带来的优势在于，它们无需互联网连接就能工作。Boulder AI向各行各业出售产品，为每位客户量身定制机器视觉系统。

“这些应用已经遍布各行各业了。”创始人Darren Odom在采访中这样说道，“我们的平台出售给了银行业、能源业的公司。我们甚至有一个应用是去观察披萨，决定它们的形状和大小是否合适。”

Odom还举了一个在爱达荷州建造水坝的客户例子。为了符合环保规定，他们正在监控设施顶部的鱼类数量。Odom表示：“他们过去是安排了一个人坐在窗口看着鱼梯，数有多少条鲑鱼游过。（顾名思义，鱼梯就是一条阶梯式的航道，鱼类可以借此向上游。）之后，他们转而使用视频技术，有人（远程）进行监控。”最终，他们联系到了Boulder公司，后者为其打造了一个定制化的人工智能闭路电视系统，从而识别通过鱼梯向上游的鱼的种类。“我们真的可以通过计算机视觉来识别鱼的种类。我们现在能够100%的识别爱达荷州的鲑鱼。”odom骄傲地说道。

如果IC Realtime代表的是市场的通用端，那么Boulder则呈现了精品承包商可以在这个市场上做些什么。这两种情况下，这些公司现在提供的服务不过也只是冰山一角。就像机器学习在识别物体能力方面取得迅速进步一样，它分析场景、活动和动作的能力也有望快速提升。一切准备工作都已经完成，包括基础研究、计算能力和训练数据集——这是创建出色人工智能的关键要素。视频分析的两个最大数据集来自YouTube和Facebook，两家公司都希望人工智能帮助它们控制平台上的内容（不过两家公司也都承认现在还没有做好准备）。例如说，YouTube的数据集包含超过45万小时带标签的视频，公司希望这能够激发“视频理解的创新和进步”。参与构建此类数据集的机构有很多，这也让我们对该领域的重要性有了一些了解。谷歌、麻省理工学院（MIT）、IBM和DeepMind都参与进来并创建了类似的项目。

IC Realtime已经在致力于开发面部识别等高级工具了。之后，它想要分析屏幕上发生的情况。Sailor表示他已经和教育行业的未来顾客进行过交谈，对方希望当学生在学校遇到麻烦的时候，监控能够识别出来。“比如说，他们对于发生打架的预先通知这一功能很感兴趣。”他说道。所有的系统都需要注意聚集在一起的学生，之后提醒某个人，他就可以查看视频内容来看看发生了什么或是亲自去调查。

Boulder也在探索这类高级分析。公司正在开发的一个原型系统就是分析银行内人们的行为。“我们专门寻找坏人，并且区分正常人的行为和越界者行为之间的区别。”Odom说道。为了做到这一点，他们使用旧的安全摄像头拍摄的影像来训练系统来发现异常行为。但是这种视频大多低质，因此他们也会找一些演员来拍摄训练视频片段。Odom没有讲述具体细节，但表示这个系统会寻找特定的面部表情和行为。“我们的演员会做一些类似蹲伏、推挤以及回头撇的动作。”他说道。

对于监控和人工智能的专家来说，这些功能的引入也面临潜在的困难（技术层面和道德层面都有）。和人工智能通常遇到的问题一样，这两个类别的问题也是紧密相连。这是一个技术难题，毕竟机器始终无法像人类一样理解这个世界。但如果我们假设它们能够做到这一点并让它们为我们做决定时，这又成为了一个道德难题。

卡内基.梅隆大学的教授Alex Hauptmann专门从事这类计算机分析。他表示尽管人工智能在近些年推动了这一领域的快速发展，但让计算机理解视频，这依然存在根本性的难题。其中最大的一个问题就是我们通常不会考虑到的：摄像头的分辨率。

举个例子，一个神经网络经过训练可以分析视频内人们的行为。这是通过细分人类身体——胳膊、腿、肩膀、头部等，之后观察这些画中小人在视频中从一帧到另一帧的变化。据此，人工智能可以告知你是否有人在跑步或是梳头发。“但是这取决于你的视频分辨率。”Hauptmann在采访中说道，“假设我看的是停车场尽头的摄像头，如果我能分辨出有人是否打开车门，那真是万幸了。如果你就站在摄像头前面弹吉他，那它可以追踪你的每一根手指。”

对闭路电视监控来说，这也是一个大问题。摄像头往往会有颗粒感，角度通常也非常奇怪。Hauptmann举了一个便利店内要对准收银台的摄像头为例，它也可以俯瞰到面向街道的窗户。如果外面发生了抢劫，那么摄像镜头就会被部分挡住，之后人工智能就会卡住。“但是我们作为人类，可以想象到正在发生的情况并将信息拼凑在一起。计算机就做不到这一点。”他说道。

与之类似，尽管人工智能能够出色识别视频中发生的事情（比如说有人在刷牙、看手机或是踢足球），但它尚不能提取重要背景。拿可以分析人类动作的神经网络为例。它也许能够在看到镜头时表示出“这个人在跑步”，但它不能识别这个人是否是因为快要赶不上汽车或是偷了别人手机才要跑步。

这些准确率问题让我们需要认真考量一下人工智能初创企业的声明。我们还远远达不到一种情况——即电脑能够在看视频时获得和人类一样的见解。（研究人员会告诉你这非常困难，相当于是“解决”智能难题。）但事情的发展速度非常快。

Hauptmann表示车牌跟踪功能已经被采用，而受控设置下的面部识别也同样如此。（使用低质闭路电视影像进行面部识别是另一码事。）识别像汽车、衣物这类的东西非常靠谱，系统也能自动追踪多个摄像头内的同一个人，但这也要取决于实际情况。“在一个不拥挤的环境中追踪一个人还是非常靠谱的，但在拥挤的环境中就别想了。”Hauptmann说道。他表示如果一个人穿的是不太显眼的衣服，那么追踪起来也非常困难。

但是，即便是这些非常基础的工具也会带来很大的影响。中国就发生了这样一个情况。在新疆，传统的监控和民事控制会结合面部识别、车牌扫描仪、虹膜扫描仪以及普遍的闭路电视监控来创造出一个“全面监控的状态”。在莫斯科，类似的基础设施也正在组建，面部识别软件会被嵌入在一个集成式系统中，该系统配备了超过10万台高分辨率的摄像头，覆盖了整个城市90%以上的公寓入口。

在这些情况下，可能会出现一个良性循环。随着软件变得愈加完善，系统就可以收集到更多的数据，相应地这也会帮助软件变得更加出色。“我想这一切都会进步。这一情况也正在发生。”Hauptmann说道。

如果这些系统已经在工作了，那么我们就会碰到类似算法偏见的问题。这并不是一个假设性的挑战。研究表明机器学习系统吸收了为其编写程序的社会中存在的种族和性别偏见——从总是将女性放置在厨房里的图像识别软件到总是宣传黑人更可能再次犯罪的司法系统。如果我们使用旧的影像片段去训练人工智能监控系统，比如说闭路电视或是警察佩戴的摄像头，那么这些存在于社会之中的偏见就很有可能会渗透进算法内。

纽约大学专攻道德“AI Now”研究所的联席主任Meredith Whittaker表示执法过程中已经出现这一情况了，这也将延伸至私有行业。Whittaker拿Axon（之前被称为Taser）为例。该公司收购了几家人工智能企业来将视频分析嵌入到其产品中。“他们得到的数据来源于警察佩戴的摄像头，这些数据阐明了单个警察会关注哪些人的情况，但它并没有告诉我们全部的情况。”Whittaker说道，“这就会带来真正的危险，我们正在普及带有偏见的罪犯图片。”

ACLU高级政策分析师Jay Stanley表示即便我们可以解决自动系统中存在的偏见问题，这也不能使得它们就变成良性的。他表示将闭路电视监控从消极的观察者转变为主动观察者，这给公民社会会带来巨大的负面影响。

“我们希望人们不仅仅是获得自由，还能感受到自由。这意味着它们不需要担心一个未知、看不见的观众会如何解释或曲解他们的每一个动作和话语。”Stanley说道，“要担心的问题是，人们会开始不断自我监控，担心自己做的所有事情都会被曲解，从而给他们的生活带来负面影响。”

Stanley也表示不准确的人工智能监控引发的误报会导致执法部门以及公众之间发生更危险的对抗。想想Daniel Shaver的枪击事件吧。Shaver被人看见拿着枪之后，有人打电话报警，警察来到旅店。当Shaver按照要求趴在地面上时，警长Charles Langley枪杀了他。而Shaver被发现持有的枪其实是他除虫工作所需要的粒丸枪。

如果人类都可以犯下这样的错误，那么计算机呢？如果监控系统变成了半自动化的，那么这样的错误是会更频繁还是更少见呢？“如果技术被采用了，那么一定会有一些警察被迫需要照看这些情况。”Stanley说道。

Whittaker表示我们在这个领域看到的情况只是人工智能大趋势的一部分。我们使用这些相对粗糙的工具，试图基于图像来对人们进行分类。她提到了去年发表的一项具有争议的研究，该研究声称可以通过面部识别来确定性别。人工智能结果的准确性值得质疑，但是评论家也指出它是否可行并不重要，重要的是人们是否相信它有用以及是否会用此数据进行判断。

“有一点很困扰我，没有任何民主程序让我们质疑它的有效性或是通知大家将会部署系统，许多系统就已经被安装在我们的核心基础设施里。”Whittaker说道，“这不过是算法系统的又一个例子——算法系统是基于内在文化和历史偏见的数据来识别特征，据以分类并确定个体类型。”

当我们向IC Realtime询问关于人工智能监控可能会如何被滥用的问题时，他们给出了一个在科技行业常见的回答：这些技术是价值中立的，它们被谁如何使用决定了技术的好坏。“任何新技术落入不法分子之手都有可能带来危险。”Sailor说道，“任何技术都是如此...我认为在这个问题上，利远大于弊。”