【猎云网(微信号:ilieyun)】1月29日报道 (编译:叶展盛)
在我眼中,这些鸟儿看起来非常真实,其中一只的腹部长满了蓬松的黄色羽毛。另一只有着绿色的尾巴和长长的喙。而这些照片完全都是虚构的。微软最新的人工智能AttnGAN能根据你的想象直接给出图片,你只需要给这个系统输入一个句子(比如“这只鸟是红色和白色的,它的喙非常短”),那么它们就能生成图片。也就是说AttnGAN能够“无中生有”出这些高清的、像素为256 x 256的照片。
这个项目的主管研究员Xiaodong He表示:“四年前,不会有人相信这样的技术能够实现。”
在过去的五年里,他研究了语言和图片之间的关系,并训练人工智能去执行这类任务。最初他创造了一个名为CaptionBot的人工智能,它能用文字去描述一张图片——这种功能可以为视力受损者提供帮助。之后他设计了一种人工智能可以回答你针对某张图片提出的特定问题,让研究又更进一步。
如今的AttnGAN让他完成了最后一步。简单的说,微软的人工智能可以通过寥寥几个词汇生成图片。
其名字“AttnGAN”就是源于它的设计过程。微软的研究员让两个人工智能互相“角力”(也就是所谓的对抗生成网络,Generative Adversarial Network,即“GAN”的由来),这两种人工智能都通过大量的语言和图片数据集进行训练,但其中一个主要去生产图片,另一个负责给出评论。从最初的模糊图片到最后高清图片,第二个人工智能会在这其中的三个阶段给出评论。这种持续的“对抗”会不断优化AttnGAN,让它们最终生成你今天所能看到的图片。
尽管像素比较低,但这些图片还是非常逼真的。除了逼真,它还会特别强调细节。这里讲的也就是“AttnGAN”之中的“attention”部分,人工智能会根据语言的描述,对图片进行非常小范围的微调。比如说一只鸟,它有非常多的细节,例如蓝色的喙、黄色的羽毛、长的或短的喙等。这种设计细节的“即兴创作”远比谷歌的广义描述人工智能复杂得多。甚至Adobe的怪诞图片制作工具也都是始于一张实际照片的,而不是一张“白纸”。
当然AttnGAN也被发现存在一定的局限性。比如研究员要求它画一辆红色的双层巴士,同时它还飘在湖上。结果它画出来的更像是一艘模糊的红色和白色的船。语境似乎对主题产生了影响,它将两个东西混合成了一个,毕竟巴士是不可能在水里开的,所以AttnGAN画了一艘船。
在另一个案例中,研究员要它画一个“正在吃一大块披萨的女孩”。女孩的样子画的倒是有板有眼,但图片里的其他东西就不如人意了,它更像是经过了某种奇特的渲染。