您好、欢迎来到现金彩票网!
当前位置:刘伯温预言 > 图像逼真 >

GAN 20!英伟达“风格迁移”面部生成器世间万物逼真呈现

发布时间:2019-06-07 11:02 来源:未知 编辑:admin

  英伟达推出基于风格的生成器新结构,由此得到的升级版GAN图像生成效果逼真到可怕!将面部细节分离出来,由模型进行单独调整,从而大幅度超越其他模型,GAN 2.0横空出世?

  我们知道GAN能够生成逼真的图片,但没有想到字面意义上的“逼真”会如此快到来。

  ,从而大幅度超越传统GAN等模型,生成的面部图像结果简直逼真到可怕,可以说是GAN 2.0。这种生成器架构提取的图像风格,不是笔划或颜色空间,而是图像的组成(居中,向左或向右看等)和脸部的物理特征(肤色,雀斑,头发)。

  有CV研究人员看过上图效果以后表示,机器学习模型非常擅长生成逼真的人脸,但这个新架构生成的人脸图像已经真实到让我再也不敢相信机器。

  英伟达研究人员在论文中写道,他们提出的新架构可以完成自动学习,无监督地分离高级属性(例如在人脸上训练时的姿势和身份)以及生成图像中的随机变化,并且可以对合成进行更直观且特定于比例的控制。

  。例如,研究人员使用的旧系统可能产生两个“不同”的面部,这两个面部其实大致相同,只是一个人的耳朵被抹去了,两人的衬衫是不同的颜色。而这些并不是真正的面部特异性特征,不过系统并不知道这些是无需重点关注的变化,而当成了两个人来处理。

  所有这些类型的图像都或多或少可以单独隔离出来,再现小型、中型和大型特征的相同范例。

  英伟达研究人员介绍,新的生成器在传统的分布质量指标方面改进了最先进的技术,使得插值特性明显变好,并且更好地解决了变量隐因子问题。

  传统方式中,隐码(latent code)是通过输入层提供给生成器的,即前馈网络的第一层(图1a)。而英伟达团队

  ,从一个学习的常量(learned constant)开始,从而脱离了传统的设计(图1b,右)。在输入隐空间Z中,给定一个隐码z,一个非线性网络 f:Z→W首先生成w∈W(图1b,左)。英伟达团队的发生器架构可以通过对样式进行特定尺度的修改来控制图像合成。可以将映射网络和仿射变换看作是一种从学习分布(learned distribution)中为每种样式绘制样本的方法,而将

  看作是一种基于样式集合生成新图像的方法。修改样式的特定子集可能只会影响图像的某些方面。样式混合

  英伟达团队采用混合正则化,其中给定比例的图像是使用两个随机隐码生成的,而不是一个在训练期间生成给定百分比的图像。

  在生成这样的图像时,只需在合成网络中随机选择的一个点上,从一个隐码切换到另一个——称之为样式混合的操作。

  表2显示了在训练过程中启用混合正则化是如何产生显著改进的,在测试时混合了多个延迟的场景中,改进的FID表明了这一点。

  图3给出了在不同尺度上混合两个潜码合成图像的例子。可以看到,样式的每个子集控制图像的高级属性。

  人类肖像中有许多方面可以被视为随机的,例如毛发,雀斑或皮肤毛孔的确切位置。只要它们遵循正确的分布,任何这些属性都可以随机化而不影响对图像的感知。

  图4显示了相同底层图像的随机实现,这些图像是使用具有不同噪声实现的生成器生成的。

  在基于样式的生成器中,样式会影响整个图像,因为完整的特征图像会被缩放并带有相同的值。

  因此,可以相干地控制姿态、灯光或背景风格等全局效果。同时,噪声被独立地添加到每个像素上,因此非常适合于控制随机变化。

  如果网络试图控制例如使用噪声的摆姿,这将导致空间不一致的决定,然后将受到鉴别器的“惩罚”。因此,网络学会了在没有明确指导的情况下,适当地使用全局和本地通道(channel)。

  。研究人员还发布了一个新的面部图像数据集:数据收集自Flickr上的7万张面部图像,数据已经对齐和裁剪。研究人员使用亚马逊Mechanical Turk来清除雕像、绘画和其他异常图像。

  鉴于目前此类项目所使用的标准数据集主要是名人走红毯的照片,本数据集应该能够提供变化更丰富的面部图像组合。

  使用基于风格的生成器的GAN,在各个方面都优于传统的GAN,可以说是 GAN 2.0。

  英伟达团队相信,对高阶属性与随机效应分离的研究,以及中间隐空间( intermediate latent space)的线性,将会对提高GAN合成的理解和可控性有很大的帮助。

  可以注意到,平均路径长度度量可以很容易地用作训练中的正则化器,也许线性可分度量的某些变体也可以作为一个正则化器。

  除了人像,GAN 2.0还可以生成房间、汽车等各种场景。有了这个利器,以后何愁图像数据集?

  看着这些计算机生成的“人”,是如此的真实但又虚拟。爱上一个不存在的人,似乎完全合情合理。

  总的来说,在训练期间直接塑造中间隐空间( intermediate latent space)的方法将为未来的工作提供有趣的途径。

  所以,期待一下全新的判别器架构,届时得到的GAN 3.0,会如何冲击我们的视觉和认知呢?

  声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。

http://3dtvsource.com/tuxiangbizhen/215.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有