您好、欢迎来到现金彩票网!
当前位置:刘伯温预言 > 图像逼真 >

最新图像合成GAN架构解读:核心理念、关键成就、商业化路径

发布时间:2019-06-07 11:04 来源:未知 编辑:admin

  本文总结了5个最近推出的用于图像合成的GAN架构,对论文从核心理念、关键成就、社区价值、未来商业化及可能的落地应用方向对论文进行解读。

  【新智元导读】本文总结了5个最近推出的用于图像合成的GAN架构,对论文从核心理念、关键成就、社区价值、未来商业化及可能的落地应用方向对论文进行解读。

  本文总结了5个最近推出的用于图像合成的GAN架构,对论文从核心理念、关键成就、社区价值、未来商业化及可能的落地应用方向对论文进行解读,对创业者、开发者、工程师、学者均有非常高的价值。

  最近的研究表明,两个领域的图像到图像转换取得了显著的成功。然而,现有方法在处理两个以上的域时,可扩展性和鲁棒性的比较有限,因为需要为每对图像域独立地构建不同的模型。

  StarGAN的出现就是为了解决这一问题。研究人员提出了一种新颖且可扩展的方法,可以实现仅靠单个模型就能对多个域执行图像到图像的转换。

  StarGAN这种统一模型架构,允许在单个网络内同时训练具有不同域的多个数据集。与现有模型相比,StarGAN有着更高的图像转化质量,以及将输入图像灵活地转换为任何所需目标域的新颖功能。

  我们凭经验证明了我们的方法在面部属性转移,和面部表情综合任务方面的有效性。

  StarGAN是一种可扩展的图像到图像转换模型,可以使用单个网络从多个域中学习:

  生成器不是学习固定的转换(例如,年轻到年老),而是接收图像和域信息作为输入,以在相应的域中生成图像

  例如,作者展示了如何使用具有头发颜色,性别和年龄等属性的CelebA数据集,以及具有与面部表情相对应的标签的RaFD数据集来训练模型

  将mask向量添加到域标签后,生成器会学着忽略未知标签,并专注于明确给定的标签

  定性和定量评估表明,StarGAN在面部属性转移和面部表情综合方面优于基准模型:

  在更复杂的多属性传输任务中,优势尤为明显,这反映了StarGAN处理具有多个属性更改的图像转换的能力

  由于多任务学习的隐含数据增强效果,StarGAN还可以生成更具视觉吸引力的图像

  在论文中,我们提出了一种Attentional生成对抗网络(AttnGAN)。它允许注意力驱动的多阶段细化,以实现细粒度粒度的文本到图像的生成。

  通过新颖的注意力生成网络,AttnGAN可以通过关注自然语言描述中的相关单词,来合成图像的不同子区域的细粒度细节。此外,提出了一种深度attentional多模态相似度模型,来计算用于训练生成器的细粒度图像文本匹配损失。

  AttnGAN明显优于当前最先进的技术水平,在CUB数据集上提升了14.14%的最佳报告得分,在更具挑战性的COCO数据集上得到170.25%的提升。同时还通过可视化AttnGAN的注意力层来执行详细分析。它首次表明分层注意力GAN能够自动选择单词级别的条件,以生成图像的不同部分。

  可以通过多阶(例如,单词级和句子级)调节来实现细粒度的高质量图像生成。因此,研究人员提出了一种体系结构,其中生成网络通过这些子区域最相关的单词来绘制图像。

  将区域图像矢量与对应的词语上下文矢量组合以在周围子区域中生成新的图像特征

  而深度Attentional多模态相似度模型(DAMSM),用于计算生成的图像和文本描述之间的相似性,为训练生成器提供额外的细粒度图文匹配损失。

  Conditional GAN已有很多应用案例,但通常仅限于低分辨率图像,且远未达到以假乱真的地步。NVIDIA引入了一个新的方法,可以从语义标签贴图中合成高分辨率(2048×1024)、照片级的逼真图像。

  他们的方法基于新的强大对抗性学习目标,以及新的多尺度生成器和鉴别器架构。这种新方法在语义分割和照片真实性的准确性方面,总体上优于以前的方法。此外,研究人员还扩展其框架以支持交互式语义操作,合并了对象实例分割信息,似的它可以实现对象操作,例如更改对象类别、添加/删除对象或更改对象的颜色和纹理。

  称为pix2pixHD(基于pix2pix方法)的新框架合成高分辨率图像,有几处改进:

  coarse-to-fine(由粗糙到细粒度)生成器:训练全局生成器以1024×512的分辨率合成图像,然后训练局部增强器以提高分辨率

  该框架还允许交互式对象编辑,这要归功于添加额外的低维特征通道作为生成器网络的输入。

  语义分割的逐像素精度,得分为83.78(来自pix2pix基准的5.44,仅比原始图像的精度低0.51个点)

  人工评估员可以在任意数据集和任意时间设置(无限时间和有限时间)上进行的成对比较

  在计算机视觉的重要会议CVPR 2018上 Oral上,深度学习研究员Denny Britz对此评价:“这些GAN结果令人印象深刻。 如果你现在正在用Photoshop修图来谋生,那么可能是时候另谋出路了。“

  该方法为更高级别的图像编辑提供了新工具,例如添加/删除对象或更改现有对象的外观。可以用在修图工具中,或者创建新的修图工具。

  DeepMind团队发现,尽管最近在生成图像建模方面取得了进展,但是从像ImageNet这样的复杂数据集中成功生成高分辨率、多样化的样本仍然是一个难以实现的目标。

  经过对GAN进行了最大规模的训练尝试,并研究了这种规模特有的不稳定性后,发现将正交正则化应用于生成器可以使得它适合于简单的“截断技巧”,允许通过截断潜在空间来精确控制样本保真度和变化之间的权衡。

  该论文表明,如果GAN以非常大的规模进行训练,例如用两倍到四倍的参数和八倍于之前的批量大小,就可以生成看起来非常逼真的图像。这些大规模的GAN(即BigGAN)是类条件图像合成中最先进的新技术。

  将正交正则化应用于生成器使得模型响应于特定技术(“截断技巧”),通过这种方式提供对样本保真度和变化之间的权衡的控制

  在BigGAN发生器登上TF Hub后,来自世界各地的AI研究人员用BigGAN来生成狗,手表,比基尼图像,蒙娜丽莎,海滨等等,玩的不亦乐乎

  NVIDIA团队推出了一种新的生成器架构StyleGAN,借鉴了风格转移文献。在这项研究中,他们解决了对传统GAN架构生成的图像进行非常有限的控制的问题。

  StyleGAN中的生成器自动学习分离图像的不同方面,而无需任何人为监督,从而可以多种不同方式组合这些方面。例如,我们可以从一个人那里获取性别,年龄,头发长度,眼镜和姿势,而从另一个人那里获取所有其他方面。由此产生的图像在质量和真实性方面优于先前的技术水平。

  StyleGAN基于渐进式GAN设置,其中假定网络的每个层控制图像的不同视觉特征,层越低,其影响的特征越粗糙:

  对应于粗糙空间分辨率(4×4 - 8×8)的层使得能够控制姿势、一般发型、面部形状等

  中间层(16×16 - 32×32)影响较小规模的面部特征,如发型、睁眼/闭眼等

  细粒度分辨率(64×64 - 1024×1024)的层主要带来颜色方案和微结构

  受风格转移文献的推动,NVIDIA团队引入了一种生成器架构,可以通过新颖的方式控制图像合成过程

  呈现人脸Flickr-Faces-HQ的新数据集,其具有比现有高分辨率数据集更高的图像质量和更宽的变化

  由于StyleGAN方法的灵活性和高质量的图像,它可以替代广告和电子商务中昂贵的手工媒体创作。

http://3dtvsource.com/tuxiangbizhen/218.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有