您好、欢迎来到现金彩票网!
当前位置:刘伯温预言 > 图像逼真度 >

一文尽览 ICLR 2019 Facebook Google 入选论文

发布时间:2019-06-12 05:27 来源:未知 编辑:admin

  雷锋网 AI 科技评论按,近日,ICLR 2019 论文入选结果公布,各大公司和研究院纷纷在博客上公布了今年入选的论文。

  其中,Facebook 战果满满,一共有 23 篇论文入选。值得注意的是,2018 年图灵奖得主 Yann LeCun 是其中两篇入选论文的共同作者之一。Facebook 人工智能研究院研究员、围棋项目负责人田渊栋博士也参与了其中两篇论文的写作。

  而一直备受关注的 Google 在今年也有 57 篇论文入选了 ICLR 2019,其中,oral 论文有三篇。

  摘要:学习仅使用观察数据的策略是具有挑战性的事情,因为它在执行时产生的状态分布可能与训练期间观察到的分布不同。在这项工作中,我们计划训练一个策略,同时明确惩罚这两个分布之间在固定时间范围内的不匹配。我们通过使用一个已学习的环境动力学模型来实现这一点,该模型展开了多个时间步骤,并训练了一个策略网络,以最大限度地降低在这个展开的轨迹上的可区分成本。这一成本包含两种形式:代表策略寻求优化目标的策略成本,以及代表其与受训状态的差异的不确定性成本。我们建议使用有关其自身预测的动力学模型的不确定性,利用深度网络不确定性估计的最新思想来测量第二种成本。我们使用交通摄像头记录的驾驶行为的大规模观测数据集评估我们的方法,结果表明我们能够从纯粹的观测数据中学习有效的驾驶策略,而无需与环境交互。

  摘要:尽管现有的工作是确保神经网络在尺度敏感的复杂性度量方面的泛化,如规范、边缘和锐度,但这些复杂性度量并不能解释为什么神经网络在过参数化的情况下泛化得更好。在这项工作中,我们提出了一种新的基于单位容量的复杂度度量方法,从而使两层 ReLU 网络具有更严格的泛化边界。我们与误差行为相关的的容量边界与不断增加的网络规模相关(在实验报告的范围内),并且可以部分解释过度参数化在泛化方面的改进。我们进一步提出了一个匹配的 Rademacher 复杂度下限,相比以前的神经网络容量下限,它是有所改善的。

  摘要:先前,大多数关于多代理强化学习(MARL)的工作都是通过直接学习每个代理的策略来实现最佳协作,从而最大限度地提高公共奖励。在本文中,我们的目标是从另一个角度来解决这个问题。特别是,我们考虑的场景是,有一些自我意识的人(工人代理),他们有自己的想法(偏好、意图、技能等),并且不能听命去执行他们不想做的任务。为了实现这些代理之间的最佳协调,我们训练一个超级代理(经理),通过根据当前和过去的观察推断他们的想法来管理他们,然后发起契约,将合适的任务分配给工人,并承诺给他们相应的奖金,以便让他们同意一起工作。管理者的目标是最大限度地提高整体生产力,同时最大限度地减少向临时团队支付的费用。为了对管理者进行训练,我们提出了由智能体建模和策略学习组成的多智能体管理强化学习。我们已经在两个环境中评估了我们的方法:资源收集和制作,以通过各种任务设置和工人代理的多种设计来模拟多代理管理问题。实验结果验证了我们的方法在在线模拟工人——代理人的思维以及实现具有良好通用性和快速适应性的最佳临时团队中的有效性。

  摘要:基于模型的强化学习(RL)被认为是减少阻碍无模型 RL 的样本复杂性的一种有前途的方法。然而,对这些方法的思想的理论理解却相当有限。本文介绍了一种新的算法框架,用于设计和分析具有理论保证的基于模型的 RL 算法。我们设计了一个元算法,在理论上保证局部改进到期望反馈的局部最大值,该元算法根据估计的动力学模型和样本轨迹迭代地建立期望反馈的下界,然后在策略和模型上共同最大化下界。该框架将面对不确定性行为的优先探索扩展到非线性动力学模型,不需要显式地量化不确定性。通过对我们的框架进行简化,我们给出了一种基于模型的随机下界优化(SLBO) RL 算法的变体。实验证明,当一系列连续控制基准任务中允许至少一百万个样本时,SLBO 达到了世界领先水平的性能。

  摘要:众所周知,用神经网络直接生成音乐音频是非常困难的,因为它有时需要在许多不同的时间尺度上连贯地建模。幸运的是,大多数音乐也是高度结构化的,可以表示为乐器上演奏的离散音符事件。在本文中,我们证明了通过使用 Notes 作为中间表示,可以训练一组能够在六个数量级(0.1 ms~_10 s)的时间尺度上转录、构建和合成具有连贯音乐结构的音频波形,我们称之为 Wave2Midi2Wave。我们发布了新的 MAESTRO (为同步音轨和组织编辑的 MIDI 和音频)数据集,实现了这一大进步。该数据集由超过 172 小时的虚拟钢琴表演组成,在音符标签和音频波形之间进行了精确校准(误差不超过 3 ms)。网络和数据集一起为创造新的音乐表达和可解释的神经模型提供了一种有前景的方法。

  摘要:无条件生成高保真图像是测试图像解码器性能的一个长期的基准。用于测试图像解码器的性能。自回归图像模型能够无条件地生成小图像,但将这些方法推广到更容易评估逼真度的大图像,仍然是一个开放性问题。其中的主要挑战是对大量的上下文进行编码的能力,并且,学习保持全局语义一致性和细节精确性的分布也很困难。为了解决前一个挑战,我们提出了一种条件解码器——子尺度像素网络(SPN),它生成的图像是一系列大小相等的子图像。该方法可以捕获图像的空间相关性,并要求对内存进行细分。为了解决后一个挑战,我们建议使用多维上向缩放,通过使用不同的 SPNs,扩大图像的大小和深度。我们评估了无条件生成尺寸为 256 的 CelebAHQ 和尺寸为 32 到 256 的 ImageNet 的 SPN。我们在多个设置中实现了最先进的可能的结果,在以前未探索的设置中建立了新的基准结果,并且能够在两个数据集的基础上生成非常高保真的大规模样本。

  摘要:无监督学习的一个主要目标是发现对后续任务有用的数据表示,从而不需要在训练期间访问受监督的标签。通常,这涉及到最小化替代目标,例如生成模型的负对数概率,以期对后续任务有用的表示将会产生影响。在这项工作中,我们建议通过元学习(meta-learning)直接把以后需要的任务当做目标。这是一个无监督的学习规则,它会导致对这些任务有用的表示。具体来说,我们以半监督分类性能为目标,元学习了一个算法,一个无监督的权重更新规则——它生成了对这项任务有用的表示。此外,我们将无监督更新规则约束为生物动机的神经元局部函数,使其能够推广到不同的神经网络体系结构、数据集和数据模式。我们展示了元学习更新规则产生有用的功能,它有时优于现有的无监督学习技术。进一步证明了元学习无监督更新规则推广到具有不同宽度、深度和非线性的训练网络。它还推广到随机置换输入维度的数据的训练,甚至将图像数据集类推到文本任务。

http://3dtvsource.com/tuxiangbizhendu/287.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有