机器学习PWNS老学校Atari Games

你可以称之为“计算机科学家的复仇”。一种算法，使掌握着臭名昭着的Atari 2600 Game Montezuma的复仇的算法现在可以击败更多游戏，实现近乎完美的分数，帮助机器人探索现实世界的环境。Pakinam Amer报道。

[剪辑：叮当声

这是新利18luck体育第60届第二科学。我是pakinam amer。

无论您是专业游戏玩家还是偶尔每一次浸入那个世界中，你在玩一场视频游戏一次或甚至闪耀地击败的时候，你会被困在那里。我知道我有。也许，在你的沮丧中，你一点踢了一个控制台。也许你把它拿出来或-如果你是像我这样的80岁的孩子-制作了操纵杆支付。

现在，来自优步AI的一批计算机科学家正在为我们所有人都在为我们之前的情况进行复仇。使用一个简单的算法，标记为“go-explore”，他们回去了，击败了一些最令人惊叹的艰难的阿塔利游戏，这些游戏块的像素块和八个曲调曾经有挑战性，嘲笑甚至愤怒。[Adrien Ecoffet等，第一次回来，然后探索]

[剪辑：嗖嗖]

但除了实现童年幻想之外，还从80年代和90年代重新审视这些游戏的内容是什么？

据科学家们，谁发表了他们的工作自然，试验解决需要复杂的视频游戏，难以探索，让位于更好的学习算法。它们变得更加聪明，在真实的情景下更好地表现更好。

“Go-Demplore的一个很好的事情是，它不仅仅限于视频游戏，而且您还可以将其应用于像机器人等实际应用程序。”

那是Joost Huizationa.，其中一个主要研究人员优步AI.。Joost开发了Go-浏览Adrien Ecoffet.和其他科学家。

那么它如何实际工作？让我们从基础开始。当AI以像素的形式处理世界的图像时，它不知道哪个更改应该计数，应该忽略它。例如，在游戏环境中，在游戏环境中的天空中云层的模式的轻微变化可能在探索游戏时可能不重要。但确定遗漏遗漏是。但对于AI来说，两者都涉及在这个世界中改变几个像素。

这是深度加强学习进入的地方。它是一个机器学习领域，帮助代理人分析环境，以决定什么是基于外在和内在奖励的形式的反馈信号和哪些动作计数。

“这基本上是动物一直在做的事情。你可以想象，如果你碰了一个热炉子，你马上就会得到强烈的负面反馈，比如‘嘿，这是你以后不应该做的事情。如果你吃了一块巧克力，假设你喜欢巧克力，你马上就会得到一个积极的反馈信号，比如‘嘿，也许我以后应该多找些巧克力。机器学习也是如此。在这些问题中，代理必须采取一些行动，然后才可能赢得游戏。”

创建一个可以使用陷阱导航客房的算法，跳过的障碍，收集和捕捉以避免避免的奖励，意味着您必须创造一个好奇的人工智能，可以以聪明的方式探索环境。这有助于它决定是什么让它更接近目标或如何收集难以获得的宝藏。

加强学习对于那种情况非常好，但在各种情况下它并不完善。

“在实践中，加强学习工作非常好，如果你有非常丰富的反馈 - 如果你能告诉，'嘿，这一举动很好，那个举动是坏的，这种举动很好，那个举动是坏的。”

在Atari游戏中像Montezuma的复仇，游戏环境提供了很少的反馈，它的奖励可以故意导致死角。随机探索的空间只是没有削减它。

“You could imagine, and this is especially true in video games like Montezuma’s Revenge, that sometimes you have to take a lot of very specific actions—you have to dodge hazards, jump over enemies—you can imagine that random actions like,‘Hey, maybe I should jump here,’ in this new place, is just going to lead to a ‘Game Over’ because that was a bad place to jump—especially if you’re already fairly deep into the game. So let’s say you want to explore level two: if you start taking random actions in level one and just randomly dying, you’re not going to make progress on exploring level two.”

您不能依赖“内在动机”单独，在人工智能的背景下，通常来自探索新的或不寻常的情况。

“让我们说你有一个机器人，它可以左转进入房子。让我们起初说它离开了，它探讨了，这意味着它得到了这个内在的奖励。它并不完全完成探索左手，并且在某些时候，集会结束，它在起始房间重新开始。这次它是正确的。它进入右边的房间里;它不太探索它。然后它回到了起跑室。现在问题是因为它已经离开了，基本上它已经看到了开始，它不再获得那里的内在动机。“

简而言之，它停止探索和计数作为胜利。

在收集奖励后之前访问过的地方的脱离在困难的比赛中不起作用，因为你可能会遗漏重要的线索。

Go-explore绕过这个不是奖励一些行动，例如新的地方。相反，它鼓励空间的“足够的探索”，通过使其代理商明确地“记住”在游戏中有前途的地方或国家来说，不可用或没有暗示的暗示。

一旦代理程序保留了该状态的记录，它就可以重新加载它并故意探索 - adrien和joost呼叫，“第一个返回，然后探索”原则。

根据Adrien的说法，倾向于另一种称为仿制学习的学习，在那里代理可以模仿人类的任务，他们的AI可以走很长的路，特别是在机器人领域。

“你可以在世界上培训和现实世界之间的差异。所以一个例子是如果你正在做机器人学习：你知道，在机器人学中，可以使用机器人环境的模拟。但是，当然，你希望你的机器人在现实世界中运行，对吗？那么你能做什么，然后？如果您在这样的情况下，当然，模拟与环境完全相同，因此只需在模拟中有效的东西并不一定就是足够的。我们在我们的工作中表明了这一点。What we’re doing is that we’re using existing algorithms that are called ‘imitation learning.’ And what it is is it just takes an existing solution to a problem and just makes sure that you can reliably use that solution even when, you know, there are slight variations in your environment, including, you know, it being the real world rather than a simulation.”

Adrien和Joost说他们的模型的实力在于它的简单性。它可以轻松调整和扩展到语言学习或药物设计之类的现实生活中。

这是60秒的科学，这是Pakinam Amer。谢谢你的倾听。

-Pakinam Amer.

[上面的文字是这个播客的成绩单。]

关闭成绩单

权限和权限