top of page
  • Writer's pictureJohn Yun

强化学习的未来 - 第1部分 Hunter Heidenreich


2018年8月8日

想象一下,每个计算机系统都根据您自己的个性进行定制。它可以了解您的沟通方式以及您希望如何与之沟通的细微差别。与计算机系统的交互变得比以往任何时候都更加直观和技术素养天空火箭。这些是您在未来强化学习成为常态时可能会看到的潜在结果。

在本文中,我们将打破强化学习,并剖析一些组成一个强化学习系统的组件。

强化学习的高级概述

如果您以前从未听说过强化学习(RL),请不要担心!这个概念很直接。在很高的层次上,强化学习只是一种学习基于其从环境接收的反馈信号与环境交互的代理。这使得它与其他机器学习方法不同,其中学习代理可能在培训期间看到正确的答案。在强化学习中,我们可以将我们的学习代理视为获得成绩或分数,以让它了解其表现。

让我们根据视频游戏构建这个想法。假设我们有一个玩Mario游戏的计算机程序。它学会控制角色,以变化的屏幕形式接收来自环境的反馈。基于我们算法的成功(或失败),它可以学习与环境交互并通过使用它收到的反馈来改进。


强化学习试图模仿人类或其他智能存在可能与新环境相互作用的方式:反复试验。它源于计算机科学,心理学,神经科学,数学等许多领域的研究成果。虽然今天在工业界看到RL并不常见,但它的影响潜力巨大。


强化学习确实是许多领域的顶点,在优化和行为心理学方面有着丰富的历史。

这个潜力是我打算为你解压缩的。

强化学习词汇作为马里奥游戏

我们已经触及了玩视频游戏的RL的典型例子。现在让我们继续使用我们的马里奥示例,同时我们深入研究这个概念和围绕概念的词汇。

特工:马里奥

首先,我们有代理商。我们的代理是我们的算法和我们的程序。这是行动的大脑。它将与我们的环境进行互动。在这种情况下,我们的经纪人是马里奥,他会打电话给所有人。


我们的经纪人:马里奥

环境:游戏关卡

代理存在于环境范围内。环境是我们正在玩的马里奥的水平。它是屏幕上的敌人和构成世界的街区。时钟正在下降,分数正在上升(或者我们希望!)。我们的代理人的目标是以一种获得奖励的方式与环境互动。


动作:跳跃,躲避,前进

什么是奖励,我们的代理人如何收到奖励?好吧,我们的代理人必须与环境互动。它可以通过从可能采取的行动列表中选择一个动作来实现。也许我们的经纪人马里奥决定跳起来。或者向右或向左移动。也许他们有火球加油,因此我们的经纪人决定开火一次。关键是,这些行动中的每一个都将改变环境并导致变化。我们的代理人可以观察到这种变化,将其用作反馈信号,并从中学习。


人类可能用于执行影响环境的操作的界面

国家:马里奥+行动+环境=国家

我们的代理观察到的这些变化是环境状态的变化。我们的代理人观察到的新状态可能会产生“奖励”信号。将代理所采取的行动,状态的变化以及从状态变化中获得的潜在回报相结合,代理开始为他们正在探索的环境建立一个工作模型。


国家从我们可以观察到的内容中获取有关环境中发生的事情的所有信息。像我们的角色,我们当前的分数和屏幕上的敌人这样的事情都会影响我们当前的环境状况。

奖励:积分+保持活力

如果经纪人知道当它跳跃并落在敌人身上时,它会得到一个点提升并且不再被所述敌人杀死,这是一件好事!它也可能会发现,如果马里奥陷入困境,比赛就结束了,没有机会获得更多分数或赢得比赛。这些是代理可以随着时间的推移学习的东西,它与环境的交互越多,它学到的就越多。


在马里奥,衡量奖励的好方法可能就是得分!

这包括引入强化学习问题的所有主要组成部分。从这一部分中保留的重要事项是代理,环境,行动,状态和奖励,并尝试在您的头脑中找到一个有效的定义。

如果您更像是一个视觉学习者,这个图像可以非常好地将这些图像完美地结合在一起。


所有组件汇集在一起​​,以构成代理如何从其环境中学习!

它是如何工作的?

现在我们了解了一些基本词汇,我们可以应用它来学习代理如何运作。代理人如何决定应该采取哪些措施来最大限度地获得奖励?

我们需要剖析两个主流来理解:RL代理需要及其子元素。


强化学习需求

RL代理人必须学会决定在充满不确定性的环境中采取什么样的好行动。反馈作为时间延迟的奖励信号被接收为观察到的状态变化和可以从其计算的奖励。代理人必须能够探索这种不确定性并推断为何给予奖励。要做到这一点,代理需要有三个简单的事情:动作,目标和感官。

操作

操作是代理在任何给定时刻可以对环境进行的操作列表。通过行动,代理人会影响其环境并改变其状态。如果不能做到这一点,代理人就永远不能积极地影响国家,从其行为如何积极或消极地影响环境中获得任何可解释的奖励,甚至学会在未来采取更好的行动。


某人可能使用Atari控制器执行的操作列表。

目标

目标是我们如何定义奖励信号。我们根据视频游戏中的积分奖励吗?完成一个级别?什么是好的和坏的行为?这些是我们在RL上下文中定义目标时必须考虑的问题。这就是我们激励代理完成任务的方式。


一个简单的目标设置。如何从头到尾获得?

感官

感官是代理人用来观察环境的东西。在视频游戏设置中,使用计算机视觉设置中的技术来观察屏幕上的对象以及当我们的代理采取操作时它们如何变化可能是有用的。也许我们使用光学字符识别来观察点值。关键是,如果代理人无法感知环境,他们就无法推断他们的行为如何影响环境。因此,我们需要感官来监控我们正在与之交互的环境。

强化学习系统的子要素

现在,我们可以转换到RL系统的子元素:策略,奖励信号,价值函数和环境的最佳模型。

政策

政策是我们RL代理的核心。这是我们的代理在给定当前环境状态时的行为方式。这是我们的代理人在国家采取的行动。在生物学中,我们可能会看到一个政策,即生物体如何根据它所接受的刺激作出反应。我们的代理人观察环境状况,政策就是它学会了做的事情。良好的政策将产生积极的结果。


我们的政策将决定代理人在环境状况下会做些什么。我们可以在这里看到一个策略可能是给定某个区块,我们的代理在某个方向上移动。

奖励信号

奖励信号是我们衡量代理商成功与否的方式。这是我们在实现目标方面取得成功的数字衡量标准。奖励信号可以是正面的或负面的,从而允许我们的代理人衡量一个行为是好的,坏的还是中立的。这些可以是视频游戏中的点值,也可以是我们的代理人是否还活着。关键是我们的代理人接收这些奖励信号,衡量当前目标的表现如何,并根据这些反馈调整其政策,以便它可以进一步改变环境,以最大化它可能获得的未来奖励。


价值功能

我们可以将奖励信号视为行动是好还是坏的直接指标。然而,强化学习不仅仅是立即的积极或消极结果。这是关于在任务中取得最大成功的长期计划。为了模拟这种长期性能,我们引入了一个称为价值函数的概念。价值函数是对我们的代理人获得长期成功的可能性的估计。这很难估计和测量,但它是我们RL问题最重要的组成部分之一!在不确定的环境中,我们的代理人将不断修改他们在多次迭代中的价值估计,学习更好地塑造政策和行动以接管长期的行动和状态序列。


由代理人塑造的价值函数的可视化。随着它的状态越来越肯定其潜在的长期奖励,它可以为这一挑战提出解决方案。

环境优化模型

最后,我们的RL系统可以对环境进行建模。我说可能因为并非所有的RL代理都会为环境建模。一些代理人只是通过反复试验来学习,通过良好的价值功能和政策组合来构建一种有点隐含的环境模型。其他代理可以明确地创建环境的内部模型,允许代理基于其希望直接采取的动作来预测结果状态和奖励。这似乎是一种非常好的方法,但在高度复杂的环境中,构建这样的内部模型非常困难,因此代理商通常不会选择此策略。


当代理人探索环境时,他们可以对周围的世界进行3D解释,以帮助他们推断他们将来可能采取的行动。

摘要

有了这些基本概念,我们就可以开始看到这个未来,计算机系统根据我们的行为和反应进行学习,专门针对我们的个性进行调整。在我们上面示例的Mario代理中,我们可以设想未来的计算机系统,这些系统可以读取我们的行为和反应,就像马里奥角色读取环境一样。它获得了更多的奖励信号,它使我们更快乐,更快地达到目标。很容易看出未来的结果如何在我们的能力范围内。

即将推出:第2部分和第3部分

所有这些结合在一起为我们提供了增强系统如何执行和运行的基本概述。这篇高级入门将对我们的第2部分文章有所帮助,我们将讨论强化学习如何与其他类型的机器学习相比较,以及我们在制定强化学习问题时考虑的一些因素,以及我们在第3部分中我们看一些最近的成就和强化学习领域的开放研究问题。

观看马里奥游戏!看看您是否可以识别强化学习场景中需要的所有元素。

5 views0 comments

Recent Posts

See All

简单解释:AI程序如何掌握Go的古老游戏

https://medium.com/free-code-camp/explained-simply-how-an-ai-program-mastered-the-ancient-game-of-go-62b8940a9080 这是关于AlphaGo,谷歌DeepMind的Go玩AI在2016年通过击败世界上最好的球员之一Lee Sedol震撼了技术世界。 Go是一款古老的棋盘游戏,每一步都有很多

人工智能 概述

https://en.wikipedia.org/wiki/Artificial_intelligence 计算机科学,人工智能(AI),有时也称为机器智能,是机器展示的智能,与人类展示的自然智能形成鲜明对比。俗话说,“人工智能”一词通常用于描述模仿人类与人类心灵相关的“认知”功能的机器(或计算机),如“学习”和“解决问题”。[1] 随着机器越来越强大,被认为需要“智能”的任务通常会从AI的定义中

bottom of page