强化学习中的线性值函数逼近器的设计及研究外文翻译资料

2023-02-25 01:02

英文翻译

This framework is abstract and flexible and can be applied to many different problems in many different ways. For example, the time steps need not refer to fixed intervals of real time; they can refer to arbitrary successive stages of decision-making and acting. The actions can be low-level controls, such as the voltages applied to the motors of a robot arm, or high-level decisions, such as whether or not to have lunch or to go to graduate school. Similarly, the states can take a wide variety of forms. They can be completely determined by low-level sensations, such as direct sensor readings, or they can be more high-level and abstract, such as symbolic descriptions of objects in a room. Some of what makes up a state could be based on memory of past sensations or even be entirely mental or subjective. For example, an agent could be in 'the state' of not being sure where an object is, or of having just been 'surprised' in some clearly defined sense. Similarly, some actions might be totally mental or computational. For example, some actions might control what an agent chooses to think about, or where it focuses its attention. In general, actions can be any decisions we want to learn how to make, and the states can be anything we can know that might be useful in making them.

The general rule we follow is that anything that cannot be changed arbitrarily by the agent is considered to be outside of it and thus part of its environment. We do not assume that everything in the environment is unknown to the agent. For example, the agent often knows quite a bit about how its rewards are computed as a function of its actions and the states in which they are taken. But we always consider the reward computation to be external to the agent because it defines the task facing the agent and thus must be beyond its ability to change arbitrarily. In fact, in some cases the agent may know everything about how its environment works and still face a difficult reinforcement learning task, just as we may know exactly how a puzzle like Rubiks cube works, but still be unable to solve it. The agent-environment boundary represents the limit of the agents absolute control, not of its knowledge.

The agent-environment boundary can be located at different places for different purposes. In a complicated robot, many different agents may be operating at once, each with its own boundary. For example, one agent may make high-level decisions which form part of the states faced by a lower-level agent that implements the high-level decisions. In practice, the agent-environment boundary is determined once one has selected particular states, actions, and rewards, and thus has identified a specific decision-making task of interest.

The reinforcement learning framework is a considerable abstraction of the problem of goal-directed learning from interaction. It proposes that whatever the details of the sensory, memory, and control apparatus, and whatever objective one is trying to achieve, any problem of learning goal-directed behavior can be reduced to three signals passing back and forth between an agent and its environment: one signal to represent the choices made by the agent (the actions), one signal to represent the basis on which the choices are made (the states), and one signal to define the agents goal (the rewards). This framework may not be sufficient to represent all decision-learning problems usefully, but it has proved to be widely useful and applicable.

In reinforcement learning, the purpose or goal of the agent is formalized in terms of a special reward signal passing from the environment to the agent. At each time step, the reward is a simple number, . Informally, the agents goal is to maximize the total amount of reward it receives. This means maximizing not immediate reward, but cumulative reward in the long run.

The use of a reward signal to formalize the idea of a goal is one of the most distinctive features of reinforcement learning. Although this way of formulating goals might at first appear limiting, in practice it has proved to be flexible and widely applicable. The best way to see this is to consider examples of how it has been, or could be, used. For example, to make a robot learn to walk, researchers have provided reward on each time step proportional to the robots forward motion. In making a robot learn how to escape from a maze, the reward is often zero until it escapes, when it becomes . Another common approach in maze learning is to give a reward of for every time step that passes prior to escape; this encourages the agent to escape as quickly as possible. To make a robot learn to find and collect empty soda cans for recycling, one might give it a reward of zero most of the time, and then a reward of for each can collected (and confirmed as empty). One might also want to give the robot negative rewards when it bumps into things or when somebody yells at it. For an agent to learn to play checkers or chess, the natural rewards are for winning, for losing, and 0 for drawing and for all nonterminal positions.

In the reinforcement learning framework, the agent makes its decisions as a function of a signal from the environment called the environments state. In this section we discuss what is required of the state signal, and what kind of information we should and should not expect it to provide. In particular, we formally define a property of environments and their state signals that is of particular interest, called the Markov property.

In this book, by 'the state' we mean whatever information is available to the agent. We assume that the state is given by some preprocessing system that is nominally part of the environment. We do not address the issues of constructing, changing, or learning the state signal in this book. We take this approach not because we consider state representation to be unimportant, but in order to focus f

剩余内容已隐藏，支付完成后下载完整资料

中文

强化学习框架是抽象、灵活的,能够以很多不同方式应用于不同问题中.例如,时间步不必指固定的实际时间间隔,它们可以指决策和行动的任意连续阶段.动作可以是低层的控制,如应用于机器臂的电机电压,也可以是高层的决策,如是否要吃午饭或是去上学.同样,状态也有很多不同形式.它们可以完全由低层感知来决定,如直接的传感器仪表读数,也可以更高层和抽象,如一个房间中物体的符号描述.构成状态的因素有些可能是基于过去感知的记忆,甚至完全是精神或主观的记忆.例如,agent可能处在一个并不确定物体在哪的“状态”中,或是只是有感到“惊奇”的一些定义明确的感觉.同样,有些动作可能完全是精神或计算上的.例如,有些动作可以控制agent要选择考虑什么,或者哪里它要集中注意力.一般来说,动作可以是我们要学习如何做的任何决策,而状态可以是我们熟知的对决策有用的任何情形.

我们遵循的一般规则是任何不能被agent随意改变的东西都认为是在agent之外,因此属于环境部分.我们不去假设环境中的任何东西都是agent不知道的.例如,agent经常很清楚如何将奖赏作为一个动作以及采取该动作时的状态的函数来计算的,但是我们仍认为奖赏计算是在agent的外部,因为这样做就定义了面对agent的任务,因此也必定超出agent任意改变的能力.事实上,在某些情况下,agent可能知道它的环境如何工作,但是仍然面对着一个困难的强化学习任务,就像我们可能知道益智游戏如魔方如何工作,但仍不能求解一样.Agent－环境的界限代表agent的绝对控制（absolute control）的限制,而不是知识的限制.

Agent－环境的界限可以出于不同目的而位于不同地方.在一个复杂的机器人系统中,可能多个不同的agent被同时操作,每一个都有其自己的界限.例如,一个agent可能做一些高层决策,这些决策构成了执行高层决策的低层agent所面对的状态部分.在实践中,一旦我们选择了特定的状态、动作和奖赏,agent－环境界限就确定了,因此也就确定了一个我们感兴趣的具体决策任务.

强化学习框架是对从交互中以目标为导向的学习问题的一个重要抽象.它认为无论感觉、记忆、控制装置的细节是什么,无论要实现的目标是什么,任何以目标为导向的学习行为问题都可以简化为三个在agent及其环境之间来回传递的信号;一个信号代表agent所做的选择（动作,一个信号代表选择的基础（状态）,一个信号定义了agent的目标（奖赏）.该框架可能并不足以有效表示所有学习决策的问题,但是它已被证明具有广泛的适用性和应用性.

在强化学习中,agent的目标是根据一些从环境传递到agent的特殊奖赏信号进行形式化的.在每一个时间步中,奖赏都是一个简单的数字,r_tR.不太严格的说,agent的目标就是将它所得到的奖赏总和最大化.这意味着最大化的不是立即奖赏,而是长期运行过程中的累积奖赏.

用奖赏信号将一个目标的观点形式化是强化学习最明显的特征之一.尽管用这种方式来形式化目标也许在开始的时候显得有些局限性,但是在实践中它已经被证明具有较大的灵活性和适用性.明白这一点的最好方式是思考一些例子,看它如何被使用或可以被使用的.举例来说,使一个机器人学会走路,研究人员在每一个时间步给机器人与前进动作成比例的奖赏.使机器人学会如何走出迷宫时,奖赏在走出前一直是0,走出后变成了＋1.另一个在迷宫中学习的一般方法是在每一个时间步中给走出迷宫前的动作奖赏为－1；这样就鼓励了agent尽快的从迷宫中走出来.为了使机器人学会寻找和收集空易拉罐,在大部分时间里给它一个0奖赏,然后每收集一个,奖赏就加1（确认是空的易拉罐）.当然,也可以在它撞到什么东西或有人冲它大喊大叫时给机器人一个负奖赏.为让agent学习西洋跳棋或国际象棋,自然是胜利时奖赏为＋1,失败时为－1,平局或所有没有结局的位置时为0.

至今我们还没精确考虑学习的目标。我们曾经说过agent的目标是将长期运行过程中得到的奖赏最大化。如何正式定义这一目标呢？如果在时间步t之后得到的回报序列记为rt 1，rt 2，rt 3，hellip;，那么具体这个序列中哪些是我们想去最大化的？一般来说，我们设法最大化期望回报（expected return），其中回报Rt被定义为奖赏序列的一些具体函数。最简单的情况就是回报是奖赏的总和：

，（3.1）

其中T是终止时间步。这个方法在一些具有天然终止时间步的应用中很有实际意义，也就是说，当agent与环境的交互很自然地分成一个个子序列，在此我们称为情节（episode）^[1]，如比赛中的一次游戏，走迷宫，或任何反复交互的类型。每个情节以一个称之为终止状态（terminal state）的特殊状态结束，跟着是重置为一个标准的开始状态，或开始状态的标准分布中的一个样本。这种有情节的任务称为情节式任务（episodic task）。在情节式任务中，我们有时需要区分开所有非终止状态的集合（记为S）和所有状态加上终止状态的集合（标记为S ）。

另一方面，在很多情况下agent与环境的交互不会自然地分成可辨认的情节，而是无休止的继续下去。例如，这将是一种自然方式形成一个连续的处理和控制任务，或一个长期运行的机器人应用问题。我们称之为连续式任务（continuing task）。回报公式（3.1）对连续式任务是有问题的，因为最终的时间步T=infin;，而我们一直试图最大化的回报，它自己就很容易变成无穷大。（例如，设想agent在每一个时间步都得到 1的奖赏。）因此，在这本书中，我们通常使用的回报定义在概念上稍微复杂些，而在算术上更简单。

我们需要的另一个概念是折扣（discounting）。根据这个方法，agent尝试选择动作，以使它在未来所得到的折扣奖赏最大化。尤其是，它选择at来最大化预期的折扣回报（discounted return）：

（3.2）

其中gamma;是一个0le;gamma;le;1的参数，称为折扣率。

该折扣率决定着未来奖赏的当前价值：在将来的k时间步后得到的奖赏如果现在立即得到的话则价值仅为它所值的gamma;k-1倍。当gamma;lt;1时，只要奖赏序列{rk}是有界的，那么无穷奖赏序列之和有有穷值。当gamma;=0时，agent“近视”到只关注最大化立即奖赏：在这种情况下它的目标就是学习如何选择at以便仅仅最大化rt 1。如果每个agent的动作恰好仅影响立即奖赏，不同时影响未来奖赏的话，那么近视的agent是可以通过分别最大化每个立即奖赏来最大化（3.2）式的。但是一般来说，最大化立即奖赏的行为可能减少获得未来奖赏的途径，以致回报也可能事实上减少了。当gamma;接近于1的时候，未来奖赏纳入计算的目标将会更强烈：agent变得更有远见。

图3.2 杆子平衡任务

在强化学习框架中,agent使用一个来自环境的信号函数做决策,该信号称为环境的状态.在本节我们讨论;状态信号需要些什么?我们指望它提供什么信息,又不能指望它提供什么信,尤其是我们正式定义一个称为马尔可夫性的环境性质,以及它特别感兴趣的一些状态信号.

在本书,通过“状态”我们表示了对agent来说是可用的任何信息.我们假定状态是由一些名义上是环境部分的预处理系统给定的.本书不讨论构建、改变或学习状态信号的问题.我们采用这个方法不是因为状态表示不重要,而是为了全力集中在决策问题上.换句话说,我们主要关注的不是设计状态信号,而是关注决定采用什么动作,而该动作是一个可用状态信号的函数.

当然,状态信号应当包括直接的感觉,如传感器度量,但不仅限于如此.状态表示可能是原始感觉高度处理后的版本,也可能是随时间在感觉序列中建立起来的复杂结构.例如,我们可以在画面中移动眼球,在任何时候仅仅需要在视网膜上的一个微小动作就可以建立一幅丰富、详尽的画面.或者,更明显的是,我们可以看着一个目标然后视线离开,我们知道它仍在那儿.我们可以听到肯定的回答,并且认为自己是在一个曾经到过但从此不再听人提起的完全不同的状态中.更通俗地讲,控制系统可能在两个不同的时间测量位置,以产生包括速度信息在内的一个状态表示.所有这些情况中,状态都被建立起来,并维持在直接感觉、以及先前状态或一些过去感觉的其他记忆的基础上.本书不去探究它是如何做的,但是可以肯定的是它可以做并且已经做了.没有理由将状态表示限制在直接感觉上,在通常的应用中,应当指望状态表示可以告知agent比直接感觉多得多的东西.

另一方面,不应该指望状态信号告知agent关于环境的一切,或者甚至是一些对它做决策有用的东西.如果agent在玩二十一点游戏,我们不应该指望agent预先知道接下来要发什么牌.如果agent在接电话,我们不应该指望它预先知道是谁打电话过来.如果agent是交通事故的医护人员,我们不应该指望它立刻知道一个失去知觉的受伤者的内伤在哪儿.在所有这些情况中,环境中含有隐藏的状态信息,如果agent知道这些的话是有用的,但是agent无法知道,因为它从来没有得到过任何相关感觉.简而言之,我们不会因为agent不知道一些要紧的东西而怪它,而只会为知道但又忘了而怪它.

马尔可夫性在强化学习中是非常重要的,因为决策和值被假设为只是当前状态的函数.为了更有效和具有信息量,状态表示必须是具有信息量的.本书提到的所有理论均假设为马尔可夫状态信号.这表示不是所有理论都严格适用于那些不能严格适用马尔可夫性的情况中.但是,为马尔可夫情况发展出来的理论仍能帮助我们理解算法的表现,并且该算法可以成功应用于很多不是严格具有马尔可夫性的任务.对马尔可夫情况的全面理解对扩展到更复杂更现实的非马尔可夫情况是一个基础.最后,我们注意到马尔可夫状态表示的假设对强化学习来说不是唯一的,但是如果不用其他人工智能方法的话,它是用得最多的.如往常一样,我们从使用策略产生的经验中开始估计状态值函数的预测问题.本章的新奇之处就在于时刻的逼近值函数不是表示成一个表格,而是表示成一个带有参数向量的带参函数形式.这就意味着值函数完全取决于,只有改变才会一步步改变.例如,可能是一个由人工神经网络计算的函数,其连接权值向量是.通过调整权值,任何一个广阔范围内的不同函数都能由这个网络来实现.或者可能是一个由决策树计算的函数,其中就是定义分裂点和树的叶子值的参数.通常情况下参数的数量（分量的数量）要比状态的数量少得多,并且改变一个参数可以改变许多状态的估计值.因此,当单个状态被更新,这个改变就会从一个状态中泛化出去而影响到其他状态.

把每个更新解释为描述一个估计值函数期望的输入—输出行为的样例是很自然的事情.从某种意义上说,更新意味着状态的估计值应该更接近于.至今为止,更新的真正实现已经并不重要了;的估计值的表格入口已经简单地转变为一个向不断靠拢的小数.现在我们允许用任意复杂和深奥的函数逼近方法来实现更新.这些方法的普通输入是它们试图逼近的函数的期望的输入—输出行为的样例.对值预测我们简单地通过传递给它们每个更新的来使用这些方法作为它的一个训练样例.于是,我们把这些逼近函数解释为一个估计的值函数.

以这种方式把每个更新看成是一个常规的训练样本,使得我们能用任意一种现存的诸多函数逼近方法来进行值预测.从原理上讲,我们可以使用任何从样例中有监督学习的方法,包括人工神经网络,决策树以及各种类型的多元回归.但是并非所有的函数逼近方法都适合在强化学习中使用.多数高级的神经网络和统计方法都要假设一个静态的多传递的训练集合.但是在强化学习中,重要的是学习可以是在线发生的,此时它与环境或者环境的一个模型交互.为了做到这一点,需要学习方法能够从增量获得的数据中进行有效的学习.此外,强化学习通常还要求函数逼近方法能够处理非固定目标函数（即不断改变的目标函数）.例如,在GPI控制方法中,我们经常在改变时搜索学习.甚至在策略维持不变的情况下,如果训练样本的目标值是由bootstrapping方法（如DP和TD方法）产生的,那么它们也是非固定的.不能很容易处理这样的非固定问题的方法就不太适合用在强化学习中.

什么样的性能测量方法适合评价函数逼近方法呢？大多数监督学习方法试图最小化一些输入的分布的均误方差（MSE）。在我们的值预测问题中，输入是状态，而目标函数是正确的值函数，所以使用参数逼近的MSE是：

（8.1）其中是不同状态的误差的权值分配的分布。这个分布是十分重要的，因为它通常不可能把所有状态的误差降为0。毕竟，状态的数量要比的组成部分的数量大得多。因此，函数逼近器的灵活性是一个难得的资源。要得到某些状态的好的逼近方法则只有以其他状态的差的逼近为代价。分布说明了怎样平衡这些因素。

分布也经常是从训练样本抽取的状态中得到的分布，因此状态的分布已经做好了更新。如果我们希望最小化状态的一个特定分布的误差，那么用相同的分布下的样本来训练函数逼近器是比较有效的。例如，如果你想得到整个状态集合的一个一致的误差水平，那么比较有意义的做法就是用整个状态集合的分布一致的更新来训练，如一些DP方法中的一次全面扫描。今后，我们假定状态的分布已经做过更新并且分配权值的分布一样。

一个特定事情的分布就是用来描述当agent与环境交互并根据策略选择动作时遇到状态的频繁程度，它的值函数就是我们想要逼近的策略的值。我们把这个称为on－policy的分布，其一部分理由是因为它是在on－policy控制方法中的更新分布。最小化on－policy分布的误差主要把函数逼近的重点放在根据策略而实际发生的状态上，而忽视那些未发生的状态。on－policy分布同样也是使用蒙特卡罗或TD方法得到训练样本的最简单方法。这些方法使用策略从样本经验中产生更新。因为一个更新是为在经验中遇到的每个状态而产生的，所以可以利用的训练样本也就

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[501065]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码