【101强化学习】RepresentationLowerBound
清华大学毕业证叉信息学院博士
姚班毕业的学生是今天本文的作者之一,RuosongWang他们的理论工作很有趣。
每个人都根据许多不同的假设设计了不同的理论工作provablyefficient算法,给出了相应的upperbound,这相当于找到了efficientalgorithm许多充分的条件。然而,在不同的论文中使用了许多不同的假设,他们之间的关系很难说清楚。这篇论文反过来思考了哪些条件efficientalgorithm不可能设计必要的条件,即么条件,就不可能设计出来efficientalgorithm。
讲座结束后,我和王若松交谈,整理了我最近读到的一些关于加强学习理论方向的工作;此外,我发现这篇文章paper的relatedwork写的也很好,所以特别记录下来。特别注意什么已经注意到了solved,还有什么?openproblem,根据某些维度,不同的流派和做法可以区分他们的工作。
首先,强化学习理论问题可以分为两部分:如何阅读样本点
第一块是tabularcase,也就是说,状态空间是离散的。在这种情况下,相关的RL问题基本解决,理论分析允许stochastictransition、stochasticreward、unknowndynamics、arbitraryinitialstatedistribution等。已知的upperbound和lowerbound只差一个H(planninghorizon),大致上samplecomplexity基本为,具体可见姜楠老师paper[1]。
本文的贡献与以前的工作有以下关系
注意到RL(指定的初始状态分布只能通过动作/策略转移到不同的状态)>generativemodel>>knowntransition(完全知道整个转移概率函数)。因此,只要证明前面的设置upperbound,后面设置了相应的设置upperbound;只要证明后面的设置lowerbound,即在前面的设置下有相应的设置lowerbound。
对于policy-based就方法而言,一个好的特点是能够表达最佳策略,即
这样的假设显然是比较Q*realizability弱者。假如把前面的假设看作是regression存在合适的regression这里相当于假设在一个classification问题中有一个分界面。考虑到一些监督学习的通用假设,通常假设分界面有一个margin,即
如果有两个action太相似了,所以optimalpolicy和suboptimalpolicy很难区分,所以一般假设有一个gap。
我们在下面的证明表中『exactLinearQ* gap generativemodel』有效算法。
注意到d是feature当有一个维度和一个维度时gap,考虑到optimalpolicy能用d如果表示维特征的线性组合,样本可以以概率区分某一层h上的optimalpolicy;从H-1到1跑这个算法;在第一位h层的时候,它后面Q可以使用已经学到的估计h 1到H-1层的optimalpolicy来rollout。
思路差不多。
先看一个直观难的例子,说明即使是feature线性函数拟合足以表示真实的价值函数或策略(valuecompletenessassumption),还是会有关系的planninghorizonH指数难。
Dynamics:如何阅读样本点?
考虑有两个action的DetMDP,假如选第一个action如果你选择第二个,去左节点。Reward:如何阅读样本点?
在最后一层的某种状态下reward=1,其他状态reward=0。初步分析:直观来说,因为最后一层的所有状态至少要经历一遍,才能知道那个状态是有的reward,所以至少需要样本。这是因为,尽管假设DetMDP,其中reward虽然是确定性的,但是未知的。tabularcase下面认为状态数是固定的,这里认为会有很多状态(比如这里有状态),但是可以使用有限的维度feature来表示。
先看一个简单的设置:假设只有一维feature,并且这个feature是binary是的,假设达到一个状态,它feature=1,如果它上面reward=0,那么就可以排除其他所有feature=1状态。这个想法很粗糙,但它解释了一个问题,如果representation如果维度较低,可以通过representation基于已知样本的相似性进行泛化,使我们无需访问每个状态就能探索到rewardfunction的形态。
有了valuecompletenessassumption之后真的能减少我们对每个状态的访问次数吗?最重要的是,答案是否!我们可以找到一个低维的特征,表示它可以包含一个类似的标准正交基!请注意,一个类似的标准正交基必须是任意的rewardfunction都满足valuecompletenessassumption;同时,如果为标准正交基,那么探索到一个标准正交向量对应的状态对于标准正交基中其他的向量并不会带来任何的信息量。因此,我们即使有了这样的一个满足valuecompletenessassumption还需要二次查询才能找到表示reward=1状态。。。状态。。。状态。。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。状态。
下面从另一个角度进行分析。
当时的算法设计设计思路,最重要的是利用了这样的已知条件。在这种情况下,考虑一个d只要我们知道维的特征,d线性无关的特征和相应的特征Q值,我们可以知道它们拟合得到的一定等于真实。
但这种情况不适用于下图左侧的例子。d=2,在和DetMDP如果你知道橙色的两个向量特征和Q值,然后我们可以拟合线性函数的系数,从而非常安全地预测任何特征(如绿色特征)对应Q值。但当时我们只知道橙色两个特征的最佳拟合精度在范围内,这个系数w值的范围在一个狭窄的区域(你可以在纸上画)。在这种情况下,当预测垂直于橙色向量的向量时,会产生任何大的误差。
考虑一个更常见的情况,看上图右边的例子。当时,它几乎被收集到d点可以安全地泛化整个空间;但在这种情况下,如果数据采样分布在上面的橙色椭球范围内,我们只能在椭球的主轴方向上有更好的泛化,但在其垂直方向上,泛化误差将非常大。
考虑有H层层的情况h每一层state-actionpair对应的Q函数已经学好了Q*函数获得,考虑此时已经存在的误差。考虑到上述原因,这一层的估计误差可以写
其中C表示样本点covariancematrix。为了控制红色相对较小(红色部分小于1),我们需要收集的样本数量几乎相同。这样,每层的误差都会被放大,这样误差就会呈指数级增长。
在一些model-based有一些算法可以有效地对抗拟合误差(例如,蓝色表中列出的一些工作)。困难不来自监督学习的过程,例如,我们可以假设gap、margin等等,但问题还是没有解决。困难不来自环境dynamics未知。如果一个环境dynamics难(比如上面提到的二叉树例子),即使告诉你,也不会告诉你。rewardfunction,您还需要探索指数样本rewardfunction。最大的困难来自distributionmismatch。如果把RL看做是SL(有监督学习),所以智能体一开始不知道优化哪个分布。Agarwaletal2022从上面也可以看出,只要做了一个关于distribution许多问题可以很容易地解决。
感谢王若松PPT和talk!如何阅读10654785个原始样本点的设计图片,包括如何阅读图片、材料、海报、证书背景、源文件PSD、PNG、JPG、AI、CDR等格式素材!
毕业证样本网创作《如何阅读样本点(强化学习 101Representation Lower Bound)》发布不易,请尊重! 转转请注明出处:https://www.czyyhgd.com/177190.html