论文笔记:Survey of Model-Based Reinforcement Learning

这几天学习一篇综述文章,做个小笔记. Title: Survey of Model-Based Reinforcement Learning: Applications on Robotics

[未完成,进行中.....]

需求: 自适应机器人: Adaptable Robot

难点: 强化学习需要机器人和环境的交互训练,这个过程有可能对机器人和环境造成损害,尤其是在人机协作的场合.

信念:虽然目前有非常多的困难，但是 RL 将使得机器人变得更加智能化.

RL/Model based/Model free

RL 和其他深度学习方法的区别在于 RL 包含了智能体与环境的交互,主要用于解决决策问题.

机器人的 state 可以表示为连续或离散值. 机器人控制器在状态 s,通过策略 π 生成动作 a(电机动作). 在确定性策略中, 产生唯一 a. 在随机用例中, 依赖于随机变量 ε,产生一个 a 的概率分布 π (a|s, ε).

RL 算法的目标是找到回报函数 r 的最大期望值.

RL 的研究大部分都是 Model free, 但近来 Model based RL approach 越来越多.

Model based RL 相比 Model free 在处理真实世界用例时还是有一定优势.

机器人与环境的交互是一个 MDP 马尔科夫过程. Model based 和 model free 的区别在于机器人与环境的交互模型. Model free 没有环境,模型,完全基于试错机制(trial and error).

$avatar$

本文对 Model based 方法进行分类. 标准如下:

价值函数 Value function 定义优化策略 Transition policy 方法转换模型 Transition model 和学习方法 Reward function: 回馈函数,给出策略

Return function: 回报函数,给出回报期望值

RL 方案 2 大类型

Value Function V 或 Value-action function Q Bellman 方程:

$avatar$

DP: Dynamic Programming:迭代算法. 策略碟调先进行对当前策略评估,计算状态或值函数;然后进行策略改进. transition dynamics
MC: Monte Carlo method: based on sampling
TDL: Temporal Difference Learning: 计入状态之间的 value difference
DDP:ifferential Dynamic Programming Policy search methods: 更适合解决高维的多自由度机器人问题
Gradient based methods
Expectation Maximization methods
Information Theory: Exploit concepts such as entropy
Bayesian optimization methods
Evolutionary computation Transition Models
Stochastic
Deterministic Return Functions
Discounted
Averaged

Policy search method

相比值函数方法通过最大化 Value 来确定策略,Policy search 方法通过对策略参数化, 寻找 optimal policy.

5 个主要分类:

梯度下降法调节神经网络的权重值. 一般先进行 simulation 训练,然后迁移到真实机器人上. 需要设置步长,可能遇到收敛慢的问题. The Probabilistic Inference for Learning Control (PILCO) framework 是当前最好的方法,训练需要的样本少, 速度快. 他的转移概率模型(Transition dynamics model)可以很好的处理不确定的输入, 对于轨迹预测表现好, 错误容忍度高. Sampling-based 方法 Bayesian method Evolution method Information Theory

Transition models

Application on Robotics(机器人应用)

UAV Hovering Maneuvering UGV Docking Navigation UUV Tracking Swimming Bipedal Kicking Walking Balancing Robotic Manipulators Surgical Motion control Ball-hitting

重点关注: Robotic Manipulator 应用方向

State 空间为连续值, 包含每个关机 joint 的位置 position 和速度 velocity 或加速度 acceleration 信息

Action 空间也是连续值, 为 3 维数据, 包含力矩 torque.

这个领域包含了小自由度的机器人,还有高自由度机器人如 PR2,避障任务等.

结论

前面讨论了 Model based RL 的成功经验. 但实际上这些应用都是简单化任务或游戏任务,如打乒乓球,羽毛球,钟摆等,尽管有一些自动驾驶方面的"成功案例",但在更关注可靠性与鲁棒性的场合如服务和工业机器人还缺乏成功证据. 不仅强化学习, 整个深度学习领域都缺乏成功案例.但是在环境或操作物体经常变化的人机协作领域场景下,强化学习还是可以提供帮助.

Model based RL 因为需要更少的环境交互,因此比 Model free 更为适合机器人学习.

环境交互少,对机器人磨损和伤害更轻微.因此我们通过本文分析如何应用 Model based approach 到服务和工业机器人,例如非常常见而且极具挑战性的 pick and place 操作. 产线装配就属于这个类型.

学习一个自适应的 pick and place 操作, 工具手需要具备传感器来感知环境和备操作物体, 识别障碍物. 避障功能至关重要. 回报值可定义为当前状态与目标状态的距离. 轨迹平滑则通过策略优化方法实现. 损失被定义为非预期状态如碰撞发生.

另外一个目标是策略学习过程的快速收敛.

值函数迭代方法在大的连续值状态和动作空间不适用,因为其 V 或 Q 函数需连续计算无终止条件.

Sampling 和 TD 学习方法因为没有 transition model 的先验模型也存在局限性.

DDP 来自于值函数方法,但具备可行性. DDP 对初始轨迹的约束条件限制了系统的自主性.

Information Theory 算法同样依赖于初始轨迹.因此, 策略搜索方法对于协作机器人应用更为合适.因为他们有能力通过参数化策略函数对策略学习问题降维. 这些算法中最有希望的是 gradient and sampling-based 方法.

Transition model 对于学习算法的效率非常重要.

目前机器人市场出现低价,适应性强的机器人. 这使得机器人更安全,更容易购买. 但这也带来一些问题:

弹性协作关节极难进行物理建模. Rethink 的机器人就是个例子. 廉价的内部传感器带来很多噪声干扰. 有些机器人如 UR 没有力矩传感器,而是用其他方法替代.

论文笔记:Survey of Model-Based Reinforcement Learning