RL 和传统的监督学习和无监督学习是有区别的,RL 没有 label 只有 reward

数据是有时序性的,也就是数据之间并不是独立的

数据只会对它后面的数据造成影响

比如一个棋局只会对后面的落子有影响,当前位置只会对后面的位置移动产生作用

RL 的方法可以分为

  • Model-free RL
  • Model-based RL

Reward

一个 Reward $R_t$ 就是一个常数的信号,用来对状态的衡量,或者 agent 在时间 $t$ 做的好坏程度,agent 的目标就是最大化 reward,RL 的基础就是建立在最大化 reward 的假设

下面是一些 reward 在特定任务下的例子:

State

  • History:可以由上面介绍的组成一个序列 $H_t= O_1,R_1,A_1,…,A_{t-1},O_t,R_t$
  • State: 其实就是信息,决定着接下来会发生的信息是什么,State 只和 history 有关 $S_t = f(H_t)$
    • Environment State:隐藏在能给出反馈的环境中,一般是看不到的,看到也没用。。
    • Agent State:决策者的状态 $S_t^a = f(H_t)$
    • Information State:只包含历史中有用信息,例如假设了 Markov 性,inf state 只有之前的状态

Fully Observation Environments:$O_t = S_t^a = S_t^e$

Partially Observation Environments:间接的观察环境

Agent

RL 的 agent 一般有如下几个组件构成

  • Policy:agent 的行为函数
  • Value function:评价 state 或者 action 的好坏
  • Model:agent 对于 Environment 的表示

Policy

policy 是 state 到 action 的映射,是 agent 的行为

Deterministic Policy:$a = \pi(s)$

Stochastic policy:$\pi(a|s) = P[A_t = a | S_t = s]$

Value Function

对于未来的预测

Model

model 是用来预测 environment 接下来会做什么

$\mathcal{P}$ 用来预测接下来的的 state

$\mathcal{R}$ 用来预测接下来的 reward

.