RL 和传统的监督学习和无监督学习是有区别的,RL 没有 label 只有 reward
数据是有时序性的,也就是数据之间并不是独立的
数据只会对它后面的数据造成影响
比如一个棋局只会对后面的落子有影响,当前位置只会对后面的位置移动产生作用
RL 的方法可以分为
- Model-free RL
- Model-based RL
Reward
一个 Reward $R_t$ 就是一个常数的信号,用来对状态的衡量,或者 agent 在时间 $t$ 做的好坏程度,agent 的目标就是最大化 reward,RL 的基础就是建立在最大化 reward 的假设
下面是一些 reward 在特定任务下的例子:
State
- History:可以由上面介绍的组成一个序列 $H_t= O_1,R_1,A_1,…,A_{t-1},O_t,R_t$
- State: 其实就是信息,决定着接下来会发生的信息是什么,State 只和 history 有关 $S_t = f(H_t)$
- Environment State:隐藏在能给出反馈的环境中,一般是看不到的,看到也没用。。
- Agent State:决策者的状态 $S_t^a = f(H_t)$
- Information State:只包含历史中有用信息,例如假设了 Markov 性,inf state 只有之前的状态
Fully Observation Environments:$O_t = S_t^a = S_t^e$
Partially Observation Environments:间接的观察环境
Agent
RL 的 agent 一般有如下几个组件构成
- Policy:agent 的行为函数
- Value function:评价 state 或者 action 的好坏
- Model:agent 对于 Environment 的表示
Policy
policy 是 state 到 action 的映射,是 agent 的行为
Deterministic Policy:$a = \pi(s)$
Stochastic policy:$\pi(a|s) = P[A_t = a | S_t = s]$
Value Function
对于未来的预测
Model
model 是用来预测 environment 接下来会做什么
$\mathcal{P}$ 用来预测接下来的的 state
$\mathcal{R}$ 用来预测接下来的 reward
.