Markov Process
在 markov 决策过程中,环境是完全观测到的
基本上大多数的 RL 问题都是 MDP 的形式
Definition: markov process 是 $\langle S,P \rangle$
- S 是一个有限的状态集合
- P 是状态转移矩阵
Markov Property
_”The Future is independent of the past given the present”_
Markov Chain
State Transition Matrix
矩阵的每一行的和是 1
Markov Reward Process
Markov Reward Process is a Markov chain with values
Definition: Markov Reward Process 是一个 $\langle S,P,R,\gamma \rangle$
- S 是一个有限的集合
- P 是状态转移矩阵
- R 是反馈方程 $R_s = E[R_{t+1} | S_t=s]$
- $\gamma$ 是衰减因子
Markov Decision Process
Extensions
.