Markov Process

在 markov 决策过程中,环境是完全观测到的

基本上大多数的 RL 问题都是 MDP 的形式

Definition: markov process 是 $\langle S,P \rangle$

  • S 是一个有限的状态集合
  • P 是状态转移矩阵

Markov Property

_”The Future is independent of the past given the present”_

Markov Chain

State Transition Matrix

矩阵的每一行的和是 1

Markov Reward Process

Markov Reward Process is a Markov chain with values

Definition: Markov Reward Process 是一个 $\langle S,P,R,\gamma \rangle$

  • S 是一个有限的集合
  • P 是状态转移矩阵
  • R 是反馈方程 $R_s = E[R_{t+1} | S_t=s]$
  • $\gamma$ 是衰减因子

Markov Decision Process

Extensions

.