Show Attend and Tell编码 Encoder输入是一张图片,输出是 caption,其中 caption 是长度为 C 的 K 维词向量
y = \{ \mathbf{y}_1,...,\mathbf{y}_C \}, \mathbf{y}_i \in R^K对于一张图片我们使用卷积神经网络来提取特征,总共提取 L 个特征向量,每一个都是 D 维的,对应这图像中的一部分
a ...
Continue reading...
Markov Process在 markov 决策过程中,环境是完全观测到的
基本上大多数的 RL 问题都是 MDP 的形式
Definition: markov process 是 ⟨S,P⟩
S 是一个有限的状态集合
P 是状态转移矩阵
Markov Property_”The Future is independent of the past giv...
Continue reading...