Untitled

Untitled

强化学习 vs 监督学习

Untitled

Untitled

监督学习基础概念

Untitled

Untitled

Untitled

马尔科夫过程

Untitled

无后效性:未来与过去无关

马克科夫决策过程

增加了决策动作集A,由智能体触发状态转移。

Untitled

Untitled

Untitled

实例

Untitled

Untitled