强化学习 vs 监督学习
监督学习基础概念
马尔科夫过程
无后效性:未来与过去无关
马克科夫决策过程
增加了决策动作集A,由智能体触发状态转移。
实例