- 深度强化学习实践(原书第2版)
- (俄)马克西姆·拉潘
- 134字
- 2021-08-18 17:39:17
1.5 总结
本章介绍了为什么RL很特殊以及它与监督学习和非监督学习之间的关系。然后介绍了RL的基本形式以及它们之间如何交互,之后介绍了MP、马尔可夫奖励过程以及MDP。这些知识将成为本书其余部分的基础。
下一章将从理论过渡到RL实践,包含了环境设置以及库的介绍,然后教你写下第一个智能体。
本章介绍了为什么RL很特殊以及它与监督学习和非监督学习之间的关系。然后介绍了RL的基本形式以及它们之间如何交互,之后介绍了MP、马尔可夫奖励过程以及MDP。这些知识将成为本书其余部分的基础。
下一章将从理论过渡到RL实践,包含了环境设置以及库的介绍,然后教你写下第一个智能体。