1.5 总结_深度强化学习实践（原书第2版）-QQ阅读仙侠女生网

1.5　总结

本章介绍了为什么RL很特殊以及它与监督学习和非监督学习之间的关系。然后介绍了RL的基本形式以及它们之间如何交互，之后介绍了MP、马尔可夫奖励过程以及MDP。这些知识将成为本书其余部分的基础。

下一章将从理论过渡到RL实践，包含了环境设置以及库的介绍，然后教你写下第一个智能体。