Tags: #cs224r

初学强化学习有感

最近在看CS224R的课程,模仿学习中提到了DAger方法。其中提到,纯粹靠模仿专家轨迹训练出来的模型泛化性不足,所以可以依靠给出一个专家模型(这个模型可以是NN也可以是真的人类专家),针对实际场景中超出模仿学习采样空间的状态,通过迭代收集模型的状态分布,并用专家动作标注,逐步提升模型在这些状态上的