cs224r - Tags - Midnight Margins

2025-12-22

初学强化学习有感

最近在看CS224R的课程，模仿学习中提到了DAger方法。其中提到，纯粹靠模仿专家轨迹训练出来的模型泛化性不足，所以可以依靠给出一个专家模型（这个模型可以是NN也可以是真的人类专家），针对实际场景中超出模仿学习采样空间的状态，通过迭代收集模型的状态分布，并用专家动作标注，逐步提升模型在这些状态上的

Tags: #cs224r

初学强化学习有感