初学强化学习有感
最近在看CS224R的课程,模仿学习中提到了DAger方法。其中提到,纯粹靠模仿专家轨迹训练出来的模型泛化性不足,所以可以依靠给出一个专家模型(这个模型可以是NN也可以是真的人类专家),针对实际场景中超出模仿学习采样空间的状态,通过迭代收集模型的状态分布,并用专家动作标注,逐步提升模型在这些状态上的表现,换言之就是让模型的状态分布逐渐接近专家,并在这些状态上学习专家的行为。这个思路与最近看的《深度学习导论》提到的分布偏移的说法是一样的,依靠纯粹的SFT训练难以很好泛化。这个现象不只是RL,其实在感知领域也广泛存在,组织训练一轮的成本不低,但是到新场景发现不work又需要打回来训练。我觉得感知认为完全可以参考RL的做法,用专家模型(MoE LVM)在生产场景在线训练学生模型。甚至可以引申出学习效果的热力图分布(空间、场景、物体),引导我们更好的关注问题分布。
Comments