这几天一直在烧Paddle的时长卡,总结一下训练的经验:

  1. 尝试新网络时不要过早的进行正则化(增广、Weight Decay、余弦退火);
  2. 选定网络后,根据任务特点,尝试Heavy Augments,尽情的塞入;
  3. 网络、增广选定后,检测测试集效果,酌情加入正则化:Weight Decay,Dropout、余弦退火;
  4. 由于Paddle暂不支持余弦退火,可以自己手动重启训练。第一轮lr=0.01(batchsize=128),发现loss不在下降甚至上升后重启训练;第二轮从最优模型开始,lr=0.001(每轮decay=0.1),epoch长度减半,以此类推;大概到第4轮基本饱和。余弦退火也可以看作是一种正则化方法,原理就是反复跳出局部收敛区域。
最后修改日期: 2020年3月4日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。