一般来说batch size越小,越接近实际推理变化丰富的实际情况,小bs训练出的模型在val set上分数更高。
可以一开始尽可能的大bs训练,然后再在bs=1下继续收敛。
learning rate使用cosine退火策略可能有2%左右的提升。但是耗费的时间多得多,属于最后考虑的策略。
在实验开始初期,先在一个1min内能跑完1个epoch的train set上快速验证网络/loss是否设计合理。
一般来说batch size越小,越接近实际推理变化丰富的实际情况,小bs训练出的模型在val set上分数更高。
可以一开始尽可能的大bs训练,然后再在bs=1下继续收敛。
learning rate使用cosine退火策略可能有2%左右的提升。但是耗费的时间多得多,属于最后考虑的策略。
在实验开始初期,先在一个1min内能跑完1个epoch的train set上快速验证网络/loss是否设计合理。