技术报告中的iteration的疑问
#5
by
sthsf
- opened
请教一下,技术报告中提到fine-tuning阶段的数据量大概是4.2M左右,按照fine-tuning的算力和batch_size的设置,figure 4里面的500个iteration是不是一个完整的epoch都没有走完?
哈喽你好Figure 4是用于说明Cross-GPU Batch Balance策略和朴素策略下的Loss收敛的变化,只选取的训练前期的Loss-Iter曲线并不是完整曲线,用于比较明确的说明收益。
Vurkty
changed discussion status to
closed