技术报告中的iteration的疑问

#5
by sthsf - opened

请教一下,技术报告中提到fine-tuning阶段的数据量大概是4.2M左右,按照fine-tuning的算力和batch_size的设置,figure 4里面的500个iteration是不是一个完整的epoch都没有走完?

哈喽你好Figure 4是用于说明Cross-GPU Batch Balance策略和朴素策略下的Loss收敛的变化,只选取的训练前期的Loss-Iter曲线并不是完整曲线,用于比较明确的说明收益。

Vurkty changed discussion status to closed

Sign up or log in to comment