transformer-8192-16M-test / trainer_log.jsonl

Training in progress, step 5000

bbc5b1a verified 3 months ago

30.6 kB

	{"current_steps": 32, "total_steps": 20000, "loss": 10.1989, "eval_loss": null, "predict_loss": null, "learning_rate": 4.7999999999999994e-05, "epoch": 0.0018226348464999715, "percentage": 0.16}
	{"current_steps": 64, "total_steps": 20000, "loss": 9.6443, "eval_loss": null, "predict_loss": null, "learning_rate": 9.599999999999999e-05, "epoch": 0.003645269692999943, "percentage": 0.32}
	{"current_steps": 96, "total_steps": 20000, "loss": 8.9072, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00014399999999999998, "epoch": 0.005467904539499914, "percentage": 0.48}
	{"current_steps": 128, "total_steps": 20000, "loss": 7.973, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00019199999999999998, "epoch": 0.007290539385999886, "percentage": 0.64}
	{"current_steps": 160, "total_steps": 20000, "loss": 7.2218, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023999999999999998, "epoch": 0.009113174232499858, "percentage": 0.8}
	{"current_steps": 192, "total_steps": 20000, "loss": 6.8723, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028799999999999995, "epoch": 0.010935809078999829, "percentage": 0.96}
	{"current_steps": 224, "total_steps": 20000, "loss": 6.6762, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002999990211974405, "epoch": 0.012758443925499801, "percentage": 1.12}
	{"current_steps": 256, "total_steps": 20000, "loss": 6.3837, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029999467099246324, "epoch": 0.014581078771999772, "percentage": 1.28}
	{"current_steps": 288, "total_steps": 20000, "loss": 6.2005, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029998684074125604, "epoch": 0.016403713618499745, "percentage": 1.44}
	{"current_steps": 320, "total_steps": 20000, "loss": 6.2262, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029997553064567596, "epoch": 0.018226348464999716, "percentage": 1.6}
	{"current_steps": 352, "total_steps": 20000, "loss": 5.8466, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002999607409972875, "epoch": 0.020048983311499687, "percentage": 1.76}
	{"current_steps": 384, "total_steps": 20000, "loss": 6.0215, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002999424721773551, "epoch": 0.021871618157999657, "percentage": 1.92}
	{"current_steps": 416, "total_steps": 20000, "loss": 5.7095, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029992072465683314, "epoch": 0.02369425300449963, "percentage": 2.08}
	{"current_steps": 448, "total_steps": 20000, "loss": 5.7009, "eval_loss": null, "predict_loss": null, "learning_rate": 0.000299895498996354, "epoch": 0.025516887850999603, "percentage": 2.24}
	{"current_steps": 480, "total_steps": 20000, "loss": 5.7069, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002998667958462134, "epoch": 0.027339522697499574, "percentage": 2.4}
	{"current_steps": 512, "total_steps": 20000, "loss": 5.718, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029983461594635383, "epoch": 0.029162157543999544, "percentage": 2.56}
	{"current_steps": 544, "total_steps": 20000, "loss": 5.5151, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029979896012634534, "epoch": 0.030984792390499515, "percentage": 2.72}
	{"current_steps": 576, "total_steps": 20000, "loss": 5.5678, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002997598293053643, "epoch": 0.03280742723699949, "percentage": 2.88}
	{"current_steps": 608, "total_steps": 20000, "loss": 5.2282, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002997172244921695, "epoch": 0.03463006208349946, "percentage": 3.04}
	{"current_steps": 640, "total_steps": 20000, "loss": 5.2922, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002996711467850762, "epoch": 0.03645269692999943, "percentage": 3.2}
	{"current_steps": 672, "total_steps": 20000, "loss": 5.2707, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029962159737192815, "epoch": 0.0382753317764994, "percentage": 3.36}
	{"current_steps": 704, "total_steps": 20000, "loss": 5.4287, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029956857753006636, "epoch": 0.04009796662299937, "percentage": 3.52}
	{"current_steps": 736, "total_steps": 20000, "loss": 5.2245, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029951208862629666, "epoch": 0.041920601469499344, "percentage": 3.68}
	{"current_steps": 768, "total_steps": 20000, "loss": 5.1859, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029945213211685426, "epoch": 0.043743236315999315, "percentage": 3.84}
	{"current_steps": 800, "total_steps": 20000, "loss": 5.1625, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002993887095473664, "epoch": 0.045565871162499286, "percentage": 4.0}
	{"current_steps": 832, "total_steps": 20000, "loss": 5.1964, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002993218225528122, "epoch": 0.04738850600899926, "percentage": 4.16}
	{"current_steps": 864, "total_steps": 20000, "loss": 5.224, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029925147285748055, "epoch": 0.049211140855499234, "percentage": 4.32}
	{"current_steps": 896, "total_steps": 20000, "loss": 5.1312, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002991776622749261, "epoch": 0.051033775701999205, "percentage": 4.48}
	{"current_steps": 928, "total_steps": 20000, "loss": 5.0118, "eval_loss": null, "predict_loss": null, "learning_rate": 0.000299100392707922, "epoch": 0.052856410548499176, "percentage": 4.64}
	{"current_steps": 960, "total_steps": 20000, "loss": 4.9445, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029901966614841115, "epoch": 0.05467904539499915, "percentage": 4.8}
	{"current_steps": 992, "total_steps": 20000, "loss": 4.9251, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002989354846774545, "epoch": 0.05650168024149912, "percentage": 4.96}
	{"current_steps": 1024, "total_steps": 20000, "loss": 4.9707, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002988478504651778, "epoch": 0.05832431508799909, "percentage": 5.12}
	{"current_steps": 1056, "total_steps": 20000, "loss": 4.9096, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002987567657707157, "epoch": 0.06014694993449906, "percentage": 5.28}
	{"current_steps": 1088, "total_steps": 20000, "loss": 4.7992, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029866223294215287, "epoch": 0.06196958478099903, "percentage": 5.44}
	{"current_steps": 1120, "total_steps": 20000, "loss": 4.7556, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002985642544164642, "epoch": 0.06379221962749901, "percentage": 5.6}
	{"current_steps": 1152, "total_steps": 20000, "loss": 4.8262, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002984628327194516, "epoch": 0.06561485447399898, "percentage": 5.76}
	{"current_steps": 1184, "total_steps": 20000, "loss": 4.7054, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029835797046567897, "epoch": 0.06743748932049895, "percentage": 5.92}
	{"current_steps": 1216, "total_steps": 20000, "loss": 4.766, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029824967035840485, "epoch": 0.06926012416699892, "percentage": 6.08}
	{"current_steps": 1248, "total_steps": 20000, "loss": 4.9407, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002981379351895126, "epoch": 0.07108275901349889, "percentage": 6.24}
	{"current_steps": 1280, "total_steps": 20000, "loss": 4.8247, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002980227678394385, "epoch": 0.07290539385999886, "percentage": 6.4}
	{"current_steps": 1312, "total_steps": 20000, "loss": 4.764, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002979041712770977, "epoch": 0.07472802870649883, "percentage": 6.56}
	{"current_steps": 1344, "total_steps": 20000, "loss": 4.8822, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002977821485598071, "epoch": 0.0765506635529988, "percentage": 6.72}
	{"current_steps": 1376, "total_steps": 20000, "loss": 4.8619, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029765670283320725, "epoch": 0.07837329839949878, "percentage": 6.88}
	{"current_steps": 1408, "total_steps": 20000, "loss": 4.7759, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029752783733118086, "epoch": 0.08019593324599875, "percentage": 7.04}
	{"current_steps": 1440, "total_steps": 20000, "loss": 4.7226, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029739555537576946, "epoch": 0.08201856809249872, "percentage": 7.2}
	{"current_steps": 1472, "total_steps": 20000, "loss": 4.7048, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002972598603770878, "epoch": 0.08384120293899869, "percentage": 7.36}
	{"current_steps": 1504, "total_steps": 20000, "loss": 4.6586, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002971207558332359, "epoch": 0.08566383778549866, "percentage": 7.52}
	{"current_steps": 1536, "total_steps": 20000, "loss": 4.5819, "eval_loss": null, "predict_loss": null, "learning_rate": 0.000296978245330209, "epoch": 0.08748647263199863, "percentage": 7.68}
	{"current_steps": 1568, "total_steps": 20000, "loss": 4.7554, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029683233254180504, "epoch": 0.0893091074784986, "percentage": 7.84}
	{"current_steps": 1600, "total_steps": 20000, "loss": 4.9152, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002966830212295299, "epoch": 0.09113174232499857, "percentage": 8.0}
	{"current_steps": 1632, "total_steps": 20000, "loss": 4.6103, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029653031524250043, "epoch": 0.09295437717149854, "percentage": 8.16}
	{"current_steps": 1664, "total_steps": 20000, "loss": 4.5324, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002963742185173454, "epoch": 0.09477701201799851, "percentage": 8.32}
	{"current_steps": 1696, "total_steps": 20000, "loss": 4.4715, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029621473507810374, "epoch": 0.09659964686449848, "percentage": 8.48}
	{"current_steps": 1728, "total_steps": 20000, "loss": 4.6459, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002960518690361209, "epoch": 0.09842228171099847, "percentage": 8.64}
	{"current_steps": 1760, "total_steps": 20000, "loss": 4.5681, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002958856245899433, "epoch": 0.10024491655749844, "percentage": 8.8}
	{"current_steps": 1792, "total_steps": 20000, "loss": 4.6641, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002957160060252092, "epoch": 0.10206755140399841, "percentage": 8.96}
	{"current_steps": 1824, "total_steps": 20000, "loss": 4.6112, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029554301771453904, "epoch": 0.10389018625049838, "percentage": 9.12}
	{"current_steps": 1856, "total_steps": 20000, "loss": 4.5055, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029536666411742233, "epoch": 0.10571282109699835, "percentage": 9.28}
	{"current_steps": 1888, "total_steps": 20000, "loss": 4.5485, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002951869497801027, "epoch": 0.10753545594349832, "percentage": 9.44}
	{"current_steps": 1920, "total_steps": 20000, "loss": 4.3948, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029500387933546095, "epoch": 0.1093580907899983, "percentage": 9.6}
	{"current_steps": 1952, "total_steps": 20000, "loss": 4.3138, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029481745750289517, "epoch": 0.11118072563649826, "percentage": 9.76}
	{"current_steps": 1984, "total_steps": 20000, "loss": 4.4486, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029462768908819953, "epoch": 0.11300336048299824, "percentage": 9.92}
	{"current_steps": 2016, "total_steps": 20000, "loss": 4.604, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002944345789834402, "epoch": 0.1148259953294982, "percentage": 10.08}
	{"current_steps": 2048, "total_steps": 20000, "loss": 4.4442, "eval_loss": null, "predict_loss": null, "learning_rate": 0.000294238132166829, "epoch": 0.11664863017599818, "percentage": 10.24}
	{"current_steps": 2080, "total_steps": 20000, "loss": 4.3806, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029403835370259574, "epoch": 0.11847126502249815, "percentage": 10.4}
	{"current_steps": 2112, "total_steps": 20000, "loss": 4.2749, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029383524874085685, "epoch": 0.12029389986899812, "percentage": 10.56}
	{"current_steps": 2144, "total_steps": 20000, "loss": 4.3869, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002936288225174832, "epoch": 0.12211653471549809, "percentage": 10.72}
	{"current_steps": 2176, "total_steps": 20000, "loss": 4.468, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029341908035396475, "epoch": 0.12393916956199806, "percentage": 10.88}
	{"current_steps": 2208, "total_steps": 20000, "loss": 4.452, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002932060276572737, "epoch": 0.12576180440849805, "percentage": 11.04}
	{"current_steps": 2240, "total_steps": 20000, "loss": 4.3773, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002929896699197249, "epoch": 0.12758443925499802, "percentage": 11.2}
	{"current_steps": 2272, "total_steps": 20000, "loss": 4.3507, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029277001271883426, "epoch": 0.129407074101498, "percentage": 11.36}
	{"current_steps": 2304, "total_steps": 20000, "loss": 4.3723, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002925470617171751, "epoch": 0.13122970894799796, "percentage": 11.52}
	{"current_steps": 2336, "total_steps": 20000, "loss": 4.2689, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002923208226622319, "epoch": 0.13305234379449793, "percentage": 11.68}
	{"current_steps": 2368, "total_steps": 20000, "loss": 4.1489, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029209130138625256, "epoch": 0.1348749786409979, "percentage": 11.84}
	{"current_steps": 2400, "total_steps": 20000, "loss": 4.2807, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029185850380609757, "epoch": 0.13669761348749787, "percentage": 12.0}
	{"current_steps": 2432, "total_steps": 20000, "loss": 4.1258, "eval_loss": null, "predict_loss": null, "learning_rate": 0.000291622435923088, "epoch": 0.13852024833399784, "percentage": 12.16}
	{"current_steps": 2464, "total_steps": 20000, "loss": 4.2682, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002913831038228502, "epoch": 0.1403428831804978, "percentage": 12.32}
	{"current_steps": 2496, "total_steps": 20000, "loss": 4.2238, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029114051367515944, "epoch": 0.14216551802699778, "percentage": 12.48}
	{"current_steps": 2528, "total_steps": 20000, "loss": 4.2166, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002908946717337805, "epoch": 0.14398815287349775, "percentage": 12.64}
	{"current_steps": 2560, "total_steps": 20000, "loss": 4.2946, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029064558433630674, "epoch": 0.14581078771999773, "percentage": 12.8}
	{"current_steps": 2592, "total_steps": 20000, "loss": 4.2036, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00029039325790399656, "epoch": 0.1476334225664977, "percentage": 12.96}
	{"current_steps": 2624, "total_steps": 20000, "loss": 4.1975, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002901376989416077, "epoch": 0.14945605741299767, "percentage": 13.12}
	{"current_steps": 2656, "total_steps": 20000, "loss": 4.4016, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028987891403723, "epoch": 0.15127869225949764, "percentage": 13.28}
	{"current_steps": 2688, "total_steps": 20000, "loss": 4.1795, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002896169098621151, "epoch": 0.1531013271059976, "percentage": 13.44}
	{"current_steps": 2720, "total_steps": 20000, "loss": 4.1536, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028935169317050475, "epoch": 0.15492396195249758, "percentage": 13.6}
	{"current_steps": 2752, "total_steps": 20000, "loss": 4.042, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002890832707994566, "epoch": 0.15674659679899755, "percentage": 13.76}
	{"current_steps": 2784, "total_steps": 20000, "loss": 4.2988, "eval_loss": null, "predict_loss": null, "learning_rate": 0.000288811649668668, "epoch": 0.15856923164549752, "percentage": 13.92}
	{"current_steps": 2816, "total_steps": 20000, "loss": 3.8898, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028853683678029755, "epoch": 0.1603918664919975, "percentage": 14.08}
	{"current_steps": 2848, "total_steps": 20000, "loss": 4.0103, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028825883921878437, "epoch": 0.16221450133849746, "percentage": 14.24}
	{"current_steps": 2880, "total_steps": 20000, "loss": 4.2229, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028797766415066613, "epoch": 0.16403713618499743, "percentage": 14.4}
	{"current_steps": 2912, "total_steps": 20000, "loss": 4.2711, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028769331882439364, "epoch": 0.1658597710314974, "percentage": 14.56}
	{"current_steps": 2944, "total_steps": 20000, "loss": 4.2065, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028740581057014417, "epoch": 0.16768240587799738, "percentage": 14.72}
	{"current_steps": 2976, "total_steps": 20000, "loss": 4.0063, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002871151467996327, "epoch": 0.16950504072449735, "percentage": 14.88}
	{"current_steps": 3008, "total_steps": 20000, "loss": 4.0905, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028682133500592056, "epoch": 0.17132767557099732, "percentage": 15.04}
	{"current_steps": 3040, "total_steps": 20000, "loss": 4.0331, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028652438276322256, "epoch": 0.1731503104174973, "percentage": 15.2}
	{"current_steps": 3072, "total_steps": 20000, "loss": 4.1993, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002862242977267114, "epoch": 0.17497294526399726, "percentage": 15.36}
	{"current_steps": 3104, "total_steps": 20000, "loss": 4.2014, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002859210876323207, "epoch": 0.17679558011049723, "percentage": 15.52}
	{"current_steps": 3136, "total_steps": 20000, "loss": 4.1409, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028561476029654524, "epoch": 0.1786182149569972, "percentage": 15.68}
	{"current_steps": 3168, "total_steps": 20000, "loss": 4.0273, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002853053236162396, "epoch": 0.18044084980349717, "percentage": 15.84}
	{"current_steps": 3200, "total_steps": 20000, "loss": 4.0995, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028499278556841465, "epoch": 0.18226348464999714, "percentage": 16.0}
	{"current_steps": 3232, "total_steps": 20000, "loss": 4.0739, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002846771542100318, "epoch": 0.1840861194964971, "percentage": 16.16}
	{"current_steps": 3264, "total_steps": 20000, "loss": 3.9517, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002843584376777953, "epoch": 0.18590875434299708, "percentage": 16.32}
	{"current_steps": 3296, "total_steps": 20000, "loss": 4.0628, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002840366441879425, "epoch": 0.18773138918949706, "percentage": 16.48}
	{"current_steps": 3328, "total_steps": 20000, "loss": 4.0196, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028371178203603236, "epoch": 0.18955402403599703, "percentage": 16.64}
	{"current_steps": 3360, "total_steps": 20000, "loss": 3.8922, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002833838595967309, "epoch": 0.191376658882497, "percentage": 16.8}
	{"current_steps": 3392, "total_steps": 20000, "loss": 4.0095, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028305288532359585, "epoch": 0.19319929372899697, "percentage": 16.96}
	{"current_steps": 3424, "total_steps": 20000, "loss": 3.9934, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002827188677488587, "epoch": 0.19502192857549694, "percentage": 17.12}
	{"current_steps": 3456, "total_steps": 20000, "loss": 4.0817, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028238181548320457, "epoch": 0.19684456342199694, "percentage": 17.28}
	{"current_steps": 3488, "total_steps": 20000, "loss": 4.1356, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002820417372155502, "epoch": 0.1986671982684969, "percentage": 17.44}
	{"current_steps": 3520, "total_steps": 20000, "loss": 3.9618, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002816986417128201, "epoch": 0.20048983311499688, "percentage": 17.6}
	{"current_steps": 3552, "total_steps": 20000, "loss": 4.0911, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028135253781972063, "epoch": 0.20231246796149685, "percentage": 17.76}
	{"current_steps": 3584, "total_steps": 20000, "loss": 4.0569, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028100343445851164, "epoch": 0.20413510280799682, "percentage": 17.92}
	{"current_steps": 3616, "total_steps": 20000, "loss": 4.0413, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00028065134062877685, "epoch": 0.2059577376544968, "percentage": 18.08}
	{"current_steps": 3648, "total_steps": 20000, "loss": 3.8624, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002802962654071917, "epoch": 0.20778037250099676, "percentage": 18.24}
	{"current_steps": 3680, "total_steps": 20000, "loss": 3.9012, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027993821794728915, "epoch": 0.20960300734749673, "percentage": 18.4}
	{"current_steps": 3712, "total_steps": 20000, "loss": 4.0135, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027957720747922405, "epoch": 0.2114256421939967, "percentage": 18.56}
	{"current_steps": 3744, "total_steps": 20000, "loss": 3.9736, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002792132433095351, "epoch": 0.21324827704049668, "percentage": 18.72}
	{"current_steps": 3776, "total_steps": 20000, "loss": 3.7798, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002788463348209047, "epoch": 0.21507091188699665, "percentage": 18.88}
	{"current_steps": 3808, "total_steps": 20000, "loss": 4.0089, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027847649147191736, "epoch": 0.21689354673349662, "percentage": 19.04}
	{"current_steps": 3840, "total_steps": 20000, "loss": 3.9998, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027810372279681576, "epoch": 0.2187161815799966, "percentage": 19.2}
	{"current_steps": 3872, "total_steps": 20000, "loss": 4.0982, "eval_loss": null, "predict_loss": null, "learning_rate": 0.000277728038405255, "epoch": 0.22053881642649656, "percentage": 19.36}
	{"current_steps": 3904, "total_steps": 20000, "loss": 4.021, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002773494479820547, "epoch": 0.22236145127299653, "percentage": 19.52}
	{"current_steps": 3936, "total_steps": 20000, "loss": 3.982, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027696796128694965, "epoch": 0.2241840861194965, "percentage": 19.68}
	{"current_steps": 3968, "total_steps": 20000, "loss": 3.9666, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002765835881543379, "epoch": 0.22600672096599647, "percentage": 19.84}
	{"current_steps": 4000, "total_steps": 20000, "loss": 3.9463, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002761963384930274, "epoch": 0.22782935581249644, "percentage": 20.0}
	{"current_steps": 4032, "total_steps": 20000, "loss": 4.0947, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027580622228598055, "epoch": 0.2296519906589964, "percentage": 20.16}
	{"current_steps": 4064, "total_steps": 20000, "loss": 3.9191, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002754132495900569, "epoch": 0.23147462550549638, "percentage": 20.32}
	{"current_steps": 4096, "total_steps": 20000, "loss": 3.9013, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027501743053575365, "epoch": 0.23329726035199636, "percentage": 20.48}
	{"current_steps": 4128, "total_steps": 20000, "loss": 3.9748, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027461877532694476, "epoch": 0.23511989519849633, "percentage": 20.64}
	{"current_steps": 4160, "total_steps": 20000, "loss": 4.0505, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027421729424061787, "epoch": 0.2369425300449963, "percentage": 20.8}
	{"current_steps": 4192, "total_steps": 20000, "loss": 4.0524, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002738129976266092, "epoch": 0.23876516489149627, "percentage": 20.96}
	{"current_steps": 4224, "total_steps": 20000, "loss": 3.9289, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027340589590733687, "epoch": 0.24058779973799624, "percentage": 21.12}
	{"current_steps": 4256, "total_steps": 20000, "loss": 3.9631, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002729959995775323, "epoch": 0.2424104345844962, "percentage": 21.28}
	{"current_steps": 4288, "total_steps": 20000, "loss": 4.023, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027258331920396926, "epoch": 0.24423306943099618, "percentage": 21.44}
	{"current_steps": 4320, "total_steps": 20000, "loss": 3.9693, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00027216786542519225, "epoch": 0.24605570427749615, "percentage": 21.6}
	{"current_steps": 4352, "total_steps": 20000, "loss": 4.0566, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002717496489512413, "epoch": 0.24787833912399612, "percentage": 21.76}
	{"current_steps": 4384, "total_steps": 20000, "loss": 3.951, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002713286805633767, "epoch": 0.2497009739704961, "percentage": 21.92}
	{"current_steps": 4416, "total_steps": 20000, "loss": 3.7155, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002709049711138003, "epoch": 0.2515236088169961, "percentage": 22.08}
	{"current_steps": 4448, "total_steps": 20000, "loss": 3.8154, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002704785315253767, "epoch": 0.25334624366349606, "percentage": 22.24}
	{"current_steps": 4480, "total_steps": 20000, "loss": 4.0759, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002700493727913506, "epoch": 0.25516887850999603, "percentage": 22.4}
	{"current_steps": 4512, "total_steps": 20000, "loss": 3.817, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002696175059750642, "epoch": 0.256991513356496, "percentage": 22.56}
	{"current_steps": 4544, "total_steps": 20000, "loss": 3.8875, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026918294220967175, "epoch": 0.258814148202996, "percentage": 22.72}
	{"current_steps": 4576, "total_steps": 20000, "loss": 3.943, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026874569269785245, "epoch": 0.26063678304949595, "percentage": 22.88}
	{"current_steps": 4608, "total_steps": 20000, "loss": 3.9347, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026830576871152167, "epoch": 0.2624594178959959, "percentage": 23.04}
	{"current_steps": 4640, "total_steps": 20000, "loss": 3.8873, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026786318159154054, "epoch": 0.2642820527424959, "percentage": 23.2}
	{"current_steps": 4672, "total_steps": 20000, "loss": 3.7657, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002674179427474234, "epoch": 0.26610468758899586, "percentage": 23.36}
	{"current_steps": 4704, "total_steps": 20000, "loss": 4.0359, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002669700636570438, "epoch": 0.26792732243549583, "percentage": 23.52}
	{"current_steps": 4736, "total_steps": 20000, "loss": 3.8682, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002665195558663385, "epoch": 0.2697499572819958, "percentage": 23.68}
	{"current_steps": 4768, "total_steps": 20000, "loss": 3.8112, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026606643098900997, "epoch": 0.27157259212849577, "percentage": 23.84}
	{"current_steps": 4800, "total_steps": 20000, "loss": 4.0166, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002656107007062269, "epoch": 0.27339522697499574, "percentage": 24.0}
	{"current_steps": 4832, "total_steps": 20000, "loss": 3.7879, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026515237676632295, "epoch": 0.2752178618214957, "percentage": 24.16}
	{"current_steps": 4864, "total_steps": 20000, "loss": 3.9825, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002646914709844943, "epoch": 0.2770404966679957, "percentage": 24.32}
	{"current_steps": 4896, "total_steps": 20000, "loss": 3.8656, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002642279952424945, "epoch": 0.27886313151449565, "percentage": 24.48}
	{"current_steps": 4928, "total_steps": 20000, "loss": 3.7714, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002637619614883287, "epoch": 0.2806857663609956, "percentage": 24.64}
	{"current_steps": 4960, "total_steps": 20000, "loss": 3.8426, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026329338173594516, "epoch": 0.2825084012074956, "percentage": 24.8}
	{"current_steps": 4992, "total_steps": 20000, "loss": 3.8449, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026282226806492595, "epoch": 0.28433103605399557, "percentage": 24.96}
	{"current_steps": 5024, "total_steps": 20000, "loss": 3.9761, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026234863262017535, "epoch": 0.28615367090049554, "percentage": 25.12}
	{"current_steps": 5056, "total_steps": 20000, "loss": 4.0494, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026187248761160676, "epoch": 0.2879763057469955, "percentage": 25.28}