ProLong-512k-8B-WritingPrompts / trainer_state.json

Upload folder using huggingface_hub

ba0d393 verified 19 days ago

194 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 906,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0011037527593818985,
	"grad_norm": 35.722469329833984,
	"learning_rate": 2.173913043478261e-07,
	"loss": 2.1083,
	"num_input_tokens_seen": 65536,
	"step": 1
	},
	{
	"epoch": 0.002207505518763797,
	"grad_norm": 25.2639102935791,
	"learning_rate": 4.347826086956522e-07,
	"loss": 1.3569,
	"num_input_tokens_seen": 131072,
	"step": 2
	},
	{
	"epoch": 0.0033112582781456954,
	"grad_norm": 31.971759796142578,
	"learning_rate": 6.521739130434783e-07,
	"loss": 2.3622,
	"num_input_tokens_seen": 196608,
	"step": 3
	},
	{
	"epoch": 0.004415011037527594,
	"grad_norm": 17.20412826538086,
	"learning_rate": 8.695652173913044e-07,
	"loss": 1.1356,
	"num_input_tokens_seen": 262144,
	"step": 4
	},
	{
	"epoch": 0.005518763796909493,
	"grad_norm": 23.274988174438477,
	"learning_rate": 1.0869565217391306e-06,
	"loss": 1.2981,
	"num_input_tokens_seen": 327680,
	"step": 5
	},
	{
	"epoch": 0.006622516556291391,
	"grad_norm": 10.878853797912598,
	"learning_rate": 1.3043478260869566e-06,
	"loss": 0.5643,
	"num_input_tokens_seen": 393216,
	"step": 6
	},
	{
	"epoch": 0.00772626931567329,
	"grad_norm": 13.176485061645508,
	"learning_rate": 1.521739130434783e-06,
	"loss": 0.6975,
	"num_input_tokens_seen": 458752,
	"step": 7
	},
	{
	"epoch": 0.008830022075055188,
	"grad_norm": 16.82210350036621,
	"learning_rate": 1.7391304347826088e-06,
	"loss": 0.9322,
	"num_input_tokens_seen": 524288,
	"step": 8
	},
	{
	"epoch": 0.009933774834437087,
	"grad_norm": 12.083537101745605,
	"learning_rate": 1.956521739130435e-06,
	"loss": 0.7018,
	"num_input_tokens_seen": 589824,
	"step": 9
	},
	{
	"epoch": 0.011037527593818985,
	"grad_norm": 11.75355052947998,
	"learning_rate": 2.173913043478261e-06,
	"loss": 0.5493,
	"num_input_tokens_seen": 655360,
	"step": 10
	},
	{
	"epoch": 0.012141280353200883,
	"grad_norm": 18.269977569580078,
	"learning_rate": 2.391304347826087e-06,
	"loss": 0.7736,
	"num_input_tokens_seen": 720896,
	"step": 11
	},
	{
	"epoch": 0.013245033112582781,
	"grad_norm": 12.028225898742676,
	"learning_rate": 2.6086956521739132e-06,
	"loss": 0.7684,
	"num_input_tokens_seen": 786432,
	"step": 12
	},
	{
	"epoch": 0.01434878587196468,
	"grad_norm": 12.417435646057129,
	"learning_rate": 2.8260869565217393e-06,
	"loss": 0.8609,
	"num_input_tokens_seen": 851968,
	"step": 13
	},
	{
	"epoch": 0.01545253863134658,
	"grad_norm": 9.14816665649414,
	"learning_rate": 3.043478260869566e-06,
	"loss": 0.3993,
	"num_input_tokens_seen": 917504,
	"step": 14
	},
	{
	"epoch": 0.016556291390728478,
	"grad_norm": 11.77620792388916,
	"learning_rate": 3.2608695652173914e-06,
	"loss": 0.8576,
	"num_input_tokens_seen": 983040,
	"step": 15
	},
	{
	"epoch": 0.017660044150110375,
	"grad_norm": 6.811140060424805,
	"learning_rate": 3.4782608695652175e-06,
	"loss": 0.2984,
	"num_input_tokens_seen": 1048576,
	"step": 16
	},
	{
	"epoch": 0.018763796909492272,
	"grad_norm": 10.383139610290527,
	"learning_rate": 3.6956521739130436e-06,
	"loss": 0.784,
	"num_input_tokens_seen": 1114112,
	"step": 17
	},
	{
	"epoch": 0.019867549668874173,
	"grad_norm": 8.979279518127441,
	"learning_rate": 3.91304347826087e-06,
	"loss": 0.5068,
	"num_input_tokens_seen": 1179648,
	"step": 18
	},
	{
	"epoch": 0.02097130242825607,
	"grad_norm": 19.544546127319336,
	"learning_rate": 4.130434782608696e-06,
	"loss": 1.2048,
	"num_input_tokens_seen": 1245184,
	"step": 19
	},
	{
	"epoch": 0.02207505518763797,
	"grad_norm": 8.711148262023926,
	"learning_rate": 4.347826086956522e-06,
	"loss": 0.4331,
	"num_input_tokens_seen": 1310720,
	"step": 20
	},
	{
	"epoch": 0.023178807947019868,
	"grad_norm": 9.380172729492188,
	"learning_rate": 4.565217391304348e-06,
	"loss": 0.6358,
	"num_input_tokens_seen": 1376256,
	"step": 21
	},
	{
	"epoch": 0.024282560706401765,
	"grad_norm": 9.575282096862793,
	"learning_rate": 4.782608695652174e-06,
	"loss": 0.7366,
	"num_input_tokens_seen": 1441788,
	"step": 22
	},
	{
	"epoch": 0.025386313465783666,
	"grad_norm": 5.655991554260254,
	"learning_rate": 5e-06,
	"loss": 0.3091,
	"num_input_tokens_seen": 1507324,
	"step": 23
	},
	{
	"epoch": 0.026490066225165563,
	"grad_norm": 8.588181495666504,
	"learning_rate": 5.2173913043478265e-06,
	"loss": 0.7247,
	"num_input_tokens_seen": 1572860,
	"step": 24
	},
	{
	"epoch": 0.02759381898454746,
	"grad_norm": 9.483624458312988,
	"learning_rate": 5.4347826086956525e-06,
	"loss": 0.8751,
	"num_input_tokens_seen": 1638396,
	"step": 25
	},
	{
	"epoch": 0.02869757174392936,
	"grad_norm": 7.005770683288574,
	"learning_rate": 5.652173913043479e-06,
	"loss": 0.5548,
	"num_input_tokens_seen": 1703932,
	"step": 26
	},
	{
	"epoch": 0.029801324503311258,
	"grad_norm": 8.58704662322998,
	"learning_rate": 5.8695652173913055e-06,
	"loss": 0.8409,
	"num_input_tokens_seen": 1769468,
	"step": 27
	},
	{
	"epoch": 0.03090507726269316,
	"grad_norm": 6.881068706512451,
	"learning_rate": 6.086956521739132e-06,
	"loss": 0.469,
	"num_input_tokens_seen": 1835004,
	"step": 28
	},
	{
	"epoch": 0.03200883002207505,
	"grad_norm": 7.618829250335693,
	"learning_rate": 6.304347826086958e-06,
	"loss": 0.4414,
	"num_input_tokens_seen": 1900540,
	"step": 29
	},
	{
	"epoch": 0.033112582781456956,
	"grad_norm": 9.56350326538086,
	"learning_rate": 6.521739130434783e-06,
	"loss": 0.7077,
	"num_input_tokens_seen": 1966076,
	"step": 30
	},
	{
	"epoch": 0.03421633554083885,
	"grad_norm": 11.033548355102539,
	"learning_rate": 6.739130434782609e-06,
	"loss": 0.883,
	"num_input_tokens_seen": 2031612,
	"step": 31
	},
	{
	"epoch": 0.03532008830022075,
	"grad_norm": 8.739025115966797,
	"learning_rate": 6.956521739130435e-06,
	"loss": 0.6193,
	"num_input_tokens_seen": 2097148,
	"step": 32
	},
	{
	"epoch": 0.03642384105960265,
	"grad_norm": 8.231757164001465,
	"learning_rate": 7.173913043478261e-06,
	"loss": 0.5358,
	"num_input_tokens_seen": 2162684,
	"step": 33
	},
	{
	"epoch": 0.037527593818984545,
	"grad_norm": 7.457165241241455,
	"learning_rate": 7.391304347826087e-06,
	"loss": 0.6193,
	"num_input_tokens_seen": 2228220,
	"step": 34
	},
	{
	"epoch": 0.03863134657836645,
	"grad_norm": 7.066882133483887,
	"learning_rate": 7.608695652173914e-06,
	"loss": 0.5043,
	"num_input_tokens_seen": 2293756,
	"step": 35
	},
	{
	"epoch": 0.039735099337748346,
	"grad_norm": 7.486729621887207,
	"learning_rate": 7.82608695652174e-06,
	"loss": 0.5171,
	"num_input_tokens_seen": 2359292,
	"step": 36
	},
	{
	"epoch": 0.04083885209713024,
	"grad_norm": 7.478753089904785,
	"learning_rate": 8.043478260869566e-06,
	"loss": 0.6266,
	"num_input_tokens_seen": 2424828,
	"step": 37
	},
	{
	"epoch": 0.04194260485651214,
	"grad_norm": 9.259384155273438,
	"learning_rate": 8.260869565217392e-06,
	"loss": 0.9509,
	"num_input_tokens_seen": 2490364,
	"step": 38
	},
	{
	"epoch": 0.04304635761589404,
	"grad_norm": 6.441883087158203,
	"learning_rate": 8.478260869565218e-06,
	"loss": 0.5386,
	"num_input_tokens_seen": 2555900,
	"step": 39
	},
	{
	"epoch": 0.04415011037527594,
	"grad_norm": 8.299201011657715,
	"learning_rate": 8.695652173913044e-06,
	"loss": 0.8399,
	"num_input_tokens_seen": 2621436,
	"step": 40
	},
	{
	"epoch": 0.04525386313465784,
	"grad_norm": 6.8729095458984375,
	"learning_rate": 8.91304347826087e-06,
	"loss": 0.6116,
	"num_input_tokens_seen": 2686972,
	"step": 41
	},
	{
	"epoch": 0.046357615894039736,
	"grad_norm": 6.9387311935424805,
	"learning_rate": 9.130434782608697e-06,
	"loss": 0.5301,
	"num_input_tokens_seen": 2752508,
	"step": 42
	},
	{
	"epoch": 0.04746136865342163,
	"grad_norm": 6.831243991851807,
	"learning_rate": 9.347826086956523e-06,
	"loss": 0.513,
	"num_input_tokens_seen": 2818044,
	"step": 43
	},
	{
	"epoch": 0.04856512141280353,
	"grad_norm": 9.532112121582031,
	"learning_rate": 9.565217391304349e-06,
	"loss": 1.0538,
	"num_input_tokens_seen": 2883580,
	"step": 44
	},
	{
	"epoch": 0.04966887417218543,
	"grad_norm": 8.001193046569824,
	"learning_rate": 9.782608695652175e-06,
	"loss": 0.5253,
	"num_input_tokens_seen": 2949116,
	"step": 45
	},
	{
	"epoch": 0.05077262693156733,
	"grad_norm": 8.312308311462402,
	"learning_rate": 1e-05,
	"loss": 0.5761,
	"num_input_tokens_seen": 3014652,
	"step": 46
	},
	{
	"epoch": 0.05187637969094923,
	"grad_norm": 6.9460859298706055,
	"learning_rate": 9.999969974871272e-06,
	"loss": 0.5442,
	"num_input_tokens_seen": 3080188,
	"step": 47
	},
	{
	"epoch": 0.052980132450331126,
	"grad_norm": 8.236810684204102,
	"learning_rate": 9.999879899885757e-06,
	"loss": 0.7561,
	"num_input_tokens_seen": 3145724,
	"step": 48
	},
	{
	"epoch": 0.05408388520971302,
	"grad_norm": 5.9857964515686035,
	"learning_rate": 9.99972977624546e-06,
	"loss": 0.4112,
	"num_input_tokens_seen": 3211260,
	"step": 49
	},
	{
	"epoch": 0.05518763796909492,
	"grad_norm": 9.374804496765137,
	"learning_rate": 9.999519605953706e-06,
	"loss": 0.7197,
	"num_input_tokens_seen": 3276796,
	"step": 50
	},
	{
	"epoch": 0.056291390728476824,
	"grad_norm": 11.54023551940918,
	"learning_rate": 9.999249391815115e-06,
	"loss": 1.0819,
	"num_input_tokens_seen": 3342332,
	"step": 51
	},
	{
	"epoch": 0.05739514348785872,
	"grad_norm": 5.593741416931152,
	"learning_rate": 9.998919137435558e-06,
	"loss": 0.4057,
	"num_input_tokens_seen": 3407868,
	"step": 52
	},
	{
	"epoch": 0.05849889624724062,
	"grad_norm": 5.5571489334106445,
	"learning_rate": 9.998528847222116e-06,
	"loss": 0.415,
	"num_input_tokens_seen": 3473404,
	"step": 53
	},
	{
	"epoch": 0.059602649006622516,
	"grad_norm": 7.452723503112793,
	"learning_rate": 9.998078526383018e-06,
	"loss": 0.6491,
	"num_input_tokens_seen": 3538940,
	"step": 54
	},
	{
	"epoch": 0.06070640176600441,
	"grad_norm": 5.862286567687988,
	"learning_rate": 9.99756818092757e-06,
	"loss": 0.3988,
	"num_input_tokens_seen": 3604476,
	"step": 55
	},
	{
	"epoch": 0.06181015452538632,
	"grad_norm": 5.775778770446777,
	"learning_rate": 9.996997817666077e-06,
	"loss": 0.4672,
	"num_input_tokens_seen": 3670012,
	"step": 56
	},
	{
	"epoch": 0.06291390728476821,
	"grad_norm": 5.253780841827393,
	"learning_rate": 9.996367444209756e-06,
	"loss": 0.3624,
	"num_input_tokens_seen": 3735548,
	"step": 57
	},
	{
	"epoch": 0.0640176600441501,
	"grad_norm": 7.225327968597412,
	"learning_rate": 9.995677068970624e-06,
	"loss": 0.7668,
	"num_input_tokens_seen": 3801084,
	"step": 58
	},
	{
	"epoch": 0.06512141280353201,
	"grad_norm": 6.573258876800537,
	"learning_rate": 9.994926701161394e-06,
	"loss": 0.5316,
	"num_input_tokens_seen": 3866620,
	"step": 59
	},
	{
	"epoch": 0.06622516556291391,
	"grad_norm": 7.839727878570557,
	"learning_rate": 9.99411635079535e-06,
	"loss": 0.8709,
	"num_input_tokens_seen": 3932156,
	"step": 60
	},
	{
	"epoch": 0.0673289183222958,
	"grad_norm": 7.096211910247803,
	"learning_rate": 9.993246028686216e-06,
	"loss": 0.6911,
	"num_input_tokens_seen": 3997692,
	"step": 61
	},
	{
	"epoch": 0.0684326710816777,
	"grad_norm": 8.092432022094727,
	"learning_rate": 9.992315746448009e-06,
	"loss": 0.8105,
	"num_input_tokens_seen": 4063228,
	"step": 62
	},
	{
	"epoch": 0.0695364238410596,
	"grad_norm": 6.5860490798950195,
	"learning_rate": 9.991325516494876e-06,
	"loss": 0.5278,
	"num_input_tokens_seen": 4128764,
	"step": 63
	},
	{
	"epoch": 0.0706401766004415,
	"grad_norm": 7.127208709716797,
	"learning_rate": 9.990275352040943e-06,
	"loss": 0.6808,
	"num_input_tokens_seen": 4194300,
	"step": 64
	},
	{
	"epoch": 0.0717439293598234,
	"grad_norm": 7.488225936889648,
	"learning_rate": 9.989165267100137e-06,
	"loss": 0.7354,
	"num_input_tokens_seen": 4259836,
	"step": 65
	},
	{
	"epoch": 0.0728476821192053,
	"grad_norm": 6.8002800941467285,
	"learning_rate": 9.987995276485984e-06,
	"loss": 0.6493,
	"num_input_tokens_seen": 4325372,
	"step": 66
	},
	{
	"epoch": 0.0739514348785872,
	"grad_norm": 6.0314459800720215,
	"learning_rate": 9.986765395811425e-06,
	"loss": 0.4735,
	"num_input_tokens_seen": 4390908,
	"step": 67
	},
	{
	"epoch": 0.07505518763796909,
	"grad_norm": 8.056852340698242,
	"learning_rate": 9.985475641488608e-06,
	"loss": 0.8006,
	"num_input_tokens_seen": 4456444,
	"step": 68
	},
	{
	"epoch": 0.076158940397351,
	"grad_norm": 7.1111741065979,
	"learning_rate": 9.984126030728659e-06,
	"loss": 0.7747,
	"num_input_tokens_seen": 4521980,
	"step": 69
	},
	{
	"epoch": 0.0772626931567329,
	"grad_norm": 6.619105339050293,
	"learning_rate": 9.982716581541462e-06,
	"loss": 0.4753,
	"num_input_tokens_seen": 4587516,
	"step": 70
	},
	{
	"epoch": 0.07836644591611479,
	"grad_norm": 5.534825801849365,
	"learning_rate": 9.981247312735412e-06,
	"loss": 0.567,
	"num_input_tokens_seen": 4653052,
	"step": 71
	},
	{
	"epoch": 0.07947019867549669,
	"grad_norm": 5.347917556762695,
	"learning_rate": 9.979718243917172e-06,
	"loss": 0.496,
	"num_input_tokens_seen": 4718588,
	"step": 72
	},
	{
	"epoch": 0.08057395143487858,
	"grad_norm": 6.386154651641846,
	"learning_rate": 9.978129395491402e-06,
	"loss": 0.4872,
	"num_input_tokens_seen": 4784124,
	"step": 73
	},
	{
	"epoch": 0.08167770419426049,
	"grad_norm": 6.805239200592041,
	"learning_rate": 9.976480788660494e-06,
	"loss": 0.5869,
	"num_input_tokens_seen": 4849660,
	"step": 74
	},
	{
	"epoch": 0.08278145695364239,
	"grad_norm": 6.585273265838623,
	"learning_rate": 9.974772445424283e-06,
	"loss": 0.4738,
	"num_input_tokens_seen": 4915196,
	"step": 75
	},
	{
	"epoch": 0.08388520971302428,
	"grad_norm": 6.134422779083252,
	"learning_rate": 9.973004388579758e-06,
	"loss": 0.4763,
	"num_input_tokens_seen": 4980732,
	"step": 76
	},
	{
	"epoch": 0.08498896247240618,
	"grad_norm": 7.285155296325684,
	"learning_rate": 9.971176641720756e-06,
	"loss": 0.6983,
	"num_input_tokens_seen": 5046268,
	"step": 77
	},
	{
	"epoch": 0.08609271523178808,
	"grad_norm": 7.901010513305664,
	"learning_rate": 9.96928922923765e-06,
	"loss": 0.7429,
	"num_input_tokens_seen": 5111804,
	"step": 78
	},
	{
	"epoch": 0.08719646799116998,
	"grad_norm": 6.154994964599609,
	"learning_rate": 9.967342176317018e-06,
	"loss": 0.4834,
	"num_input_tokens_seen": 5177340,
	"step": 79
	},
	{
	"epoch": 0.08830022075055188,
	"grad_norm": 7.007679462432861,
	"learning_rate": 9.96533550894131e-06,
	"loss": 0.655,
	"num_input_tokens_seen": 5242876,
	"step": 80
	},
	{
	"epoch": 0.08940397350993377,
	"grad_norm": 6.794103622436523,
	"learning_rate": 9.963269253888504e-06,
	"loss": 0.7023,
	"num_input_tokens_seen": 5308412,
	"step": 81
	},
	{
	"epoch": 0.09050772626931568,
	"grad_norm": 7.166098117828369,
	"learning_rate": 9.961143438731741e-06,
	"loss": 0.8764,
	"num_input_tokens_seen": 5373948,
	"step": 82
	},
	{
	"epoch": 0.09161147902869757,
	"grad_norm": 6.217060565948486,
	"learning_rate": 9.958958091838969e-06,
	"loss": 0.5542,
	"num_input_tokens_seen": 5439484,
	"step": 83
	},
	{
	"epoch": 0.09271523178807947,
	"grad_norm": 6.699713706970215,
	"learning_rate": 9.95671324237255e-06,
	"loss": 0.6756,
	"num_input_tokens_seen": 5505020,
	"step": 84
	},
	{
	"epoch": 0.09381898454746136,
	"grad_norm": 5.587467670440674,
	"learning_rate": 9.954408920288884e-06,
	"loss": 0.4274,
	"num_input_tokens_seen": 5570556,
	"step": 85
	},
	{
	"epoch": 0.09492273730684327,
	"grad_norm": 5.275640964508057,
	"learning_rate": 9.952045156337998e-06,
	"loss": 0.3499,
	"num_input_tokens_seen": 5636092,
	"step": 86
	},
	{
	"epoch": 0.09602649006622517,
	"grad_norm": 7.246316432952881,
	"learning_rate": 9.949621982063145e-06,
	"loss": 0.657,
	"num_input_tokens_seen": 5701628,
	"step": 87
	},
	{
	"epoch": 0.09713024282560706,
	"grad_norm": 6.412764549255371,
	"learning_rate": 9.947139429800377e-06,
	"loss": 0.5475,
	"num_input_tokens_seen": 5767164,
	"step": 88
	},
	{
	"epoch": 0.09823399558498896,
	"grad_norm": 7.114440441131592,
	"learning_rate": 9.94459753267812e-06,
	"loss": 0.7146,
	"num_input_tokens_seen": 5832700,
	"step": 89
	},
	{
	"epoch": 0.09933774834437085,
	"grad_norm": 7.031120300292969,
	"learning_rate": 9.941996324616723e-06,
	"loss": 0.6916,
	"num_input_tokens_seen": 5898236,
	"step": 90
	},
	{
	"epoch": 0.10044150110375276,
	"grad_norm": 4.999560356140137,
	"learning_rate": 9.939335840328011e-06,
	"loss": 0.4196,
	"num_input_tokens_seen": 5963772,
	"step": 91
	},
	{
	"epoch": 0.10154525386313466,
	"grad_norm": 6.941257953643799,
	"learning_rate": 9.93661611531482e-06,
	"loss": 0.5311,
	"num_input_tokens_seen": 6029308,
	"step": 92
	},
	{
	"epoch": 0.10264900662251655,
	"grad_norm": 6.328064441680908,
	"learning_rate": 9.933837185870526e-06,
	"loss": 0.6167,
	"num_input_tokens_seen": 6094844,
	"step": 93
	},
	{
	"epoch": 0.10375275938189846,
	"grad_norm": 5.660717010498047,
	"learning_rate": 9.930999089078556e-06,
	"loss": 0.4391,
	"num_input_tokens_seen": 6160380,
	"step": 94
	},
	{
	"epoch": 0.10485651214128035,
	"grad_norm": 5.730586051940918,
	"learning_rate": 9.928101862811899e-06,
	"loss": 0.5525,
	"num_input_tokens_seen": 6225916,
	"step": 95
	},
	{
	"epoch": 0.10596026490066225,
	"grad_norm": 5.740535259246826,
	"learning_rate": 9.925145545732598e-06,
	"loss": 0.5216,
	"num_input_tokens_seen": 6291452,
	"step": 96
	},
	{
	"epoch": 0.10706401766004416,
	"grad_norm": 5.135792255401611,
	"learning_rate": 9.922130177291228e-06,
	"loss": 0.4671,
	"num_input_tokens_seen": 6356988,
	"step": 97
	},
	{
	"epoch": 0.10816777041942605,
	"grad_norm": 7.077984809875488,
	"learning_rate": 9.919055797726377e-06,
	"loss": 1.0276,
	"num_input_tokens_seen": 6422524,
	"step": 98
	},
	{
	"epoch": 0.10927152317880795,
	"grad_norm": 7.4840192794799805,
	"learning_rate": 9.915922448064111e-06,
	"loss": 0.8116,
	"num_input_tokens_seen": 6488060,
	"step": 99
	},
	{
	"epoch": 0.11037527593818984,
	"grad_norm": 4.238962173461914,
	"learning_rate": 9.912730170117419e-06,
	"loss": 0.391,
	"num_input_tokens_seen": 6553596,
	"step": 100
	},
	{
	"epoch": 0.11147902869757174,
	"grad_norm": 5.252936840057373,
	"learning_rate": 9.909479006485658e-06,
	"loss": 0.4316,
	"num_input_tokens_seen": 6619132,
	"step": 101
	},
	{
	"epoch": 0.11258278145695365,
	"grad_norm": 5.10698127746582,
	"learning_rate": 9.906169000553989e-06,
	"loss": 0.4543,
	"num_input_tokens_seen": 6684668,
	"step": 102
	},
	{
	"epoch": 0.11368653421633554,
	"grad_norm": 4.487974643707275,
	"learning_rate": 9.902800196492788e-06,
	"loss": 0.4114,
	"num_input_tokens_seen": 6750204,
	"step": 103
	},
	{
	"epoch": 0.11479028697571744,
	"grad_norm": 5.283864974975586,
	"learning_rate": 9.89937263925707e-06,
	"loss": 0.4567,
	"num_input_tokens_seen": 6815740,
	"step": 104
	},
	{
	"epoch": 0.11589403973509933,
	"grad_norm": 7.552896976470947,
	"learning_rate": 9.895886374585877e-06,
	"loss": 0.8429,
	"num_input_tokens_seen": 6881276,
	"step": 105
	},
	{
	"epoch": 0.11699779249448124,
	"grad_norm": 4.633214950561523,
	"learning_rate": 9.892341449001673e-06,
	"loss": 0.3508,
	"num_input_tokens_seen": 6946812,
	"step": 106
	},
	{
	"epoch": 0.11810154525386314,
	"grad_norm": 7.490325450897217,
	"learning_rate": 9.888737909809725e-06,
	"loss": 0.7319,
	"num_input_tokens_seen": 7012348,
	"step": 107
	},
	{
	"epoch": 0.11920529801324503,
	"grad_norm": 6.352238655090332,
	"learning_rate": 9.885075805097464e-06,
	"loss": 0.5916,
	"num_input_tokens_seen": 7077884,
	"step": 108
	},
	{
	"epoch": 0.12030905077262694,
	"grad_norm": 6.156204700469971,
	"learning_rate": 9.881355183733857e-06,
	"loss": 0.6457,
	"num_input_tokens_seen": 7143420,
	"step": 109
	},
	{
	"epoch": 0.12141280353200883,
	"grad_norm": 6.884950637817383,
	"learning_rate": 9.877576095368738e-06,
	"loss": 0.6972,
	"num_input_tokens_seen": 7208956,
	"step": 110
	},
	{
	"epoch": 0.12251655629139073,
	"grad_norm": 6.656806468963623,
	"learning_rate": 9.873738590432162e-06,
	"loss": 0.6563,
	"num_input_tokens_seen": 7274492,
	"step": 111
	},
	{
	"epoch": 0.12362030905077263,
	"grad_norm": 6.270849704742432,
	"learning_rate": 9.869842720133715e-06,
	"loss": 0.5774,
	"num_input_tokens_seen": 7340028,
	"step": 112
	},
	{
	"epoch": 0.12472406181015452,
	"grad_norm": 6.998918533325195,
	"learning_rate": 9.865888536461851e-06,
	"loss": 0.5853,
	"num_input_tokens_seen": 7405564,
	"step": 113
	},
	{
	"epoch": 0.12582781456953643,
	"grad_norm": 6.9652299880981445,
	"learning_rate": 9.861876092183174e-06,
	"loss": 0.634,
	"num_input_tokens_seen": 7471100,
	"step": 114
	},
	{
	"epoch": 0.12693156732891833,
	"grad_norm": 7.60606575012207,
	"learning_rate": 9.857805440841758e-06,
	"loss": 0.9336,
	"num_input_tokens_seen": 7536636,
	"step": 115
	},
	{
	"epoch": 0.1280353200883002,
	"grad_norm": 5.321383953094482,
	"learning_rate": 9.853676636758415e-06,
	"loss": 0.4438,
	"num_input_tokens_seen": 7602172,
	"step": 116
	},
	{
	"epoch": 0.1291390728476821,
	"grad_norm": 6.2487592697143555,
	"learning_rate": 9.849489735029975e-06,
	"loss": 0.7418,
	"num_input_tokens_seen": 7667708,
	"step": 117
	},
	{
	"epoch": 0.13024282560706402,
	"grad_norm": 5.844862461090088,
	"learning_rate": 9.845244791528563e-06,
	"loss": 0.704,
	"num_input_tokens_seen": 7733244,
	"step": 118
	},
	{
	"epoch": 0.13134657836644592,
	"grad_norm": 6.298166275024414,
	"learning_rate": 9.840941862900825e-06,
	"loss": 0.8102,
	"num_input_tokens_seen": 7798780,
	"step": 119
	},
	{
	"epoch": 0.13245033112582782,
	"grad_norm": 5.498508453369141,
	"learning_rate": 9.836581006567207e-06,
	"loss": 0.4503,
	"num_input_tokens_seen": 7864316,
	"step": 120
	},
	{
	"epoch": 0.1335540838852097,
	"grad_norm": 6.927279472351074,
	"learning_rate": 9.832162280721157e-06,
	"loss": 0.8501,
	"num_input_tokens_seen": 7929852,
	"step": 121
	},
	{
	"epoch": 0.1346578366445916,
	"grad_norm": 4.555235385894775,
	"learning_rate": 9.827685744328374e-06,
	"loss": 0.3771,
	"num_input_tokens_seen": 7995388,
	"step": 122
	},
	{
	"epoch": 0.1357615894039735,
	"grad_norm": 6.517794609069824,
	"learning_rate": 9.823151457126006e-06,
	"loss": 0.8107,
	"num_input_tokens_seen": 8060924,
	"step": 123
	},
	{
	"epoch": 0.1368653421633554,
	"grad_norm": 5.046365737915039,
	"learning_rate": 9.818559479621851e-06,
	"loss": 0.3973,
	"num_input_tokens_seen": 8126460,
	"step": 124
	},
	{
	"epoch": 0.13796909492273732,
	"grad_norm": 5.294122695922852,
	"learning_rate": 9.813909873093565e-06,
	"loss": 0.4441,
	"num_input_tokens_seen": 8191996,
	"step": 125
	},
	{
	"epoch": 0.1390728476821192,
	"grad_norm": 5.88740873336792,
	"learning_rate": 9.809202699587828e-06,
	"loss": 0.4989,
	"num_input_tokens_seen": 8257532,
	"step": 126
	},
	{
	"epoch": 0.1401766004415011,
	"grad_norm": 5.602629661560059,
	"learning_rate": 9.804438021919525e-06,
	"loss": 0.4466,
	"num_input_tokens_seen": 8323068,
	"step": 127
	},
	{
	"epoch": 0.141280353200883,
	"grad_norm": 5.889889240264893,
	"learning_rate": 9.799615903670904e-06,
	"loss": 0.5564,
	"num_input_tokens_seen": 8388604,
	"step": 128
	},
	{
	"epoch": 0.1423841059602649,
	"grad_norm": 5.074821949005127,
	"learning_rate": 9.794736409190732e-06,
	"loss": 0.3879,
	"num_input_tokens_seen": 8454140,
	"step": 129
	},
	{
	"epoch": 0.1434878587196468,
	"grad_norm": 5.404687881469727,
	"learning_rate": 9.789799603593433e-06,
	"loss": 0.4141,
	"num_input_tokens_seen": 8519676,
	"step": 130
	},
	{
	"epoch": 0.1445916114790287,
	"grad_norm": 5.067564010620117,
	"learning_rate": 9.784805552758213e-06,
	"loss": 0.4376,
	"num_input_tokens_seen": 8585212,
	"step": 131
	},
	{
	"epoch": 0.1456953642384106,
	"grad_norm": 4.754221439361572,
	"learning_rate": 9.779754323328192e-06,
	"loss": 0.3985,
	"num_input_tokens_seen": 8650748,
	"step": 132
	},
	{
	"epoch": 0.1467991169977925,
	"grad_norm": 5.799423694610596,
	"learning_rate": 9.77464598270951e-06,
	"loss": 0.6592,
	"num_input_tokens_seen": 8716284,
	"step": 133
	},
	{
	"epoch": 0.1479028697571744,
	"grad_norm": 5.599109172821045,
	"learning_rate": 9.76948059907043e-06,
	"loss": 0.5591,
	"num_input_tokens_seen": 8781820,
	"step": 134
	},
	{
	"epoch": 0.1490066225165563,
	"grad_norm": 5.459147930145264,
	"learning_rate": 9.764258241340421e-06,
	"loss": 0.5448,
	"num_input_tokens_seen": 8847356,
	"step": 135
	},
	{
	"epoch": 0.15011037527593818,
	"grad_norm": 4.705541133880615,
	"learning_rate": 9.758978979209243e-06,
	"loss": 0.4279,
	"num_input_tokens_seen": 8912892,
	"step": 136
	},
	{
	"epoch": 0.15121412803532008,
	"grad_norm": 5.681971073150635,
	"learning_rate": 9.753642883126018e-06,
	"loss": 0.559,
	"num_input_tokens_seen": 8978428,
	"step": 137
	},
	{
	"epoch": 0.152317880794702,
	"grad_norm": 4.888025760650635,
	"learning_rate": 9.748250024298291e-06,
	"loss": 0.4626,
	"num_input_tokens_seen": 9043964,
	"step": 138
	},
	{
	"epoch": 0.1534216335540839,
	"grad_norm": 5.069499969482422,
	"learning_rate": 9.742800474691075e-06,
	"loss": 0.4097,
	"num_input_tokens_seen": 9109500,
	"step": 139
	},
	{
	"epoch": 0.1545253863134658,
	"grad_norm": 6.779152870178223,
	"learning_rate": 9.73729430702589e-06,
	"loss": 0.6859,
	"num_input_tokens_seen": 9175036,
	"step": 140
	},
	{
	"epoch": 0.15562913907284767,
	"grad_norm": 5.773662567138672,
	"learning_rate": 9.731731594779807e-06,
	"loss": 0.6244,
	"num_input_tokens_seen": 9240568,
	"step": 141
	},
	{
	"epoch": 0.15673289183222958,
	"grad_norm": 4.693535804748535,
	"learning_rate": 9.726112412184441e-06,
	"loss": 0.3684,
	"num_input_tokens_seen": 9306104,
	"step": 142
	},
	{
	"epoch": 0.15783664459161148,
	"grad_norm": 4.742260932922363,
	"learning_rate": 9.72043683422499e-06,
	"loss": 0.4194,
	"num_input_tokens_seen": 9371640,
	"step": 143
	},
	{
	"epoch": 0.15894039735099338,
	"grad_norm": 5.286125659942627,
	"learning_rate": 9.71470493663921e-06,
	"loss": 0.4763,
	"num_input_tokens_seen": 9437176,
	"step": 144
	},
	{
	"epoch": 0.1600441501103753,
	"grad_norm": 5.083088397979736,
	"learning_rate": 9.708916795916418e-06,
	"loss": 0.4952,
	"num_input_tokens_seen": 9502712,
	"step": 145
	},
	{
	"epoch": 0.16114790286975716,
	"grad_norm": 4.462346076965332,
	"learning_rate": 9.703072489296467e-06,
	"loss": 0.4201,
	"num_input_tokens_seen": 9568248,
	"step": 146
	},
	{
	"epoch": 0.16225165562913907,
	"grad_norm": 5.618736267089844,
	"learning_rate": 9.697172094768717e-06,
	"loss": 0.5632,
	"num_input_tokens_seen": 9633784,
	"step": 147
	},
	{
	"epoch": 0.16335540838852097,
	"grad_norm": 5.792170524597168,
	"learning_rate": 9.691215691070994e-06,
	"loss": 0.5519,
	"num_input_tokens_seen": 9699320,
	"step": 148
	},
	{
	"epoch": 0.16445916114790288,
	"grad_norm": 6.814916133880615,
	"learning_rate": 9.685203357688536e-06,
	"loss": 0.5686,
	"num_input_tokens_seen": 9764856,
	"step": 149
	},
	{
	"epoch": 0.16556291390728478,
	"grad_norm": 5.402688503265381,
	"learning_rate": 9.679135174852934e-06,
	"loss": 0.5319,
	"num_input_tokens_seen": 9830392,
	"step": 150
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 6.655113220214844,
	"learning_rate": 9.673011223541067e-06,
	"loss": 0.6354,
	"num_input_tokens_seen": 9895928,
	"step": 151
	},
	{
	"epoch": 0.16777041942604856,
	"grad_norm": 6.647359371185303,
	"learning_rate": 9.666831585474012e-06,
	"loss": 0.8729,
	"num_input_tokens_seen": 9961464,
	"step": 152
	},
	{
	"epoch": 0.16887417218543047,
	"grad_norm": 8.241610527038574,
	"learning_rate": 9.660596343115958e-06,
	"loss": 1.1005,
	"num_input_tokens_seen": 10027000,
	"step": 153
	},
	{
	"epoch": 0.16997792494481237,
	"grad_norm": 5.4942626953125,
	"learning_rate": 9.65430557967311e-06,
	"loss": 0.5956,
	"num_input_tokens_seen": 10092536,
	"step": 154
	},
	{
	"epoch": 0.17108167770419427,
	"grad_norm": 5.064987659454346,
	"learning_rate": 9.647959379092568e-06,
	"loss": 0.4986,
	"num_input_tokens_seen": 10158072,
	"step": 155
	},
	{
	"epoch": 0.17218543046357615,
	"grad_norm": 3.928574323654175,
	"learning_rate": 9.641557826061218e-06,
	"loss": 0.3439,
	"num_input_tokens_seen": 10223608,
	"step": 156
	},
	{
	"epoch": 0.17328918322295805,
	"grad_norm": 4.649381160736084,
	"learning_rate": 9.635101006004596e-06,
	"loss": 0.4185,
	"num_input_tokens_seen": 10289144,
	"step": 157
	},
	{
	"epoch": 0.17439293598233996,
	"grad_norm": 6.195332050323486,
	"learning_rate": 9.628589005085745e-06,
	"loss": 0.6933,
	"num_input_tokens_seen": 10354680,
	"step": 158
	},
	{
	"epoch": 0.17549668874172186,
	"grad_norm": 5.165769577026367,
	"learning_rate": 9.622021910204074e-06,
	"loss": 0.525,
	"num_input_tokens_seen": 10420216,
	"step": 159
	},
	{
	"epoch": 0.17660044150110377,
	"grad_norm": 5.248317241668701,
	"learning_rate": 9.615399808994192e-06,
	"loss": 0.4611,
	"num_input_tokens_seen": 10485752,
	"step": 160
	},
	{
	"epoch": 0.17770419426048564,
	"grad_norm": 4.948761940002441,
	"learning_rate": 9.608722789824739e-06,
	"loss": 0.4007,
	"num_input_tokens_seen": 10551288,
	"step": 161
	},
	{
	"epoch": 0.17880794701986755,
	"grad_norm": 6.128936290740967,
	"learning_rate": 9.601990941797208e-06,
	"loss": 0.6054,
	"num_input_tokens_seen": 10616824,
	"step": 162
	},
	{
	"epoch": 0.17991169977924945,
	"grad_norm": 6.17040491104126,
	"learning_rate": 9.595204354744756e-06,
	"loss": 0.5762,
	"num_input_tokens_seen": 10682360,
	"step": 163
	},
	{
	"epoch": 0.18101545253863136,
	"grad_norm": 5.761812210083008,
	"learning_rate": 9.588363119231004e-06,
	"loss": 0.5555,
	"num_input_tokens_seen": 10747896,
	"step": 164
	},
	{
	"epoch": 0.18211920529801323,
	"grad_norm": 5.079399108886719,
	"learning_rate": 9.581467326548834e-06,
	"loss": 0.3842,
	"num_input_tokens_seen": 10813432,
	"step": 165
	},
	{
	"epoch": 0.18322295805739514,
	"grad_norm": 5.7329607009887695,
	"learning_rate": 9.57451706871916e-06,
	"loss": 0.6035,
	"num_input_tokens_seen": 10878968,
	"step": 166
	},
	{
	"epoch": 0.18432671081677704,
	"grad_norm": 5.196740627288818,
	"learning_rate": 9.567512438489711e-06,
	"loss": 0.4072,
	"num_input_tokens_seen": 10944504,
	"step": 167
	},
	{
	"epoch": 0.18543046357615894,
	"grad_norm": 5.155704498291016,
	"learning_rate": 9.560453529333787e-06,
	"loss": 0.4642,
	"num_input_tokens_seen": 11010040,
	"step": 168
	},
	{
	"epoch": 0.18653421633554085,
	"grad_norm": 6.3926568031311035,
	"learning_rate": 9.55334043544901e-06,
	"loss": 0.8744,
	"num_input_tokens_seen": 11075576,
	"step": 169
	},
	{
	"epoch": 0.18763796909492272,
	"grad_norm": 3.620082378387451,
	"learning_rate": 9.546173251756076e-06,
	"loss": 0.2314,
	"num_input_tokens_seen": 11141112,
	"step": 170
	},
	{
	"epoch": 0.18874172185430463,
	"grad_norm": 5.067852973937988,
	"learning_rate": 9.538952073897477e-06,
	"loss": 0.3696,
	"num_input_tokens_seen": 11206648,
	"step": 171
	},
	{
	"epoch": 0.18984547461368653,
	"grad_norm": 4.713092803955078,
	"learning_rate": 9.531676998236236e-06,
	"loss": 0.4657,
	"num_input_tokens_seen": 11272184,
	"step": 172
	},
	{
	"epoch": 0.19094922737306844,
	"grad_norm": 5.534994125366211,
	"learning_rate": 9.52434812185461e-06,
	"loss": 0.5065,
	"num_input_tokens_seen": 11337720,
	"step": 173
	},
	{
	"epoch": 0.19205298013245034,
	"grad_norm": 5.428729057312012,
	"learning_rate": 9.516965542552804e-06,
	"loss": 0.4614,
	"num_input_tokens_seen": 11403256,
	"step": 174
	},
	{
	"epoch": 0.19315673289183222,
	"grad_norm": 4.462728977203369,
	"learning_rate": 9.509529358847655e-06,
	"loss": 0.383,
	"num_input_tokens_seen": 11468792,
	"step": 175
	},
	{
	"epoch": 0.19426048565121412,
	"grad_norm": 4.043033123016357,
	"learning_rate": 9.502039669971336e-06,
	"loss": 0.3162,
	"num_input_tokens_seen": 11534328,
	"step": 176
	},
	{
	"epoch": 0.19536423841059603,
	"grad_norm": 4.644472122192383,
	"learning_rate": 9.494496575870007e-06,
	"loss": 0.4098,
	"num_input_tokens_seen": 11599864,
	"step": 177
	},
	{
	"epoch": 0.19646799116997793,
	"grad_norm": 4.948442459106445,
	"learning_rate": 9.486900177202503e-06,
	"loss": 0.4331,
	"num_input_tokens_seen": 11665400,
	"step": 178
	},
	{
	"epoch": 0.19757174392935983,
	"grad_norm": 6.079590320587158,
	"learning_rate": 9.479250575338977e-06,
	"loss": 0.5996,
	"num_input_tokens_seen": 11730936,
	"step": 179
	},
	{
	"epoch": 0.1986754966887417,
	"grad_norm": 6.818512439727783,
	"learning_rate": 9.471547872359552e-06,
	"loss": 0.7914,
	"num_input_tokens_seen": 11796472,
	"step": 180
	},
	{
	"epoch": 0.1997792494481236,
	"grad_norm": 6.684516429901123,
	"learning_rate": 9.463792171052965e-06,
	"loss": 0.7554,
	"num_input_tokens_seen": 11862008,
	"step": 181
	},
	{
	"epoch": 0.20088300220750552,
	"grad_norm": 4.4812517166137695,
	"learning_rate": 9.45598357491518e-06,
	"loss": 0.3983,
	"num_input_tokens_seen": 11927544,
	"step": 182
	},
	{
	"epoch": 0.20198675496688742,
	"grad_norm": 5.318398475646973,
	"learning_rate": 9.448122188148026e-06,
	"loss": 0.5978,
	"num_input_tokens_seen": 11993080,
	"step": 183
	},
	{
	"epoch": 0.20309050772626933,
	"grad_norm": 5.358767032623291,
	"learning_rate": 9.440208115657789e-06,
	"loss": 0.4899,
	"num_input_tokens_seen": 12058616,
	"step": 184
	},
	{
	"epoch": 0.2041942604856512,
	"grad_norm": 4.549075126647949,
	"learning_rate": 9.432241463053823e-06,
	"loss": 0.3754,
	"num_input_tokens_seen": 12124152,
	"step": 185
	},
	{
	"epoch": 0.2052980132450331,
	"grad_norm": 6.748514175415039,
	"learning_rate": 9.424222336647135e-06,
	"loss": 0.8162,
	"num_input_tokens_seen": 12189688,
	"step": 186
	},
	{
	"epoch": 0.206401766004415,
	"grad_norm": 5.219625473022461,
	"learning_rate": 9.416150843448974e-06,
	"loss": 0.506,
	"num_input_tokens_seen": 12255224,
	"step": 187
	},
	{
	"epoch": 0.20750551876379691,
	"grad_norm": 5.062671661376953,
	"learning_rate": 9.408027091169391e-06,
	"loss": 0.437,
	"num_input_tokens_seen": 12320760,
	"step": 188
	},
	{
	"epoch": 0.20860927152317882,
	"grad_norm": 4.459550857543945,
	"learning_rate": 9.399851188215815e-06,
	"loss": 0.3918,
	"num_input_tokens_seen": 12386296,
	"step": 189
	},
	{
	"epoch": 0.2097130242825607,
	"grad_norm": 5.297883987426758,
	"learning_rate": 9.391623243691595e-06,
	"loss": 0.4505,
	"num_input_tokens_seen": 12451832,
	"step": 190
	},
	{
	"epoch": 0.2108167770419426,
	"grad_norm": 4.688574314117432,
	"learning_rate": 9.38334336739455e-06,
	"loss": 0.4077,
	"num_input_tokens_seen": 12517368,
	"step": 191
	},
	{
	"epoch": 0.2119205298013245,
	"grad_norm": 6.45738410949707,
	"learning_rate": 9.375011669815504e-06,
	"loss": 0.6966,
	"num_input_tokens_seen": 12582904,
	"step": 192
	},
	{
	"epoch": 0.2130242825607064,
	"grad_norm": 5.424302577972412,
	"learning_rate": 9.366628262136808e-06,
	"loss": 0.499,
	"num_input_tokens_seen": 12648440,
	"step": 193
	},
	{
	"epoch": 0.2141280353200883,
	"grad_norm": 5.937360763549805,
	"learning_rate": 9.35819325623086e-06,
	"loss": 0.6072,
	"num_input_tokens_seen": 12713976,
	"step": 194
	},
	{
	"epoch": 0.2152317880794702,
	"grad_norm": 5.085829734802246,
	"learning_rate": 9.34970676465861e-06,
	"loss": 0.4112,
	"num_input_tokens_seen": 12779512,
	"step": 195
	},
	{
	"epoch": 0.2163355408388521,
	"grad_norm": 4.746096611022949,
	"learning_rate": 9.34116890066806e-06,
	"loss": 0.3946,
	"num_input_tokens_seen": 12845048,
	"step": 196
	},
	{
	"epoch": 0.217439293598234,
	"grad_norm": 4.703492641448975,
	"learning_rate": 9.332579778192749e-06,
	"loss": 0.425,
	"num_input_tokens_seen": 12910584,
	"step": 197
	},
	{
	"epoch": 0.2185430463576159,
	"grad_norm": 5.84251594543457,
	"learning_rate": 9.323939511850237e-06,
	"loss": 0.6691,
	"num_input_tokens_seen": 12976120,
	"step": 198
	},
	{
	"epoch": 0.2196467991169978,
	"grad_norm": 3.8289952278137207,
	"learning_rate": 9.31524821694057e-06,
	"loss": 0.3155,
	"num_input_tokens_seen": 13041656,
	"step": 199
	},
	{
	"epoch": 0.22075055187637968,
	"grad_norm": 3.90834379196167,
	"learning_rate": 9.30650600944475e-06,
	"loss": 0.2806,
	"num_input_tokens_seen": 13107192,
	"step": 200
	},
	{
	"epoch": 0.22185430463576158,
	"grad_norm": 4.902582168579102,
	"learning_rate": 9.297713006023183e-06,
	"loss": 0.3854,
	"num_input_tokens_seen": 13172728,
	"step": 201
	},
	{
	"epoch": 0.2229580573951435,
	"grad_norm": 6.226442813873291,
	"learning_rate": 9.28886932401411e-06,
	"loss": 0.558,
	"num_input_tokens_seen": 13238264,
	"step": 202
	},
	{
	"epoch": 0.2240618101545254,
	"grad_norm": 5.094548225402832,
	"learning_rate": 9.279975081432063e-06,
	"loss": 0.4484,
	"num_input_tokens_seen": 13303800,
	"step": 203
	},
	{
	"epoch": 0.2251655629139073,
	"grad_norm": 4.96065616607666,
	"learning_rate": 9.27103039696628e-06,
	"loss": 0.4513,
	"num_input_tokens_seen": 13369336,
	"step": 204
	},
	{
	"epoch": 0.22626931567328917,
	"grad_norm": 3.6584391593933105,
	"learning_rate": 9.262035389979113e-06,
	"loss": 0.2415,
	"num_input_tokens_seen": 13434872,
	"step": 205
	},
	{
	"epoch": 0.22737306843267108,
	"grad_norm": 5.138461112976074,
	"learning_rate": 9.252990180504451e-06,
	"loss": 0.5035,
	"num_input_tokens_seen": 13500408,
	"step": 206
	},
	{
	"epoch": 0.22847682119205298,
	"grad_norm": 4.905426025390625,
	"learning_rate": 9.243894889246106e-06,
	"loss": 0.4478,
	"num_input_tokens_seen": 13565944,
	"step": 207
	},
	{
	"epoch": 0.22958057395143489,
	"grad_norm": 4.798696517944336,
	"learning_rate": 9.234749637576206e-06,
	"loss": 0.4719,
	"num_input_tokens_seen": 13631480,
	"step": 208
	},
	{
	"epoch": 0.2306843267108168,
	"grad_norm": 5.787559986114502,
	"learning_rate": 9.22555454753358e-06,
	"loss": 0.6204,
	"num_input_tokens_seen": 13697016,
	"step": 209
	},
	{
	"epoch": 0.23178807947019867,
	"grad_norm": 6.1379265785217285,
	"learning_rate": 9.216309741822119e-06,
	"loss": 0.641,
	"num_input_tokens_seen": 13762552,
	"step": 210
	},
	{
	"epoch": 0.23289183222958057,
	"grad_norm": 6.323113441467285,
	"learning_rate": 9.20701534380915e-06,
	"loss": 0.6088,
	"num_input_tokens_seen": 13828088,
	"step": 211
	},
	{
	"epoch": 0.23399558498896247,
	"grad_norm": 8.215484619140625,
	"learning_rate": 9.197671477523785e-06,
	"loss": 0.6663,
	"num_input_tokens_seen": 13893624,
	"step": 212
	},
	{
	"epoch": 0.23509933774834438,
	"grad_norm": 5.999568462371826,
	"learning_rate": 9.188278267655255e-06,
	"loss": 0.6261,
	"num_input_tokens_seen": 13959160,
	"step": 213
	},
	{
	"epoch": 0.23620309050772628,
	"grad_norm": 6.217502593994141,
	"learning_rate": 9.178835839551273e-06,
	"loss": 0.7274,
	"num_input_tokens_seen": 14024696,
	"step": 214
	},
	{
	"epoch": 0.23730684326710816,
	"grad_norm": 5.5007405281066895,
	"learning_rate": 9.169344319216334e-06,
	"loss": 0.4803,
	"num_input_tokens_seen": 14090232,
	"step": 215
	},
	{
	"epoch": 0.23841059602649006,
	"grad_norm": 4.78103494644165,
	"learning_rate": 9.159803833310046e-06,
	"loss": 0.432,
	"num_input_tokens_seen": 14155768,
	"step": 216
	},
	{
	"epoch": 0.23951434878587197,
	"grad_norm": 4.399326801300049,
	"learning_rate": 9.150214509145439e-06,
	"loss": 0.391,
	"num_input_tokens_seen": 14221304,
	"step": 217
	},
	{
	"epoch": 0.24061810154525387,
	"grad_norm": 5.642846584320068,
	"learning_rate": 9.140576474687263e-06,
	"loss": 0.5047,
	"num_input_tokens_seen": 14286840,
	"step": 218
	},
	{
	"epoch": 0.24172185430463577,
	"grad_norm": 5.760812282562256,
	"learning_rate": 9.13088985855029e-06,
	"loss": 0.6133,
	"num_input_tokens_seen": 14352376,
	"step": 219
	},
	{
	"epoch": 0.24282560706401765,
	"grad_norm": 5.308858394622803,
	"learning_rate": 9.121154789997583e-06,
	"loss": 0.4889,
	"num_input_tokens_seen": 14417912,
	"step": 220
	},
	{
	"epoch": 0.24392935982339956,
	"grad_norm": 5.612556457519531,
	"learning_rate": 9.11137139893878e-06,
	"loss": 0.4994,
	"num_input_tokens_seen": 14483448,
	"step": 221
	},
	{
	"epoch": 0.24503311258278146,
	"grad_norm": 4.570278167724609,
	"learning_rate": 9.101539815928358e-06,
	"loss": 0.4871,
	"num_input_tokens_seen": 14548984,
	"step": 222
	},
	{
	"epoch": 0.24613686534216336,
	"grad_norm": 6.837000846862793,
	"learning_rate": 9.091660172163894e-06,
	"loss": 0.8181,
	"num_input_tokens_seen": 14614520,
	"step": 223
	},
	{
	"epoch": 0.24724061810154527,
	"grad_norm": 7.090153217315674,
	"learning_rate": 9.08173259948431e-06,
	"loss": 0.8306,
	"num_input_tokens_seen": 14680056,
	"step": 224
	},
	{
	"epoch": 0.24834437086092714,
	"grad_norm": 4.480409622192383,
	"learning_rate": 9.071757230368117e-06,
	"loss": 0.4458,
	"num_input_tokens_seen": 14745592,
	"step": 225
	},
	{
	"epoch": 0.24944812362030905,
	"grad_norm": 5.686323642730713,
	"learning_rate": 9.061734197931645e-06,
	"loss": 0.5,
	"num_input_tokens_seen": 14811128,
	"step": 226
	},
	{
	"epoch": 0.25055187637969095,
	"grad_norm": 5.53110933303833,
	"learning_rate": 9.051663635927265e-06,
	"loss": 0.5392,
	"num_input_tokens_seen": 14876664,
	"step": 227
	},
	{
	"epoch": 0.25165562913907286,
	"grad_norm": 4.834395408630371,
	"learning_rate": 9.04154567874161e-06,
	"loss": 0.3774,
	"num_input_tokens_seen": 14942200,
	"step": 228
	},
	{
	"epoch": 0.25275938189845476,
	"grad_norm": 5.39569091796875,
	"learning_rate": 9.031380461393774e-06,
	"loss": 0.5263,
	"num_input_tokens_seen": 15007736,
	"step": 229
	},
	{
	"epoch": 0.25386313465783666,
	"grad_norm": 4.755312919616699,
	"learning_rate": 9.021168119533522e-06,
	"loss": 0.3951,
	"num_input_tokens_seen": 15073272,
	"step": 230
	},
	{
	"epoch": 0.25496688741721857,
	"grad_norm": 5.514160633087158,
	"learning_rate": 9.010908789439463e-06,
	"loss": 0.6618,
	"num_input_tokens_seen": 15138808,
	"step": 231
	},
	{
	"epoch": 0.2560706401766004,
	"grad_norm": 4.2921552658081055,
	"learning_rate": 9.000602608017243e-06,
	"loss": 0.4315,
	"num_input_tokens_seen": 15204344,
	"step": 232
	},
	{
	"epoch": 0.2571743929359823,
	"grad_norm": 5.0842108726501465,
	"learning_rate": 8.99024971279772e-06,
	"loss": 0.484,
	"num_input_tokens_seen": 15269880,
	"step": 233
	},
	{
	"epoch": 0.2582781456953642,
	"grad_norm": 7.238823890686035,
	"learning_rate": 8.979850241935122e-06,
	"loss": 0.7677,
	"num_input_tokens_seen": 15335416,
	"step": 234
	},
	{
	"epoch": 0.25938189845474613,
	"grad_norm": 4.493621349334717,
	"learning_rate": 8.969404334205203e-06,
	"loss": 0.3926,
	"num_input_tokens_seen": 15400952,
	"step": 235
	},
	{
	"epoch": 0.26048565121412803,
	"grad_norm": 5.966931343078613,
	"learning_rate": 8.958912129003395e-06,
	"loss": 0.5586,
	"num_input_tokens_seen": 15466488,
	"step": 236
	},
	{
	"epoch": 0.26158940397350994,
	"grad_norm": 6.150123596191406,
	"learning_rate": 8.948373766342952e-06,
	"loss": 0.7247,
	"num_input_tokens_seen": 15532024,
	"step": 237
	},
	{
	"epoch": 0.26269315673289184,
	"grad_norm": 5.65477180480957,
	"learning_rate": 8.937789386853067e-06,
	"loss": 0.452,
	"num_input_tokens_seen": 15597560,
	"step": 238
	},
	{
	"epoch": 0.26379690949227375,
	"grad_norm": 6.099196910858154,
	"learning_rate": 8.927159131777013e-06,
	"loss": 0.6872,
	"num_input_tokens_seen": 15663096,
	"step": 239
	},
	{
	"epoch": 0.26490066225165565,
	"grad_norm": 5.515918254852295,
	"learning_rate": 8.916483142970244e-06,
	"loss": 0.6076,
	"num_input_tokens_seen": 15728632,
	"step": 240
	},
	{
	"epoch": 0.26600441501103755,
	"grad_norm": 5.490879058837891,
	"learning_rate": 8.905761562898514e-06,
	"loss": 0.5676,
	"num_input_tokens_seen": 15794168,
	"step": 241
	},
	{
	"epoch": 0.2671081677704194,
	"grad_norm": 4.504538536071777,
	"learning_rate": 8.894994534635962e-06,
	"loss": 0.3909,
	"num_input_tokens_seen": 15859704,
	"step": 242
	},
	{
	"epoch": 0.2682119205298013,
	"grad_norm": 5.765637397766113,
	"learning_rate": 8.884182201863218e-06,
	"loss": 0.6022,
	"num_input_tokens_seen": 15925240,
	"step": 243
	},
	{
	"epoch": 0.2693156732891832,
	"grad_norm": 7.247265338897705,
	"learning_rate": 8.873324708865473e-06,
	"loss": 0.3683,
	"num_input_tokens_seen": 15990776,
	"step": 244
	},
	{
	"epoch": 0.2704194260485651,
	"grad_norm": 6.174973964691162,
	"learning_rate": 8.862422200530561e-06,
	"loss": 0.6992,
	"num_input_tokens_seen": 16056312,
	"step": 245
	},
	{
	"epoch": 0.271523178807947,
	"grad_norm": 5.999027729034424,
	"learning_rate": 8.85147482234702e-06,
	"loss": 0.745,
	"num_input_tokens_seen": 16121848,
	"step": 246
	},
	{
	"epoch": 0.2726269315673289,
	"grad_norm": 4.824187278747559,
	"learning_rate": 8.840482720402159e-06,
	"loss": 0.4242,
	"num_input_tokens_seen": 16187384,
	"step": 247
	},
	{
	"epoch": 0.2737306843267108,
	"grad_norm": 6.063555717468262,
	"learning_rate": 8.829446041380099e-06,
	"loss": 0.5956,
	"num_input_tokens_seen": 16252920,
	"step": 248
	},
	{
	"epoch": 0.27483443708609273,
	"grad_norm": 5.309985160827637,
	"learning_rate": 8.818364932559822e-06,
	"loss": 0.4649,
	"num_input_tokens_seen": 16318456,
	"step": 249
	},
	{
	"epoch": 0.27593818984547464,
	"grad_norm": 4.762182712554932,
	"learning_rate": 8.807239541813204e-06,
	"loss": 0.4554,
	"num_input_tokens_seen": 16383992,
	"step": 250
	},
	{
	"epoch": 0.27704194260485654,
	"grad_norm": 5.908174514770508,
	"learning_rate": 8.796070017603037e-06,
	"loss": 0.4796,
	"num_input_tokens_seen": 16449528,
	"step": 251
	},
	{
	"epoch": 0.2781456953642384,
	"grad_norm": 5.626619338989258,
	"learning_rate": 8.784856508981062e-06,
	"loss": 0.4437,
	"num_input_tokens_seen": 16515064,
	"step": 252
	},
	{
	"epoch": 0.2792494481236203,
	"grad_norm": 5.213916301727295,
	"learning_rate": 8.773599165585957e-06,
	"loss": 0.3765,
	"num_input_tokens_seen": 16580600,
	"step": 253
	},
	{
	"epoch": 0.2803532008830022,
	"grad_norm": 3.7691640853881836,
	"learning_rate": 8.762298137641363e-06,
	"loss": 0.2522,
	"num_input_tokens_seen": 16646136,
	"step": 254
	},
	{
	"epoch": 0.2814569536423841,
	"grad_norm": 7.3836236000061035,
	"learning_rate": 8.750953575953862e-06,
	"loss": 0.6886,
	"num_input_tokens_seen": 16711672,
	"step": 255
	},
	{
	"epoch": 0.282560706401766,
	"grad_norm": 6.279829978942871,
	"learning_rate": 8.739565631910983e-06,
	"loss": 0.729,
	"num_input_tokens_seen": 16777208,
	"step": 256
	},
	{
	"epoch": 0.2836644591611479,
	"grad_norm": 6.2540507316589355,
	"learning_rate": 8.728134457479158e-06,
	"loss": 0.5763,
	"num_input_tokens_seen": 16842744,
	"step": 257
	},
	{
	"epoch": 0.2847682119205298,
	"grad_norm": 5.088672161102295,
	"learning_rate": 8.716660205201715e-06,
	"loss": 0.3749,
	"num_input_tokens_seen": 16908280,
	"step": 258
	},
	{
	"epoch": 0.2858719646799117,
	"grad_norm": 5.244248390197754,
	"learning_rate": 8.705143028196834e-06,
	"loss": 0.5395,
	"num_input_tokens_seen": 16973816,
	"step": 259
	},
	{
	"epoch": 0.2869757174392936,
	"grad_norm": 5.609091758728027,
	"learning_rate": 8.693583080155501e-06,
	"loss": 0.4133,
	"num_input_tokens_seen": 17039352,
	"step": 260
	},
	{
	"epoch": 0.28807947019867547,
	"grad_norm": 4.83781099319458,
	"learning_rate": 8.681980515339464e-06,
	"loss": 0.3799,
	"num_input_tokens_seen": 17104888,
	"step": 261
	},
	{
	"epoch": 0.2891832229580574,
	"grad_norm": 5.5107340812683105,
	"learning_rate": 8.670335488579166e-06,
	"loss": 0.4834,
	"num_input_tokens_seen": 17170424,
	"step": 262
	},
	{
	"epoch": 0.2902869757174393,
	"grad_norm": 5.0106201171875,
	"learning_rate": 8.658648155271688e-06,
	"loss": 0.4059,
	"num_input_tokens_seen": 17235960,
	"step": 263
	},
	{
	"epoch": 0.2913907284768212,
	"grad_norm": 4.87216329574585,
	"learning_rate": 8.646918671378666e-06,
	"loss": 0.4187,
	"num_input_tokens_seen": 17301496,
	"step": 264
	},
	{
	"epoch": 0.2924944812362031,
	"grad_norm": 5.391574859619141,
	"learning_rate": 8.635147193424219e-06,
	"loss": 0.4873,
	"num_input_tokens_seen": 17367032,
	"step": 265
	},
	{
	"epoch": 0.293598233995585,
	"grad_norm": 5.076900959014893,
	"learning_rate": 8.623333878492853e-06,
	"loss": 0.4802,
	"num_input_tokens_seen": 17432568,
	"step": 266
	},
	{
	"epoch": 0.2947019867549669,
	"grad_norm": 5.86137580871582,
	"learning_rate": 8.61147888422737e-06,
	"loss": 0.5354,
	"num_input_tokens_seen": 17498104,
	"step": 267
	},
	{
	"epoch": 0.2958057395143488,
	"grad_norm": 4.704822540283203,
	"learning_rate": 8.59958236882676e-06,
	"loss": 0.4128,
	"num_input_tokens_seen": 17563640,
	"step": 268
	},
	{
	"epoch": 0.2969094922737307,
	"grad_norm": 5.304955005645752,
	"learning_rate": 8.587644491044094e-06,
	"loss": 0.3959,
	"num_input_tokens_seen": 17629176,
	"step": 269
	},
	{
	"epoch": 0.2980132450331126,
	"grad_norm": 4.6488518714904785,
	"learning_rate": 8.575665410184398e-06,
	"loss": 0.4585,
	"num_input_tokens_seen": 17694712,
	"step": 270
	},
	{
	"epoch": 0.29911699779249445,
	"grad_norm": 5.93010139465332,
	"learning_rate": 8.563645286102539e-06,
	"loss": 0.6202,
	"num_input_tokens_seen": 17760248,
	"step": 271
	},
	{
	"epoch": 0.30022075055187636,
	"grad_norm": 5.770275115966797,
	"learning_rate": 8.551584279201085e-06,
	"loss": 0.499,
	"num_input_tokens_seen": 17825784,
	"step": 272
	},
	{
	"epoch": 0.30132450331125826,
	"grad_norm": 6.36545991897583,
	"learning_rate": 8.539482550428158e-06,
	"loss": 0.7024,
	"num_input_tokens_seen": 17891320,
	"step": 273
	},
	{
	"epoch": 0.30242825607064017,
	"grad_norm": 5.636227130889893,
	"learning_rate": 8.527340261275302e-06,
	"loss": 0.6154,
	"num_input_tokens_seen": 17956856,
	"step": 274
	},
	{
	"epoch": 0.30353200883002207,
	"grad_norm": 4.823254585266113,
	"learning_rate": 8.515157573775309e-06,
	"loss": 0.3441,
	"num_input_tokens_seen": 18022392,
	"step": 275
	},
	{
	"epoch": 0.304635761589404,
	"grad_norm": 5.449868679046631,
	"learning_rate": 8.50293465050008e-06,
	"loss": 0.5015,
	"num_input_tokens_seen": 18087928,
	"step": 276
	},
	{
	"epoch": 0.3057395143487859,
	"grad_norm": 4.312854766845703,
	"learning_rate": 8.490671654558427e-06,
	"loss": 0.3685,
	"num_input_tokens_seen": 18153464,
	"step": 277
	},
	{
	"epoch": 0.3068432671081678,
	"grad_norm": 6.949029445648193,
	"learning_rate": 8.478368749593925e-06,
	"loss": 0.6666,
	"num_input_tokens_seen": 18219000,
	"step": 278
	},
	{
	"epoch": 0.3079470198675497,
	"grad_norm": 6.440571308135986,
	"learning_rate": 8.466026099782708e-06,
	"loss": 0.8144,
	"num_input_tokens_seen": 18284536,
	"step": 279
	},
	{
	"epoch": 0.3090507726269316,
	"grad_norm": 4.756875038146973,
	"learning_rate": 8.453643869831289e-06,
	"loss": 0.4319,
	"num_input_tokens_seen": 18350072,
	"step": 280
	},
	{
	"epoch": 0.31015452538631344,
	"grad_norm": 7.117915153503418,
	"learning_rate": 8.441222224974353e-06,
	"loss": 0.7307,
	"num_input_tokens_seen": 18415608,
	"step": 281
	},
	{
	"epoch": 0.31125827814569534,
	"grad_norm": 6.1996684074401855,
	"learning_rate": 8.428761330972562e-06,
	"loss": 0.6961,
	"num_input_tokens_seen": 18481144,
	"step": 282
	},
	{
	"epoch": 0.31236203090507725,
	"grad_norm": 5.32656192779541,
	"learning_rate": 8.416261354110334e-06,
	"loss": 0.4869,
	"num_input_tokens_seen": 18546680,
	"step": 283
	},
	{
	"epoch": 0.31346578366445915,
	"grad_norm": 5.852849960327148,
	"learning_rate": 8.403722461193635e-06,
	"loss": 0.5949,
	"num_input_tokens_seen": 18612216,
	"step": 284
	},
	{
	"epoch": 0.31456953642384106,
	"grad_norm": 4.754979133605957,
	"learning_rate": 8.391144819547742e-06,
	"loss": 0.4291,
	"num_input_tokens_seen": 18677752,
	"step": 285
	},
	{
	"epoch": 0.31567328918322296,
	"grad_norm": 6.007636547088623,
	"learning_rate": 8.378528597015011e-06,
	"loss": 0.542,
	"num_input_tokens_seen": 18743288,
	"step": 286
	},
	{
	"epoch": 0.31677704194260486,
	"grad_norm": 6.076221942901611,
	"learning_rate": 8.365873961952648e-06,
	"loss": 0.7025,
	"num_input_tokens_seen": 18808824,
	"step": 287
	},
	{
	"epoch": 0.31788079470198677,
	"grad_norm": 4.541327476501465,
	"learning_rate": 8.35318108323045e-06,
	"loss": 0.4121,
	"num_input_tokens_seen": 18874360,
	"step": 288
	},
	{
	"epoch": 0.3189845474613687,
	"grad_norm": 4.576253414154053,
	"learning_rate": 8.340450130228558e-06,
	"loss": 0.3526,
	"num_input_tokens_seen": 18939896,
	"step": 289
	},
	{
	"epoch": 0.3200883002207506,
	"grad_norm": 5.6783976554870605,
	"learning_rate": 8.327681272835197e-06,
	"loss": 0.5399,
	"num_input_tokens_seen": 19005432,
	"step": 290
	},
	{
	"epoch": 0.3211920529801324,
	"grad_norm": 5.336645603179932,
	"learning_rate": 8.314874681444404e-06,
	"loss": 0.4894,
	"num_input_tokens_seen": 19070968,
	"step": 291
	},
	{
	"epoch": 0.32229580573951433,
	"grad_norm": 5.151770114898682,
	"learning_rate": 8.30203052695376e-06,
	"loss": 0.4226,
	"num_input_tokens_seen": 19136504,
	"step": 292
	},
	{
	"epoch": 0.32339955849889623,
	"grad_norm": 5.253474712371826,
	"learning_rate": 8.289148980762105e-06,
	"loss": 0.5135,
	"num_input_tokens_seen": 19202040,
	"step": 293
	},
	{
	"epoch": 0.32450331125827814,
	"grad_norm": 5.810973644256592,
	"learning_rate": 8.276230214767254e-06,
	"loss": 0.6277,
	"num_input_tokens_seen": 19267576,
	"step": 294
	},
	{
	"epoch": 0.32560706401766004,
	"grad_norm": 5.979196548461914,
	"learning_rate": 8.263274401363704e-06,
	"loss": 0.6719,
	"num_input_tokens_seen": 19333112,
	"step": 295
	},
	{
	"epoch": 0.32671081677704195,
	"grad_norm": 4.947514533996582,
	"learning_rate": 8.250281713440323e-06,
	"loss": 0.4234,
	"num_input_tokens_seen": 19398648,
	"step": 296
	},
	{
	"epoch": 0.32781456953642385,
	"grad_norm": 4.194842338562012,
	"learning_rate": 8.237252324378059e-06,
	"loss": 0.335,
	"num_input_tokens_seen": 19464184,
	"step": 297
	},
	{
	"epoch": 0.32891832229580575,
	"grad_norm": 4.941613674163818,
	"learning_rate": 8.224186408047616e-06,
	"loss": 0.3597,
	"num_input_tokens_seen": 19529720,
	"step": 298
	},
	{
	"epoch": 0.33002207505518766,
	"grad_norm": 5.901616096496582,
	"learning_rate": 8.211084138807138e-06,
	"loss": 0.6489,
	"num_input_tokens_seen": 19595256,
	"step": 299
	},
	{
	"epoch": 0.33112582781456956,
	"grad_norm": 4.655982971191406,
	"learning_rate": 8.197945691499876e-06,
	"loss": 0.4378,
	"num_input_tokens_seen": 19660792,
	"step": 300
	},
	{
	"epoch": 0.3322295805739514,
	"grad_norm": 4.98732852935791,
	"learning_rate": 8.184771241451862e-06,
	"loss": 0.4636,
	"num_input_tokens_seen": 19726328,
	"step": 301
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 5.869397163391113,
	"learning_rate": 8.17156096446957e-06,
	"loss": 0.6995,
	"num_input_tokens_seen": 19791864,
	"step": 302
	},
	{
	"epoch": 0.3344370860927152,
	"grad_norm": 4.8156418800354,
	"learning_rate": 8.158315036837557e-06,
	"loss": 0.4852,
	"num_input_tokens_seen": 19857400,
	"step": 303
	},
	{
	"epoch": 0.3355408388520971,
	"grad_norm": 7.32762336730957,
	"learning_rate": 8.14503363531613e-06,
	"loss": 0.9684,
	"num_input_tokens_seen": 19922936,
	"step": 304
	},
	{
	"epoch": 0.336644591611479,
	"grad_norm": 5.988272190093994,
	"learning_rate": 8.131716937138973e-06,
	"loss": 0.6892,
	"num_input_tokens_seen": 19988472,
	"step": 305
	},
	{
	"epoch": 0.33774834437086093,
	"grad_norm": 5.299745559692383,
	"learning_rate": 8.11836512001079e-06,
	"loss": 0.4995,
	"num_input_tokens_seen": 20054008,
	"step": 306
	},
	{
	"epoch": 0.33885209713024284,
	"grad_norm": 5.244733810424805,
	"learning_rate": 8.10497836210492e-06,
	"loss": 0.5387,
	"num_input_tokens_seen": 20119544,
	"step": 307
	},
	{
	"epoch": 0.33995584988962474,
	"grad_norm": 4.309633255004883,
	"learning_rate": 8.091556842060981e-06,
	"loss": 0.3757,
	"num_input_tokens_seen": 20185080,
	"step": 308
	},
	{
	"epoch": 0.34105960264900664,
	"grad_norm": 4.323147296905518,
	"learning_rate": 8.07810073898247e-06,
	"loss": 0.3871,
	"num_input_tokens_seen": 20250616,
	"step": 309
	},
	{
	"epoch": 0.34216335540838855,
	"grad_norm": 5.932765007019043,
	"learning_rate": 8.064610232434375e-06,
	"loss": 0.687,
	"num_input_tokens_seen": 20316152,
	"step": 310
	},
	{
	"epoch": 0.3432671081677704,
	"grad_norm": 5.740137100219727,
	"learning_rate": 8.051085502440782e-06,
	"loss": 0.6566,
	"num_input_tokens_seen": 20381688,
	"step": 311
	},
	{
	"epoch": 0.3443708609271523,
	"grad_norm": 5.602391719818115,
	"learning_rate": 8.037526729482474e-06,
	"loss": 0.6846,
	"num_input_tokens_seen": 20447224,
	"step": 312
	},
	{
	"epoch": 0.3454746136865342,
	"grad_norm": 6.104027271270752,
	"learning_rate": 8.02393409449452e-06,
	"loss": 0.5781,
	"num_input_tokens_seen": 20512760,
	"step": 313
	},
	{
	"epoch": 0.3465783664459161,
	"grad_norm": 3.9661595821380615,
	"learning_rate": 8.010307778863859e-06,
	"loss": 0.2769,
	"num_input_tokens_seen": 20578296,
	"step": 314
	},
	{
	"epoch": 0.347682119205298,
	"grad_norm": 4.286974906921387,
	"learning_rate": 7.996647964426883e-06,
	"loss": 0.311,
	"num_input_tokens_seen": 20643832,
	"step": 315
	},
	{
	"epoch": 0.3487858719646799,
	"grad_norm": 5.434468746185303,
	"learning_rate": 7.982954833467007e-06,
	"loss": 0.6516,
	"num_input_tokens_seen": 20709368,
	"step": 316
	},
	{
	"epoch": 0.3498896247240618,
	"grad_norm": 4.0702223777771,
	"learning_rate": 7.969228568712242e-06,
	"loss": 0.353,
	"num_input_tokens_seen": 20774904,
	"step": 317
	},
	{
	"epoch": 0.3509933774834437,
	"grad_norm": 6.999876499176025,
	"learning_rate": 7.95546935333275e-06,
	"loss": 0.891,
	"num_input_tokens_seen": 20840440,
	"step": 318
	},
	{
	"epoch": 0.35209713024282563,
	"grad_norm": 3.8806591033935547,
	"learning_rate": 7.941677370938404e-06,
	"loss": 0.2951,
	"num_input_tokens_seen": 20905976,
	"step": 319
	},
	{
	"epoch": 0.35320088300220753,
	"grad_norm": 6.465142726898193,
	"learning_rate": 7.927852805576334e-06,
	"loss": 0.7898,
	"num_input_tokens_seen": 20971512,
	"step": 320
	},
	{
	"epoch": 0.3543046357615894,
	"grad_norm": 5.034674167633057,
	"learning_rate": 7.913995841728477e-06,
	"loss": 0.4284,
	"num_input_tokens_seen": 21037048,
	"step": 321
	},
	{
	"epoch": 0.3554083885209713,
	"grad_norm": 6.744060039520264,
	"learning_rate": 7.90010666430911e-06,
	"loss": 0.7808,
	"num_input_tokens_seen": 21102584,
	"step": 322
	},
	{
	"epoch": 0.3565121412803532,
	"grad_norm": 4.225239276885986,
	"learning_rate": 7.886185458662383e-06,
	"loss": 0.2769,
	"num_input_tokens_seen": 21168120,
	"step": 323
	},
	{
	"epoch": 0.3576158940397351,
	"grad_norm": 4.372021675109863,
	"learning_rate": 7.872232410559848e-06,
	"loss": 0.3404,
	"num_input_tokens_seen": 21233656,
	"step": 324
	},
	{
	"epoch": 0.358719646799117,
	"grad_norm": 5.2710185050964355,
	"learning_rate": 7.85824770619798e-06,
	"loss": 0.4023,
	"num_input_tokens_seen": 21299192,
	"step": 325
	},
	{
	"epoch": 0.3598233995584989,
	"grad_norm": 4.083426475524902,
	"learning_rate": 7.844231532195686e-06,
	"loss": 0.2934,
	"num_input_tokens_seen": 21364728,
	"step": 326
	},
	{
	"epoch": 0.3609271523178808,
	"grad_norm": 5.436210632324219,
	"learning_rate": 7.830184075591829e-06,
	"loss": 0.4998,
	"num_input_tokens_seen": 21430264,
	"step": 327
	},
	{
	"epoch": 0.3620309050772627,
	"grad_norm": 5.057102203369141,
	"learning_rate": 7.816105523842712e-06,
	"loss": 0.5121,
	"num_input_tokens_seen": 21495800,
	"step": 328
	},
	{
	"epoch": 0.3631346578366446,
	"grad_norm": 6.161040306091309,
	"learning_rate": 7.801996064819594e-06,
	"loss": 0.5667,
	"num_input_tokens_seen": 21561336,
	"step": 329
	},
	{
	"epoch": 0.36423841059602646,
	"grad_norm": 4.909401893615723,
	"learning_rate": 7.787855886806174e-06,
	"loss": 0.414,
	"num_input_tokens_seen": 21626872,
	"step": 330
	},
	{
	"epoch": 0.36534216335540837,
	"grad_norm": 6.199487209320068,
	"learning_rate": 7.773685178496084e-06,
	"loss": 0.6352,
	"num_input_tokens_seen": 21692408,
	"step": 331
	},
	{
	"epoch": 0.36644591611479027,
	"grad_norm": 5.417155742645264,
	"learning_rate": 7.759484128990359e-06,
	"loss": 0.5171,
	"num_input_tokens_seen": 21757944,
	"step": 332
	},
	{
	"epoch": 0.3675496688741722,
	"grad_norm": 5.248231410980225,
	"learning_rate": 7.745252927794929e-06,
	"loss": 0.5954,
	"num_input_tokens_seen": 21823480,
	"step": 333
	},
	{
	"epoch": 0.3686534216335541,
	"grad_norm": 4.734684944152832,
	"learning_rate": 7.730991764818083e-06,
	"loss": 0.4274,
	"num_input_tokens_seen": 21889016,
	"step": 334
	},
	{
	"epoch": 0.369757174392936,
	"grad_norm": 5.899268627166748,
	"learning_rate": 7.716700830367937e-06,
	"loss": 0.6043,
	"num_input_tokens_seen": 21954552,
	"step": 335
	},
	{
	"epoch": 0.3708609271523179,
	"grad_norm": 5.965540885925293,
	"learning_rate": 7.702380315149885e-06,
	"loss": 0.5565,
	"num_input_tokens_seen": 22020088,
	"step": 336
	},
	{
	"epoch": 0.3719646799116998,
	"grad_norm": 3.7075252532958984,
	"learning_rate": 7.68803041026407e-06,
	"loss": 0.2761,
	"num_input_tokens_seen": 22085624,
	"step": 337
	},
	{
	"epoch": 0.3730684326710817,
	"grad_norm": 5.284467697143555,
	"learning_rate": 7.673651307202816e-06,
	"loss": 0.4702,
	"num_input_tokens_seen": 22151160,
	"step": 338
	},
	{
	"epoch": 0.3741721854304636,
	"grad_norm": 4.557376861572266,
	"learning_rate": 7.659243197848091e-06,
	"loss": 0.3558,
	"num_input_tokens_seen": 22216696,
	"step": 339
	},
	{
	"epoch": 0.37527593818984545,
	"grad_norm": 5.523560523986816,
	"learning_rate": 7.644806274468936e-06,
	"loss": 0.5721,
	"num_input_tokens_seen": 22282232,
	"step": 340
	},
	{
	"epoch": 0.37637969094922735,
	"grad_norm": 5.48103141784668,
	"learning_rate": 7.630340729718896e-06,
	"loss": 0.6207,
	"num_input_tokens_seen": 22347768,
	"step": 341
	},
	{
	"epoch": 0.37748344370860926,
	"grad_norm": 4.440031051635742,
	"learning_rate": 7.6158467566334584e-06,
	"loss": 0.3645,
	"num_input_tokens_seen": 22413304,
	"step": 342
	},
	{
	"epoch": 0.37858719646799116,
	"grad_norm": 4.76084566116333,
	"learning_rate": 7.6013245486274685e-06,
	"loss": 0.4351,
	"num_input_tokens_seen": 22478840,
	"step": 343
	},
	{
	"epoch": 0.37969094922737306,
	"grad_norm": 6.258664131164551,
	"learning_rate": 7.58677429949256e-06,
	"loss": 0.6918,
	"num_input_tokens_seen": 22544376,
	"step": 344
	},
	{
	"epoch": 0.38079470198675497,
	"grad_norm": 4.8109660148620605,
	"learning_rate": 7.572196203394553e-06,
	"loss": 0.4623,
	"num_input_tokens_seen": 22609912,
	"step": 345
	},
	{
	"epoch": 0.3818984547461369,
	"grad_norm": 4.017666339874268,
	"learning_rate": 7.557590454870874e-06,
	"loss": 0.3383,
	"num_input_tokens_seen": 22675448,
	"step": 346
	},
	{
	"epoch": 0.3830022075055188,
	"grad_norm": 4.424713134765625,
	"learning_rate": 7.5429572488279615e-06,
	"loss": 0.3711,
	"num_input_tokens_seen": 22740984,
	"step": 347
	},
	{
	"epoch": 0.3841059602649007,
	"grad_norm": 6.114891529083252,
	"learning_rate": 7.5282967805386555e-06,
	"loss": 0.7094,
	"num_input_tokens_seen": 22806520,
	"step": 348
	},
	{
	"epoch": 0.3852097130242826,
	"grad_norm": 4.288976669311523,
	"learning_rate": 7.5136092456396e-06,
	"loss": 0.3381,
	"num_input_tokens_seen": 22872056,
	"step": 349
	},
	{
	"epoch": 0.38631346578366443,
	"grad_norm": 3.8139936923980713,
	"learning_rate": 7.498894840128632e-06,
	"loss": 0.2501,
	"num_input_tokens_seen": 22937592,
	"step": 350
	},
	{
	"epoch": 0.38741721854304634,
	"grad_norm": 4.9862060546875,
	"learning_rate": 7.484153760362155e-06,
	"loss": 0.4111,
	"num_input_tokens_seen": 23003128,
	"step": 351
	},
	{
	"epoch": 0.38852097130242824,
	"grad_norm": 6.541782379150391,
	"learning_rate": 7.4693862030525356e-06,
	"loss": 0.8444,
	"num_input_tokens_seen": 23068664,
	"step": 352
	},
	{
	"epoch": 0.38962472406181015,
	"grad_norm": 4.731116771697998,
	"learning_rate": 7.454592365265464e-06,
	"loss": 0.3405,
	"num_input_tokens_seen": 23134200,
	"step": 353
	},
	{
	"epoch": 0.39072847682119205,
	"grad_norm": 5.749923229217529,
	"learning_rate": 7.439772444417337e-06,
	"loss": 0.6451,
	"num_input_tokens_seen": 23199736,
	"step": 354
	},
	{
	"epoch": 0.39183222958057395,
	"grad_norm": 5.7721099853515625,
	"learning_rate": 7.424926638272609e-06,
	"loss": 0.5034,
	"num_input_tokens_seen": 23265272,
	"step": 355
	},
	{
	"epoch": 0.39293598233995586,
	"grad_norm": 4.80233907699585,
	"learning_rate": 7.410055144941168e-06,
	"loss": 0.3973,
	"num_input_tokens_seen": 23330808,
	"step": 356
	},
	{
	"epoch": 0.39403973509933776,
	"grad_norm": 5.965678691864014,
	"learning_rate": 7.395158162875681e-06,
	"loss": 0.5132,
	"num_input_tokens_seen": 23396344,
	"step": 357
	},
	{
	"epoch": 0.39514348785871967,
	"grad_norm": 5.89133882522583,
	"learning_rate": 7.380235890868946e-06,
	"loss": 0.6651,
	"num_input_tokens_seen": 23461880,
	"step": 358
	},
	{
	"epoch": 0.39624724061810157,
	"grad_norm": 4.942079067230225,
	"learning_rate": 7.365288528051251e-06,
	"loss": 0.4079,
	"num_input_tokens_seen": 23527412,
	"step": 359
	},
	{
	"epoch": 0.3973509933774834,
	"grad_norm": 4.461698055267334,
	"learning_rate": 7.350316273887702e-06,
	"loss": 0.3752,
	"num_input_tokens_seen": 23592948,
	"step": 360
	},
	{
	"epoch": 0.3984547461368653,
	"grad_norm": 5.262115001678467,
	"learning_rate": 7.335319328175571e-06,
	"loss": 0.6089,
	"num_input_tokens_seen": 23658484,
	"step": 361
	},
	{
	"epoch": 0.3995584988962472,
	"grad_norm": 6.512784957885742,
	"learning_rate": 7.3202978910416225e-06,
	"loss": 0.9327,
	"num_input_tokens_seen": 23724020,
	"step": 362
	},
	{
	"epoch": 0.40066225165562913,
	"grad_norm": 3.6190109252929688,
	"learning_rate": 7.305252162939451e-06,
	"loss": 0.2887,
	"num_input_tokens_seen": 23789556,
	"step": 363
	},
	{
	"epoch": 0.40176600441501104,
	"grad_norm": 4.493287086486816,
	"learning_rate": 7.290182344646799e-06,
	"loss": 0.3774,
	"num_input_tokens_seen": 23855092,
	"step": 364
	},
	{
	"epoch": 0.40286975717439294,
	"grad_norm": 6.982156276702881,
	"learning_rate": 7.275088637262881e-06,
	"loss": 1.0283,
	"num_input_tokens_seen": 23920628,
	"step": 365
	},
	{
	"epoch": 0.40397350993377484,
	"grad_norm": 5.538138389587402,
	"learning_rate": 7.259971242205702e-06,
	"loss": 0.6455,
	"num_input_tokens_seen": 23986164,
	"step": 366
	},
	{
	"epoch": 0.40507726269315675,
	"grad_norm": 3.606851100921631,
	"learning_rate": 7.244830361209366e-06,
	"loss": 0.2485,
	"num_input_tokens_seen": 24051700,
	"step": 367
	},
	{
	"epoch": 0.40618101545253865,
	"grad_norm": 5.6115851402282715,
	"learning_rate": 7.229666196321383e-06,
	"loss": 0.6441,
	"num_input_tokens_seen": 24117236,
	"step": 368
	},
	{
	"epoch": 0.40728476821192056,
	"grad_norm": 4.510439395904541,
	"learning_rate": 7.214478949899976e-06,
	"loss": 0.3399,
	"num_input_tokens_seen": 24182772,
	"step": 369
	},
	{
	"epoch": 0.4083885209713024,
	"grad_norm": 5.339845657348633,
	"learning_rate": 7.199268824611382e-06,
	"loss": 0.4898,
	"num_input_tokens_seen": 24248308,
	"step": 370
	},
	{
	"epoch": 0.4094922737306843,
	"grad_norm": 3.8770904541015625,
	"learning_rate": 7.18403602342714e-06,
	"loss": 0.2596,
	"num_input_tokens_seen": 24313844,
	"step": 371
	},
	{
	"epoch": 0.4105960264900662,
	"grad_norm": 3.9396862983703613,
	"learning_rate": 7.168780749621394e-06,
	"loss": 0.2945,
	"num_input_tokens_seen": 24379380,
	"step": 372
	},
	{
	"epoch": 0.4116997792494481,
	"grad_norm": 4.604616165161133,
	"learning_rate": 7.1535032067681684e-06,
	"loss": 0.2875,
	"num_input_tokens_seen": 24444916,
	"step": 373
	},
	{
	"epoch": 0.41280353200883,
	"grad_norm": 4.745989799499512,
	"learning_rate": 7.138203598738659e-06,
	"loss": 0.2887,
	"num_input_tokens_seen": 24510448,
	"step": 374
	},
	{
	"epoch": 0.4139072847682119,
	"grad_norm": 5.695927619934082,
	"learning_rate": 7.122882129698514e-06,
	"loss": 0.4992,
	"num_input_tokens_seen": 24575984,
	"step": 375
	},
	{
	"epoch": 0.41501103752759383,
	"grad_norm": 4.267956256866455,
	"learning_rate": 7.107539004105097e-06,
	"loss": 0.322,
	"num_input_tokens_seen": 24641520,
	"step": 376
	},
	{
	"epoch": 0.41611479028697573,
	"grad_norm": 6.005370140075684,
	"learning_rate": 7.092174426704779e-06,
	"loss": 0.5286,
	"num_input_tokens_seen": 24707056,
	"step": 377
	},
	{
	"epoch": 0.41721854304635764,
	"grad_norm": 4.701905727386475,
	"learning_rate": 7.076788602530182e-06,
	"loss": 0.4565,
	"num_input_tokens_seen": 24772592,
	"step": 378
	},
	{
	"epoch": 0.41832229580573954,
	"grad_norm": 5.479290962219238,
	"learning_rate": 7.061381736897468e-06,
	"loss": 0.3361,
	"num_input_tokens_seen": 24838128,
	"step": 379
	},
	{
	"epoch": 0.4194260485651214,
	"grad_norm": 4.56320333480835,
	"learning_rate": 7.0459540354035775e-06,
	"loss": 0.3394,
	"num_input_tokens_seen": 24903664,
	"step": 380
	},
	{
	"epoch": 0.4205298013245033,
	"grad_norm": 5.685725212097168,
	"learning_rate": 7.0305057039235e-06,
	"loss": 0.5699,
	"num_input_tokens_seen": 24969200,
	"step": 381
	},
	{
	"epoch": 0.4216335540838852,
	"grad_norm": 6.919594764709473,
	"learning_rate": 7.015036948607519e-06,
	"loss": 0.8107,
	"num_input_tokens_seen": 25034736,
	"step": 382
	},
	{
	"epoch": 0.4227373068432671,
	"grad_norm": 5.660834312438965,
	"learning_rate": 6.999547975878467e-06,
	"loss": 0.5774,
	"num_input_tokens_seen": 25100272,
	"step": 383
	},
	{
	"epoch": 0.423841059602649,
	"grad_norm": 4.428837776184082,
	"learning_rate": 6.984038992428967e-06,
	"loss": 0.3895,
	"num_input_tokens_seen": 25165808,
	"step": 384
	},
	{
	"epoch": 0.4249448123620309,
	"grad_norm": 6.41189432144165,
	"learning_rate": 6.968510205218671e-06,
	"loss": 0.8248,
	"num_input_tokens_seen": 25231344,
	"step": 385
	},
	{
	"epoch": 0.4260485651214128,
	"grad_norm": 4.905003547668457,
	"learning_rate": 6.952961821471509e-06,
	"loss": 0.4435,
	"num_input_tokens_seen": 25296880,
	"step": 386
	},
	{
	"epoch": 0.4271523178807947,
	"grad_norm": 4.218749046325684,
	"learning_rate": 6.937394048672912e-06,
	"loss": 0.3755,
	"num_input_tokens_seen": 25362416,
	"step": 387
	},
	{
	"epoch": 0.4282560706401766,
	"grad_norm": 5.433783054351807,
	"learning_rate": 6.921807094567051e-06,
	"loss": 0.6033,
	"num_input_tokens_seen": 25427952,
	"step": 388
	},
	{
	"epoch": 0.42935982339955847,
	"grad_norm": 5.018522262573242,
	"learning_rate": 6.906201167154061e-06,
	"loss": 0.4313,
	"num_input_tokens_seen": 25493488,
	"step": 389
	},
	{
	"epoch": 0.4304635761589404,
	"grad_norm": 5.442930698394775,
	"learning_rate": 6.890576474687264e-06,
	"loss": 0.5557,
	"num_input_tokens_seen": 25559024,
	"step": 390
	},
	{
	"epoch": 0.4315673289183223,
	"grad_norm": 6.9419145584106445,
	"learning_rate": 6.8749332256703975e-06,
	"loss": 0.7915,
	"num_input_tokens_seen": 25624560,
	"step": 391
	},
	{
	"epoch": 0.4326710816777042,
	"grad_norm": 5.017683982849121,
	"learning_rate": 6.85927162885482e-06,
	"loss": 0.4263,
	"num_input_tokens_seen": 25690096,
	"step": 392
	},
	{
	"epoch": 0.4337748344370861,
	"grad_norm": 5.351146221160889,
	"learning_rate": 6.843591893236742e-06,
	"loss": 0.5095,
	"num_input_tokens_seen": 25755632,
	"step": 393
	},
	{
	"epoch": 0.434878587196468,
	"grad_norm": 4.434185028076172,
	"learning_rate": 6.827894228054416e-06,
	"loss": 0.4626,
	"num_input_tokens_seen": 25821168,
	"step": 394
	},
	{
	"epoch": 0.4359823399558499,
	"grad_norm": 4.385143280029297,
	"learning_rate": 6.812178842785364e-06,
	"loss": 0.3621,
	"num_input_tokens_seen": 25886704,
	"step": 395
	},
	{
	"epoch": 0.4370860927152318,
	"grad_norm": 4.1273112297058105,
	"learning_rate": 6.796445947143571e-06,
	"loss": 0.3593,
	"num_input_tokens_seen": 25952240,
	"step": 396
	},
	{
	"epoch": 0.4381898454746137,
	"grad_norm": 6.839285373687744,
	"learning_rate": 6.780695751076685e-06,
	"loss": 0.9328,
	"num_input_tokens_seen": 26017776,
	"step": 397
	},
	{
	"epoch": 0.4392935982339956,
	"grad_norm": 3.5457375049591064,
	"learning_rate": 6.7649284647632285e-06,
	"loss": 0.283,
	"num_input_tokens_seen": 26083312,
	"step": 398
	},
	{
	"epoch": 0.44039735099337746,
	"grad_norm": 3.7174270153045654,
	"learning_rate": 6.749144298609776e-06,
	"loss": 0.2656,
	"num_input_tokens_seen": 26148848,
	"step": 399
	},
	{
	"epoch": 0.44150110375275936,
	"grad_norm": 5.119399547576904,
	"learning_rate": 6.733343463248163e-06,
	"loss": 0.4559,
	"num_input_tokens_seen": 26214384,
	"step": 400
	},
	{
	"epoch": 0.44260485651214126,
	"grad_norm": 4.70241641998291,
	"learning_rate": 6.717526169532658e-06,
	"loss": 0.4606,
	"num_input_tokens_seen": 26279920,
	"step": 401
	},
	{
	"epoch": 0.44370860927152317,
	"grad_norm": 4.453240871429443,
	"learning_rate": 6.701692628537169e-06,
	"loss": 0.3758,
	"num_input_tokens_seen": 26345456,
	"step": 402
	},
	{
	"epoch": 0.4448123620309051,
	"grad_norm": 4.099554061889648,
	"learning_rate": 6.685843051552405e-06,
	"loss": 0.2946,
	"num_input_tokens_seen": 26410992,
	"step": 403
	},
	{
	"epoch": 0.445916114790287,
	"grad_norm": 5.848024368286133,
	"learning_rate": 6.669977650083075e-06,
	"loss": 0.574,
	"num_input_tokens_seen": 26476528,
	"step": 404
	},
	{
	"epoch": 0.4470198675496689,
	"grad_norm": 5.945405960083008,
	"learning_rate": 6.654096635845054e-06,
	"loss": 0.6731,
	"num_input_tokens_seen": 26542064,
	"step": 405
	},
	{
	"epoch": 0.4481236203090508,
	"grad_norm": 4.190430164337158,
	"learning_rate": 6.638200220762563e-06,
	"loss": 0.2969,
	"num_input_tokens_seen": 26607600,
	"step": 406
	},
	{
	"epoch": 0.4492273730684327,
	"grad_norm": 4.02309513092041,
	"learning_rate": 6.622288616965343e-06,
	"loss": 0.3044,
	"num_input_tokens_seen": 26673136,
	"step": 407
	},
	{
	"epoch": 0.4503311258278146,
	"grad_norm": 5.067698955535889,
	"learning_rate": 6.60636203678581e-06,
	"loss": 0.4959,
	"num_input_tokens_seen": 26738672,
	"step": 408
	},
	{
	"epoch": 0.45143487858719644,
	"grad_norm": 4.1457695960998535,
	"learning_rate": 6.590420692756247e-06,
	"loss": 0.3315,
	"num_input_tokens_seen": 26804208,
	"step": 409
	},
	{
	"epoch": 0.45253863134657835,
	"grad_norm": 6.310359001159668,
	"learning_rate": 6.574464797605938e-06,
	"loss": 0.6599,
	"num_input_tokens_seen": 26869744,
	"step": 410
	},
	{
	"epoch": 0.45364238410596025,
	"grad_norm": 5.186681270599365,
	"learning_rate": 6.558494564258362e-06,
	"loss": 0.4739,
	"num_input_tokens_seen": 26935280,
	"step": 411
	},
	{
	"epoch": 0.45474613686534215,
	"grad_norm": 4.929074764251709,
	"learning_rate": 6.542510205828316e-06,
	"loss": 0.4659,
	"num_input_tokens_seen": 27000816,
	"step": 412
	},
	{
	"epoch": 0.45584988962472406,
	"grad_norm": 4.5425944328308105,
	"learning_rate": 6.5265119356191005e-06,
	"loss": 0.3948,
	"num_input_tokens_seen": 27066352,
	"step": 413
	},
	{
	"epoch": 0.45695364238410596,
	"grad_norm": 5.008086681365967,
	"learning_rate": 6.51049996711966e-06,
	"loss": 0.4228,
	"num_input_tokens_seen": 27131888,
	"step": 414
	},
	{
	"epoch": 0.45805739514348787,
	"grad_norm": 5.23047399520874,
	"learning_rate": 6.494474514001734e-06,
	"loss": 0.3959,
	"num_input_tokens_seen": 27197424,
	"step": 415
	},
	{
	"epoch": 0.45916114790286977,
	"grad_norm": 5.282271385192871,
	"learning_rate": 6.478435790117007e-06,
	"loss": 0.5117,
	"num_input_tokens_seen": 27262960,
	"step": 416
	},
	{
	"epoch": 0.4602649006622517,
	"grad_norm": 4.828380584716797,
	"learning_rate": 6.462384009494257e-06,
	"loss": 0.2912,
	"num_input_tokens_seen": 27328496,
	"step": 417
	},
	{
	"epoch": 0.4613686534216336,
	"grad_norm": 4.036655902862549,
	"learning_rate": 6.446319386336499e-06,
	"loss": 0.3067,
	"num_input_tokens_seen": 27394032,
	"step": 418
	},
	{
	"epoch": 0.4624724061810154,
	"grad_norm": 4.4774274826049805,
	"learning_rate": 6.430242135018121e-06,
	"loss": 0.3897,
	"num_input_tokens_seen": 27459568,
	"step": 419
	},
	{
	"epoch": 0.46357615894039733,
	"grad_norm": 5.575551509857178,
	"learning_rate": 6.414152470082031e-06,
	"loss": 0.5586,
	"num_input_tokens_seen": 27525104,
	"step": 420
	},
	{
	"epoch": 0.46467991169977924,
	"grad_norm": 4.964656829833984,
	"learning_rate": 6.3980506062367884e-06,
	"loss": 0.3839,
	"num_input_tokens_seen": 27590640,
	"step": 421
	},
	{
	"epoch": 0.46578366445916114,
	"grad_norm": 6.3939948081970215,
	"learning_rate": 6.3819367583537425e-06,
	"loss": 0.274,
	"num_input_tokens_seen": 27656176,
	"step": 422
	},
	{
	"epoch": 0.46688741721854304,
	"grad_norm": 6.026232719421387,
	"learning_rate": 6.365811141464162e-06,
	"loss": 0.5634,
	"num_input_tokens_seen": 27721712,
	"step": 423
	},
	{
	"epoch": 0.46799116997792495,
	"grad_norm": 5.401932716369629,
	"learning_rate": 6.349673970756371e-06,
	"loss": 0.4866,
	"num_input_tokens_seen": 27787248,
	"step": 424
	},
	{
	"epoch": 0.46909492273730685,
	"grad_norm": 5.220919609069824,
	"learning_rate": 6.33352546157287e-06,
	"loss": 0.4014,
	"num_input_tokens_seen": 27852784,
	"step": 425
	},
	{
	"epoch": 0.47019867549668876,
	"grad_norm": 5.735633373260498,
	"learning_rate": 6.317365829407465e-06,
	"loss": 0.489,
	"num_input_tokens_seen": 27918320,
	"step": 426
	},
	{
	"epoch": 0.47130242825607066,
	"grad_norm": 4.342199325561523,
	"learning_rate": 6.301195289902395e-06,
	"loss": 0.3543,
	"num_input_tokens_seen": 27983856,
	"step": 427
	},
	{
	"epoch": 0.47240618101545256,
	"grad_norm": 5.337205410003662,
	"learning_rate": 6.2850140588454515e-06,
	"loss": 0.4572,
	"num_input_tokens_seen": 28049392,
	"step": 428
	},
	{
	"epoch": 0.4735099337748344,
	"grad_norm": 4.443479061126709,
	"learning_rate": 6.268822352167097e-06,
	"loss": 0.3907,
	"num_input_tokens_seen": 28114928,
	"step": 429
	},
	{
	"epoch": 0.4746136865342163,
	"grad_norm": 4.553615570068359,
	"learning_rate": 6.252620385937591e-06,
	"loss": 0.4246,
	"num_input_tokens_seen": 28180464,
	"step": 430
	},
	{
	"epoch": 0.4757174392935982,
	"grad_norm": 5.831062316894531,
	"learning_rate": 6.236408376364097e-06,
	"loss": 0.6506,
	"num_input_tokens_seen": 28246000,
	"step": 431
	},
	{
	"epoch": 0.4768211920529801,
	"grad_norm": 5.902902603149414,
	"learning_rate": 6.220186539787806e-06,
	"loss": 0.6119,
	"num_input_tokens_seen": 28311536,
	"step": 432
	},
	{
	"epoch": 0.47792494481236203,
	"grad_norm": 4.526601314544678,
	"learning_rate": 6.20395509268104e-06,
	"loss": 0.3519,
	"num_input_tokens_seen": 28377072,
	"step": 433
	},
	{
	"epoch": 0.47902869757174393,
	"grad_norm": 5.268987655639648,
	"learning_rate": 6.187714251644375e-06,
	"loss": 0.5892,
	"num_input_tokens_seen": 28442608,
	"step": 434
	},
	{
	"epoch": 0.48013245033112584,
	"grad_norm": 5.396267414093018,
	"learning_rate": 6.171464233403734e-06,
	"loss": 0.4768,
	"num_input_tokens_seen": 28508144,
	"step": 435
	},
	{
	"epoch": 0.48123620309050774,
	"grad_norm": 6.279263019561768,
	"learning_rate": 6.155205254807524e-06,
	"loss": 0.7685,
	"num_input_tokens_seen": 28573680,
	"step": 436
	},
	{
	"epoch": 0.48233995584988965,
	"grad_norm": 4.332390785217285,
	"learning_rate": 6.138937532823701e-06,
	"loss": 0.3726,
	"num_input_tokens_seen": 28639216,
	"step": 437
	},
	{
	"epoch": 0.48344370860927155,
	"grad_norm": 5.152309417724609,
	"learning_rate": 6.1226612845369134e-06,
	"loss": 0.4462,
	"num_input_tokens_seen": 28704752,
	"step": 438
	},
	{
	"epoch": 0.4845474613686534,
	"grad_norm": 5.474704742431641,
	"learning_rate": 6.1063767271455834e-06,
	"loss": 0.6085,
	"num_input_tokens_seen": 28770288,
	"step": 439
	},
	{
	"epoch": 0.4856512141280353,
	"grad_norm": 5.3773345947265625,
	"learning_rate": 6.090084077959013e-06,
	"loss": 0.5532,
	"num_input_tokens_seen": 28835824,
	"step": 440
	},
	{
	"epoch": 0.4867549668874172,
	"grad_norm": 3.462773323059082,
	"learning_rate": 6.073783554394486e-06,
	"loss": 0.2709,
	"num_input_tokens_seen": 28901360,
	"step": 441
	},
	{
	"epoch": 0.4878587196467991,
	"grad_norm": 5.682385444641113,
	"learning_rate": 6.057475373974366e-06,
	"loss": 0.6188,
	"num_input_tokens_seen": 28966896,
	"step": 442
	},
	{
	"epoch": 0.488962472406181,
	"grad_norm": 5.999266624450684,
	"learning_rate": 6.041159754323196e-06,
	"loss": 0.6366,
	"num_input_tokens_seen": 29032432,
	"step": 443
	},
	{
	"epoch": 0.4900662251655629,
	"grad_norm": 6.69478702545166,
	"learning_rate": 6.024836913164787e-06,
	"loss": 0.5834,
	"num_input_tokens_seen": 29097968,
	"step": 444
	},
	{
	"epoch": 0.4911699779249448,
	"grad_norm": 6.7099103927612305,
	"learning_rate": 6.008507068319318e-06,
	"loss": 0.7872,
	"num_input_tokens_seen": 29163504,
	"step": 445
	},
	{
	"epoch": 0.4922737306843267,
	"grad_norm": 4.720966815948486,
	"learning_rate": 5.992170437700436e-06,
	"loss": 0.3586,
	"num_input_tokens_seen": 29229040,
	"step": 446
	},
	{
	"epoch": 0.49337748344370863,
	"grad_norm": 4.880152225494385,
	"learning_rate": 5.9758272393123305e-06,
	"loss": 0.3405,
	"num_input_tokens_seen": 29294576,
	"step": 447
	},
	{
	"epoch": 0.49448123620309054,
	"grad_norm": 5.520662784576416,
	"learning_rate": 5.959477691246842e-06,
	"loss": 0.5912,
	"num_input_tokens_seen": 29360112,
	"step": 448
	},
	{
	"epoch": 0.4955849889624724,
	"grad_norm": 4.44854211807251,
	"learning_rate": 5.943122011680542e-06,
	"loss": 0.4973,
	"num_input_tokens_seen": 29425648,
	"step": 449
	},
	{
	"epoch": 0.4966887417218543,
	"grad_norm": 3.7942519187927246,
	"learning_rate": 5.926760418871823e-06,
	"loss": 0.2792,
	"num_input_tokens_seen": 29491184,
	"step": 450
	},
	{
	"epoch": 0.4977924944812362,
	"grad_norm": 4.290163993835449,
	"learning_rate": 5.910393131157987e-06,
	"loss": 0.3856,
	"num_input_tokens_seen": 29556720,
	"step": 451
	},
	{
	"epoch": 0.4988962472406181,
	"grad_norm": 6.079360485076904,
	"learning_rate": 5.894020366952331e-06,
	"loss": 0.6704,
	"num_input_tokens_seen": 29622256,
	"step": 452
	},
	{
	"epoch": 0.5,
	"grad_norm": 4.259561061859131,
	"learning_rate": 5.8776423447412366e-06,
	"loss": 0.4156,
	"num_input_tokens_seen": 29687792,
	"step": 453
	},
	{
	"epoch": 0.5011037527593819,
	"grad_norm": 5.737578392028809,
	"learning_rate": 5.861259283081246e-06,
	"loss": 0.5608,
	"num_input_tokens_seen": 29753328,
	"step": 454
	},
	{
	"epoch": 0.5022075055187638,
	"grad_norm": 4.720670700073242,
	"learning_rate": 5.844871400596154e-06,
	"loss": 0.4287,
	"num_input_tokens_seen": 29818864,
	"step": 455
	},
	{
	"epoch": 0.5033112582781457,
	"grad_norm": 3.384713649749756,
	"learning_rate": 5.828478915974084e-06,
	"loss": 0.2397,
	"num_input_tokens_seen": 29884400,
	"step": 456
	},
	{
	"epoch": 0.5044150110375276,
	"grad_norm": 5.180420398712158,
	"learning_rate": 5.812082047964578e-06,
	"loss": 0.5351,
	"num_input_tokens_seen": 29949936,
	"step": 457
	},
	{
	"epoch": 0.5055187637969095,
	"grad_norm": 5.582147121429443,
	"learning_rate": 5.795681015375664e-06,
	"loss": 0.5918,
	"num_input_tokens_seen": 30015472,
	"step": 458
	},
	{
	"epoch": 0.5066225165562914,
	"grad_norm": 5.289458274841309,
	"learning_rate": 5.779276037070951e-06,
	"loss": 0.504,
	"num_input_tokens_seen": 30081008,
	"step": 459
	},
	{
	"epoch": 0.5077262693156733,
	"grad_norm": 4.269794464111328,
	"learning_rate": 5.762867331966698e-06,
	"loss": 0.3156,
	"num_input_tokens_seen": 30146544,
	"step": 460
	},
	{
	"epoch": 0.5088300220750552,
	"grad_norm": 4.807360649108887,
	"learning_rate": 5.746455119028896e-06,
	"loss": 0.3911,
	"num_input_tokens_seen": 30212080,
	"step": 461
	},
	{
	"epoch": 0.5099337748344371,
	"grad_norm": 5.4606122970581055,
	"learning_rate": 5.730039617270353e-06,
	"loss": 0.4696,
	"num_input_tokens_seen": 30277616,
	"step": 462
	},
	{
	"epoch": 0.5110375275938189,
	"grad_norm": 4.116583824157715,
	"learning_rate": 5.7136210457477546e-06,
	"loss": 0.2897,
	"num_input_tokens_seen": 30343152,
	"step": 463
	},
	{
	"epoch": 0.5121412803532008,
	"grad_norm": 3.7440638542175293,
	"learning_rate": 5.697199623558758e-06,
	"loss": 0.3166,
	"num_input_tokens_seen": 30408688,
	"step": 464
	},
	{
	"epoch": 0.5132450331125827,
	"grad_norm": 7.0095014572143555,
	"learning_rate": 5.680775569839058e-06,
	"loss": 0.695,
	"num_input_tokens_seen": 30474224,
	"step": 465
	},
	{
	"epoch": 0.5143487858719646,
	"grad_norm": 3.876681089401245,
	"learning_rate": 5.664349103759467e-06,
	"loss": 0.2507,
	"num_input_tokens_seen": 30539760,
	"step": 466
	},
	{
	"epoch": 0.5154525386313465,
	"grad_norm": 4.9294753074646,
	"learning_rate": 5.647920444522986e-06,
	"loss": 0.4078,
	"num_input_tokens_seen": 30605296,
	"step": 467
	},
	{
	"epoch": 0.5165562913907285,
	"grad_norm": 5.85141658782959,
	"learning_rate": 5.631489811361891e-06,
	"loss": 0.6855,
	"num_input_tokens_seen": 30670832,
	"step": 468
	},
	{
	"epoch": 0.5176600441501104,
	"grad_norm": 4.421255588531494,
	"learning_rate": 5.615057423534788e-06,
	"loss": 0.3744,
	"num_input_tokens_seen": 30736368,
	"step": 469
	},
	{
	"epoch": 0.5187637969094923,
	"grad_norm": 4.160279750823975,
	"learning_rate": 5.5986235003237065e-06,
	"loss": 0.3238,
	"num_input_tokens_seen": 30801904,
	"step": 470
	},
	{
	"epoch": 0.5198675496688742,
	"grad_norm": 5.7004194259643555,
	"learning_rate": 5.5821882610311625e-06,
	"loss": 0.5394,
	"num_input_tokens_seen": 30867440,
	"step": 471
	},
	{
	"epoch": 0.5209713024282561,
	"grad_norm": 6.271990776062012,
	"learning_rate": 5.565751924977232e-06,
	"loss": 0.4037,
	"num_input_tokens_seen": 30932976,
	"step": 472
	},
	{
	"epoch": 0.522075055187638,
	"grad_norm": 4.508204936981201,
	"learning_rate": 5.549314711496631e-06,
	"loss": 0.4116,
	"num_input_tokens_seen": 30998512,
	"step": 473
	},
	{
	"epoch": 0.5231788079470199,
	"grad_norm": 4.369766712188721,
	"learning_rate": 5.532876839935779e-06,
	"loss": 0.2638,
	"num_input_tokens_seen": 31064048,
	"step": 474
	},
	{
	"epoch": 0.5242825607064018,
	"grad_norm": 5.024233341217041,
	"learning_rate": 5.516438529649883e-06,
	"loss": 0.4689,
	"num_input_tokens_seen": 31129584,
	"step": 475
	},
	{
	"epoch": 0.5253863134657837,
	"grad_norm": 4.348725318908691,
	"learning_rate": 5.500000000000001e-06,
	"loss": 0.3456,
	"num_input_tokens_seen": 31195120,
	"step": 476
	},
	{
	"epoch": 0.5264900662251656,
	"grad_norm": 4.22805643081665,
	"learning_rate": 5.483561470350118e-06,
	"loss": 0.2993,
	"num_input_tokens_seen": 31260656,
	"step": 477
	},
	{
	"epoch": 0.5275938189845475,
	"grad_norm": 5.037574291229248,
	"learning_rate": 5.467123160064222e-06,
	"loss": 0.4853,
	"num_input_tokens_seen": 31326192,
	"step": 478
	},
	{
	"epoch": 0.5286975717439294,
	"grad_norm": 4.518187522888184,
	"learning_rate": 5.4506852885033715e-06,
	"loss": 0.1977,
	"num_input_tokens_seen": 31391728,
	"step": 479
	},
	{
	"epoch": 0.5298013245033113,
	"grad_norm": 5.805148601531982,
	"learning_rate": 5.434248075022769e-06,
	"loss": 0.6275,
	"num_input_tokens_seen": 31457264,
	"step": 480
	},
	{
	"epoch": 0.5309050772626932,
	"grad_norm": 4.804733753204346,
	"learning_rate": 5.417811738968839e-06,
	"loss": 0.3938,
	"num_input_tokens_seen": 31522800,
	"step": 481
	},
	{
	"epoch": 0.5320088300220751,
	"grad_norm": 4.533995151519775,
	"learning_rate": 5.401376499676294e-06,
	"loss": 0.3928,
	"num_input_tokens_seen": 31588336,
	"step": 482
	},
	{
	"epoch": 0.5331125827814569,
	"grad_norm": 4.422305583953857,
	"learning_rate": 5.384942576465215e-06,
	"loss": 0.3949,
	"num_input_tokens_seen": 31653872,
	"step": 483
	},
	{
	"epoch": 0.5342163355408388,
	"grad_norm": 5.579964637756348,
	"learning_rate": 5.368510188638113e-06,
	"loss": 0.4996,
	"num_input_tokens_seen": 31719408,
	"step": 484
	},
	{
	"epoch": 0.5353200883002207,
	"grad_norm": 4.969320774078369,
	"learning_rate": 5.3520795554770155e-06,
	"loss": 0.3976,
	"num_input_tokens_seen": 31784944,
	"step": 485
	},
	{
	"epoch": 0.5364238410596026,
	"grad_norm": 4.212143421173096,
	"learning_rate": 5.3356508962405355e-06,
	"loss": 0.309,
	"num_input_tokens_seen": 31850480,
	"step": 486
	},
	{
	"epoch": 0.5375275938189845,
	"grad_norm": 3.8276007175445557,
	"learning_rate": 5.319224430160943e-06,
	"loss": 0.2525,
	"num_input_tokens_seen": 31916016,
	"step": 487
	},
	{
	"epoch": 0.5386313465783664,
	"grad_norm": 5.205665111541748,
	"learning_rate": 5.302800376441244e-06,
	"loss": 0.4736,
	"num_input_tokens_seen": 31981552,
	"step": 488
	},
	{
	"epoch": 0.5397350993377483,
	"grad_norm": 4.5672807693481445,
	"learning_rate": 5.286378954252247e-06,
	"loss": 0.3377,
	"num_input_tokens_seen": 32047088,
	"step": 489
	},
	{
	"epoch": 0.5408388520971302,
	"grad_norm": 5.600037097930908,
	"learning_rate": 5.269960382729649e-06,
	"loss": 0.5481,
	"num_input_tokens_seen": 32112624,
	"step": 490
	},
	{
	"epoch": 0.5419426048565121,
	"grad_norm": 5.772684097290039,
	"learning_rate": 5.2535448809711046e-06,
	"loss": 0.4308,
	"num_input_tokens_seen": 32178160,
	"step": 491
	},
	{
	"epoch": 0.543046357615894,
	"grad_norm": 5.687682628631592,
	"learning_rate": 5.237132668033303e-06,
	"loss": 0.497,
	"num_input_tokens_seen": 32243696,
	"step": 492
	},
	{
	"epoch": 0.5441501103752759,
	"grad_norm": 4.946759223937988,
	"learning_rate": 5.220723962929052e-06,
	"loss": 0.4745,
	"num_input_tokens_seen": 32309232,
	"step": 493
	},
	{
	"epoch": 0.5452538631346578,
	"grad_norm": 5.427900791168213,
	"learning_rate": 5.204318984624338e-06,
	"loss": 0.505,
	"num_input_tokens_seen": 32374768,
	"step": 494
	},
	{
	"epoch": 0.5463576158940397,
	"grad_norm": 5.026839256286621,
	"learning_rate": 5.187917952035424e-06,
	"loss": 0.4926,
	"num_input_tokens_seen": 32440304,
	"step": 495
	},
	{
	"epoch": 0.5474613686534217,
	"grad_norm": 3.4422245025634766,
	"learning_rate": 5.171521084025917e-06,
	"loss": 0.2596,
	"num_input_tokens_seen": 32505840,
	"step": 496
	},
	{
	"epoch": 0.5485651214128036,
	"grad_norm": 5.574887752532959,
	"learning_rate": 5.155128599403849e-06,
	"loss": 0.4804,
	"num_input_tokens_seen": 32571376,
	"step": 497
	},
	{
	"epoch": 0.5496688741721855,
	"grad_norm": 4.954028129577637,
	"learning_rate": 5.138740716918755e-06,
	"loss": 0.5245,
	"num_input_tokens_seen": 32636912,
	"step": 498
	},
	{
	"epoch": 0.5507726269315674,
	"grad_norm": 6.411076068878174,
	"learning_rate": 5.122357655258765e-06,
	"loss": 0.5285,
	"num_input_tokens_seen": 32702448,
	"step": 499
	},
	{
	"epoch": 0.5518763796909493,
	"grad_norm": 6.448341369628906,
	"learning_rate": 5.105979633047669e-06,
	"loss": 0.6117,
	"num_input_tokens_seen": 32767984,
	"step": 500
	},
	{
	"epoch": 0.5529801324503312,
	"grad_norm": 5.298100471496582,
	"learning_rate": 5.0896068688420146e-06,
	"loss": 0.5242,
	"num_input_tokens_seen": 32833520,
	"step": 501
	},
	{
	"epoch": 0.5540838852097131,
	"grad_norm": 5.838515281677246,
	"learning_rate": 5.07323958112818e-06,
	"loss": 0.6421,
	"num_input_tokens_seen": 32899056,
	"step": 502
	},
	{
	"epoch": 0.5551876379690949,
	"grad_norm": 4.797820091247559,
	"learning_rate": 5.056877988319459e-06,
	"loss": 0.4227,
	"num_input_tokens_seen": 32964592,
	"step": 503
	},
	{
	"epoch": 0.5562913907284768,
	"grad_norm": 4.745166301727295,
	"learning_rate": 5.04052230875316e-06,
	"loss": 0.4165,
	"num_input_tokens_seen": 33030128,
	"step": 504
	},
	{
	"epoch": 0.5573951434878587,
	"grad_norm": 3.404788017272949,
	"learning_rate": 5.024172760687671e-06,
	"loss": 0.256,
	"num_input_tokens_seen": 33095664,
	"step": 505
	},
	{
	"epoch": 0.5584988962472406,
	"grad_norm": 5.247468948364258,
	"learning_rate": 5.007829562299567e-06,
	"loss": 0.5258,
	"num_input_tokens_seen": 33161200,
	"step": 506
	},
	{
	"epoch": 0.5596026490066225,
	"grad_norm": 4.767642021179199,
	"learning_rate": 4.991492931680684e-06,
	"loss": 0.4969,
	"num_input_tokens_seen": 33226736,
	"step": 507
	},
	{
	"epoch": 0.5607064017660044,
	"grad_norm": 5.1648101806640625,
	"learning_rate": 4.975163086835216e-06,
	"loss": 0.554,
	"num_input_tokens_seen": 33292272,
	"step": 508
	},
	{
	"epoch": 0.5618101545253863,
	"grad_norm": 5.1125264167785645,
	"learning_rate": 4.958840245676806e-06,
	"loss": 0.4574,
	"num_input_tokens_seen": 33357808,
	"step": 509
	},
	{
	"epoch": 0.5629139072847682,
	"grad_norm": 5.249313831329346,
	"learning_rate": 4.9425246260256345e-06,
	"loss": 0.5128,
	"num_input_tokens_seen": 33423344,
	"step": 510
	},
	{
	"epoch": 0.5640176600441501,
	"grad_norm": 3.5619633197784424,
	"learning_rate": 4.9262164456055165e-06,
	"loss": 0.2696,
	"num_input_tokens_seen": 33488880,
	"step": 511
	},
	{
	"epoch": 0.565121412803532,
	"grad_norm": 4.751221656799316,
	"learning_rate": 4.909915922040989e-06,
	"loss": 0.4366,
	"num_input_tokens_seen": 33554416,
	"step": 512
	},
	{
	"epoch": 0.5662251655629139,
	"grad_norm": 4.820193767547607,
	"learning_rate": 4.893623272854417e-06,
	"loss": 0.3903,
	"num_input_tokens_seen": 33619952,
	"step": 513
	},
	{
	"epoch": 0.5673289183222958,
	"grad_norm": 6.389187335968018,
	"learning_rate": 4.877338715463087e-06,
	"loss": 0.6647,
	"num_input_tokens_seen": 33685488,
	"step": 514
	},
	{
	"epoch": 0.5684326710816777,
	"grad_norm": 5.3614301681518555,
	"learning_rate": 4.861062467176302e-06,
	"loss": 0.4495,
	"num_input_tokens_seen": 33751024,
	"step": 515
	},
	{
	"epoch": 0.5695364238410596,
	"grad_norm": 5.853780746459961,
	"learning_rate": 4.844794745192479e-06,
	"loss": 0.5787,
	"num_input_tokens_seen": 33816560,
	"step": 516
	},
	{
	"epoch": 0.5706401766004415,
	"grad_norm": 4.756037712097168,
	"learning_rate": 4.828535766596266e-06,
	"loss": 0.409,
	"num_input_tokens_seen": 33882096,
	"step": 517
	},
	{
	"epoch": 0.5717439293598234,
	"grad_norm": 4.552085876464844,
	"learning_rate": 4.8122857483556285e-06,
	"loss": 0.4346,
	"num_input_tokens_seen": 33947632,
	"step": 518
	},
	{
	"epoch": 0.5728476821192053,
	"grad_norm": 5.546624660491943,
	"learning_rate": 4.796044907318961e-06,
	"loss": 0.4542,
	"num_input_tokens_seen": 34013168,
	"step": 519
	},
	{
	"epoch": 0.5739514348785872,
	"grad_norm": 3.965635061264038,
	"learning_rate": 4.779813460212197e-06,
	"loss": 0.3123,
	"num_input_tokens_seen": 34078704,
	"step": 520
	},
	{
	"epoch": 0.5750551876379691,
	"grad_norm": 3.4151055812835693,
	"learning_rate": 4.763591623635905e-06,
	"loss": 0.1869,
	"num_input_tokens_seen": 34144240,
	"step": 521
	},
	{
	"epoch": 0.5761589403973509,
	"grad_norm": 3.900256395339966,
	"learning_rate": 4.747379614062411e-06,
	"loss": 0.2873,
	"num_input_tokens_seen": 34209776,
	"step": 522
	},
	{
	"epoch": 0.5772626931567328,
	"grad_norm": 4.467334270477295,
	"learning_rate": 4.731177647832905e-06,
	"loss": 0.3625,
	"num_input_tokens_seen": 34275312,
	"step": 523
	},
	{
	"epoch": 0.5783664459161147,
	"grad_norm": 4.834880828857422,
	"learning_rate": 4.714985941154551e-06,
	"loss": 0.4265,
	"num_input_tokens_seen": 34340848,
	"step": 524
	},
	{
	"epoch": 0.5794701986754967,
	"grad_norm": 5.462576866149902,
	"learning_rate": 4.698804710097607e-06,
	"loss": 0.5406,
	"num_input_tokens_seen": 34406384,
	"step": 525
	},
	{
	"epoch": 0.5805739514348786,
	"grad_norm": 5.588657379150391,
	"learning_rate": 4.682634170592537e-06,
	"loss": 0.553,
	"num_input_tokens_seen": 34471920,
	"step": 526
	},
	{
	"epoch": 0.5816777041942605,
	"grad_norm": 4.872191429138184,
	"learning_rate": 4.6664745384271315e-06,
	"loss": 0.5007,
	"num_input_tokens_seen": 34537456,
	"step": 527
	},
	{
	"epoch": 0.5827814569536424,
	"grad_norm": 5.454434394836426,
	"learning_rate": 4.650326029243629e-06,
	"loss": 0.6074,
	"num_input_tokens_seen": 34602992,
	"step": 528
	},
	{
	"epoch": 0.5838852097130243,
	"grad_norm": 3.7384860515594482,
	"learning_rate": 4.634188858535839e-06,
	"loss": 0.2471,
	"num_input_tokens_seen": 34668528,
	"step": 529
	},
	{
	"epoch": 0.5849889624724062,
	"grad_norm": 5.02782678604126,
	"learning_rate": 4.61806324164626e-06,
	"loss": 0.446,
	"num_input_tokens_seen": 34734064,
	"step": 530
	},
	{
	"epoch": 0.5860927152317881,
	"grad_norm": 4.343999862670898,
	"learning_rate": 4.601949393763215e-06,
	"loss": 0.4206,
	"num_input_tokens_seen": 34799600,
	"step": 531
	},
	{
	"epoch": 0.58719646799117,
	"grad_norm": 6.126996040344238,
	"learning_rate": 4.58584752991797e-06,
	"loss": 0.6584,
	"num_input_tokens_seen": 34865136,
	"step": 532
	},
	{
	"epoch": 0.5883002207505519,
	"grad_norm": 4.696587085723877,
	"learning_rate": 4.56975786498188e-06,
	"loss": 0.5208,
	"num_input_tokens_seen": 34930672,
	"step": 533
	},
	{
	"epoch": 0.5894039735099338,
	"grad_norm": 4.739029884338379,
	"learning_rate": 4.553680613663504e-06,
	"loss": 0.4503,
	"num_input_tokens_seen": 34996208,
	"step": 534
	},
	{
	"epoch": 0.5905077262693157,
	"grad_norm": 4.531418323516846,
	"learning_rate": 4.537615990505744e-06,
	"loss": 0.4225,
	"num_input_tokens_seen": 35061744,
	"step": 535
	},
	{
	"epoch": 0.5916114790286976,
	"grad_norm": 4.888784885406494,
	"learning_rate": 4.521564209882995e-06,
	"loss": 0.4602,
	"num_input_tokens_seen": 35127280,
	"step": 536
	},
	{
	"epoch": 0.5927152317880795,
	"grad_norm": 5.615579605102539,
	"learning_rate": 4.505525485998267e-06,
	"loss": 0.5887,
	"num_input_tokens_seen": 35192816,
	"step": 537
	},
	{
	"epoch": 0.5938189845474614,
	"grad_norm": 4.535574913024902,
	"learning_rate": 4.489500032880342e-06,
	"loss": 0.4209,
	"num_input_tokens_seen": 35258352,
	"step": 538
	},
	{
	"epoch": 0.5949227373068433,
	"grad_norm": 5.854379177093506,
	"learning_rate": 4.473488064380901e-06,
	"loss": 0.672,
	"num_input_tokens_seen": 35323888,
	"step": 539
	},
	{
	"epoch": 0.5960264900662252,
	"grad_norm": 4.801560878753662,
	"learning_rate": 4.457489794171685e-06,
	"loss": 0.4111,
	"num_input_tokens_seen": 35389424,
	"step": 540
	},
	{
	"epoch": 0.5971302428256071,
	"grad_norm": 4.031239032745361,
	"learning_rate": 4.44150543574164e-06,
	"loss": 0.2854,
	"num_input_tokens_seen": 35454960,
	"step": 541
	},
	{
	"epoch": 0.5982339955849889,
	"grad_norm": 4.758004665374756,
	"learning_rate": 4.4255352023940616e-06,
	"loss": 0.403,
	"num_input_tokens_seen": 35520496,
	"step": 542
	},
	{
	"epoch": 0.5993377483443708,
	"grad_norm": 6.281385898590088,
	"learning_rate": 4.4095793072437554e-06,
	"loss": 0.5664,
	"num_input_tokens_seen": 35586032,
	"step": 543
	},
	{
	"epoch": 0.6004415011037527,
	"grad_norm": 4.875401973724365,
	"learning_rate": 4.393637963214191e-06,
	"loss": 0.4567,
	"num_input_tokens_seen": 35651568,
	"step": 544
	},
	{
	"epoch": 0.6015452538631346,
	"grad_norm": 6.389124870300293,
	"learning_rate": 4.37771138303466e-06,
	"loss": 0.8247,
	"num_input_tokens_seen": 35717104,
	"step": 545
	},
	{
	"epoch": 0.6026490066225165,
	"grad_norm": 4.922704696655273,
	"learning_rate": 4.3617997792374365e-06,
	"loss": 0.5074,
	"num_input_tokens_seen": 35782640,
	"step": 546
	},
	{
	"epoch": 0.6037527593818984,
	"grad_norm": 5.83562707901001,
	"learning_rate": 4.345903364154949e-06,
	"loss": 0.5406,
	"num_input_tokens_seen": 35848176,
	"step": 547
	},
	{
	"epoch": 0.6048565121412803,
	"grad_norm": 5.12996244430542,
	"learning_rate": 4.330022349916928e-06,
	"loss": 0.5394,
	"num_input_tokens_seen": 35913712,
	"step": 548
	},
	{
	"epoch": 0.6059602649006622,
	"grad_norm": 5.372644424438477,
	"learning_rate": 4.314156948447596e-06,
	"loss": 0.6657,
	"num_input_tokens_seen": 35979248,
	"step": 549
	},
	{
	"epoch": 0.6070640176600441,
	"grad_norm": 5.526101112365723,
	"learning_rate": 4.298307371462833e-06,
	"loss": 0.5652,
	"num_input_tokens_seen": 36044784,
	"step": 550
	},
	{
	"epoch": 0.608167770419426,
	"grad_norm": 2.293391227722168,
	"learning_rate": 4.282473830467342e-06,
	"loss": 0.1381,
	"num_input_tokens_seen": 36110320,
	"step": 551
	},
	{
	"epoch": 0.609271523178808,
	"grad_norm": 3.795881509780884,
	"learning_rate": 4.26665653675184e-06,
	"loss": 0.2672,
	"num_input_tokens_seen": 36175856,
	"step": 552
	},
	{
	"epoch": 0.6103752759381899,
	"grad_norm": 3.400076389312744,
	"learning_rate": 4.250855701390225e-06,
	"loss": 0.2625,
	"num_input_tokens_seen": 36241392,
	"step": 553
	},
	{
	"epoch": 0.6114790286975718,
	"grad_norm": 5.294395446777344,
	"learning_rate": 4.235071535236773e-06,
	"loss": 0.5561,
	"num_input_tokens_seen": 36306928,
	"step": 554
	},
	{
	"epoch": 0.6125827814569537,
	"grad_norm": 3.94831919670105,
	"learning_rate": 4.219304248923316e-06,
	"loss": 0.287,
	"num_input_tokens_seen": 36372464,
	"step": 555
	},
	{
	"epoch": 0.6136865342163356,
	"grad_norm": 4.536540985107422,
	"learning_rate": 4.203554052856431e-06,
	"loss": 0.3303,
	"num_input_tokens_seen": 36438000,
	"step": 556
	},
	{
	"epoch": 0.6147902869757175,
	"grad_norm": 3.447150230407715,
	"learning_rate": 4.187821157214638e-06,
	"loss": 0.2098,
	"num_input_tokens_seen": 36503536,
	"step": 557
	},
	{
	"epoch": 0.6158940397350994,
	"grad_norm": 4.320523738861084,
	"learning_rate": 4.1721057719455845e-06,
	"loss": 0.2808,
	"num_input_tokens_seen": 36569072,
	"step": 558
	},
	{
	"epoch": 0.6169977924944813,
	"grad_norm": 6.25832986831665,
	"learning_rate": 4.156408106763259e-06,
	"loss": 0.6881,
	"num_input_tokens_seen": 36634608,
	"step": 559
	},
	{
	"epoch": 0.6181015452538632,
	"grad_norm": 5.774060249328613,
	"learning_rate": 4.1407283711451795e-06,
	"loss": 0.5689,
	"num_input_tokens_seen": 36700144,
	"step": 560
	},
	{
	"epoch": 0.6192052980132451,
	"grad_norm": 5.2640461921691895,
	"learning_rate": 4.125066774329605e-06,
	"loss": 0.4055,
	"num_input_tokens_seen": 36765680,
	"step": 561
	},
	{
	"epoch": 0.6203090507726269,
	"grad_norm": 4.976436614990234,
	"learning_rate": 4.109423525312738e-06,
	"loss": 0.3318,
	"num_input_tokens_seen": 36831216,
	"step": 562
	},
	{
	"epoch": 0.6214128035320088,
	"grad_norm": 5.786040306091309,
	"learning_rate": 4.093798832845941e-06,
	"loss": 0.3969,
	"num_input_tokens_seen": 36896752,
	"step": 563
	},
	{
	"epoch": 0.6225165562913907,
	"grad_norm": 5.763451099395752,
	"learning_rate": 4.078192905432949e-06,
	"loss": 0.4451,
	"num_input_tokens_seen": 36962288,
	"step": 564
	},
	{
	"epoch": 0.6236203090507726,
	"grad_norm": 4.722074031829834,
	"learning_rate": 4.0626059513270885e-06,
	"loss": 0.3197,
	"num_input_tokens_seen": 37027824,
	"step": 565
	},
	{
	"epoch": 0.6247240618101545,
	"grad_norm": 4.204012870788574,
	"learning_rate": 4.047038178528494e-06,
	"loss": 0.2824,
	"num_input_tokens_seen": 37093360,
	"step": 566
	},
	{
	"epoch": 0.6258278145695364,
	"grad_norm": 4.942794322967529,
	"learning_rate": 4.0314897947813315e-06,
	"loss": 0.4326,
	"num_input_tokens_seen": 37158896,
	"step": 567
	},
	{
	"epoch": 0.6269315673289183,
	"grad_norm": 4.9892730712890625,
	"learning_rate": 4.015961007571036e-06,
	"loss": 0.3502,
	"num_input_tokens_seen": 37224432,
	"step": 568
	},
	{
	"epoch": 0.6280353200883002,
	"grad_norm": 4.182072639465332,
	"learning_rate": 4.000452024121534e-06,
	"loss": 0.3456,
	"num_input_tokens_seen": 37289968,
	"step": 569
	},
	{
	"epoch": 0.6291390728476821,
	"grad_norm": 3.5467734336853027,
	"learning_rate": 3.9849630513924844e-06,
	"loss": 0.2242,
	"num_input_tokens_seen": 37355504,
	"step": 570
	},
	{
	"epoch": 0.630242825607064,
	"grad_norm": 4.3329033851623535,
	"learning_rate": 3.9694942960765035e-06,
	"loss": 0.397,
	"num_input_tokens_seen": 37421040,
	"step": 571
	},
	{
	"epoch": 0.6313465783664459,
	"grad_norm": 4.063337326049805,
	"learning_rate": 3.954045964596425e-06,
	"loss": 0.2883,
	"num_input_tokens_seen": 37486576,
	"step": 572
	},
	{
	"epoch": 0.6324503311258278,
	"grad_norm": 5.374694347381592,
	"learning_rate": 3.938618263102534e-06,
	"loss": 0.5777,
	"num_input_tokens_seen": 37552112,
	"step": 573
	},
	{
	"epoch": 0.6335540838852097,
	"grad_norm": 5.350125789642334,
	"learning_rate": 3.923211397469818e-06,
	"loss": 0.5059,
	"num_input_tokens_seen": 37617648,
	"step": 574
	},
	{
	"epoch": 0.6346578366445916,
	"grad_norm": 4.029745101928711,
	"learning_rate": 3.9078255732952244e-06,
	"loss": 0.3395,
	"num_input_tokens_seen": 37683184,
	"step": 575
	},
	{
	"epoch": 0.6357615894039735,
	"grad_norm": 4.23199987411499,
	"learning_rate": 3.8924609958949035e-06,
	"loss": 0.3145,
	"num_input_tokens_seen": 37748720,
	"step": 576
	},
	{
	"epoch": 0.6368653421633554,
	"grad_norm": 3.817701578140259,
	"learning_rate": 3.877117870301488e-06,
	"loss": 0.2616,
	"num_input_tokens_seen": 37814256,
	"step": 577
	},
	{
	"epoch": 0.6379690949227373,
	"grad_norm": 5.496271133422852,
	"learning_rate": 3.861796401261341e-06,
	"loss": 0.4336,
	"num_input_tokens_seen": 37879792,
	"step": 578
	},
	{
	"epoch": 0.6390728476821192,
	"grad_norm": 5.724914073944092,
	"learning_rate": 3.846496793231834e-06,
	"loss": 0.5434,
	"num_input_tokens_seen": 37945328,
	"step": 579
	},
	{
	"epoch": 0.6401766004415012,
	"grad_norm": 5.538677215576172,
	"learning_rate": 3.8312192503786085e-06,
	"loss": 0.4194,
	"num_input_tokens_seen": 38010864,
	"step": 580
	},
	{
	"epoch": 0.6412803532008831,
	"grad_norm": 4.735373020172119,
	"learning_rate": 3.81596397657286e-06,
	"loss": 0.3671,
	"num_input_tokens_seen": 38076400,
	"step": 581
	},
	{
	"epoch": 0.6423841059602649,
	"grad_norm": 4.600485324859619,
	"learning_rate": 3.80073117538862e-06,
	"loss": 0.2745,
	"num_input_tokens_seen": 38141936,
	"step": 582
	},
	{
	"epoch": 0.6434878587196468,
	"grad_norm": 5.746383190155029,
	"learning_rate": 3.785521050100025e-06,
	"loss": 0.5071,
	"num_input_tokens_seen": 38207472,
	"step": 583
	},
	{
	"epoch": 0.6445916114790287,
	"grad_norm": 5.705986976623535,
	"learning_rate": 3.7703338036786195e-06,
	"loss": 0.4335,
	"num_input_tokens_seen": 38273008,
	"step": 584
	},
	{
	"epoch": 0.6456953642384106,
	"grad_norm": 6.0024614334106445,
	"learning_rate": 3.7551696387906365e-06,
	"loss": 0.4688,
	"num_input_tokens_seen": 38338544,
	"step": 585
	},
	{
	"epoch": 0.6467991169977925,
	"grad_norm": 6.416266918182373,
	"learning_rate": 3.7400287577942994e-06,
	"loss": 0.5509,
	"num_input_tokens_seen": 38404080,
	"step": 586
	},
	{
	"epoch": 0.6479028697571744,
	"grad_norm": 5.125373840332031,
	"learning_rate": 3.7249113627371203e-06,
	"loss": 0.4493,
	"num_input_tokens_seen": 38469616,
	"step": 587
	},
	{
	"epoch": 0.6490066225165563,
	"grad_norm": 5.068411827087402,
	"learning_rate": 3.7098176553532015e-06,
	"loss": 0.4476,
	"num_input_tokens_seen": 38535152,
	"step": 588
	},
	{
	"epoch": 0.6501103752759382,
	"grad_norm": 5.842297554016113,
	"learning_rate": 3.6947478370605516e-06,
	"loss": 0.5361,
	"num_input_tokens_seen": 38600688,
	"step": 589
	},
	{
	"epoch": 0.6512141280353201,
	"grad_norm": 4.763930320739746,
	"learning_rate": 3.6797021089583794e-06,
	"loss": 0.4917,
	"num_input_tokens_seen": 38666224,
	"step": 590
	},
	{
	"epoch": 0.652317880794702,
	"grad_norm": 3.0710020065307617,
	"learning_rate": 3.66468067182443e-06,
	"loss": 0.1964,
	"num_input_tokens_seen": 38731760,
	"step": 591
	},
	{
	"epoch": 0.6534216335540839,
	"grad_norm": 4.4214887619018555,
	"learning_rate": 3.649683726112299e-06,
	"loss": 0.3169,
	"num_input_tokens_seen": 38797296,
	"step": 592
	},
	{
	"epoch": 0.6545253863134658,
	"grad_norm": 5.3136396408081055,
	"learning_rate": 3.6347114719487496e-06,
	"loss": 0.454,
	"num_input_tokens_seen": 38862832,
	"step": 593
	},
	{
	"epoch": 0.6556291390728477,
	"grad_norm": 5.324778079986572,
	"learning_rate": 3.6197641091310553e-06,
	"loss": 0.5138,
	"num_input_tokens_seen": 38928368,
	"step": 594
	},
	{
	"epoch": 0.6567328918322296,
	"grad_norm": 5.356673717498779,
	"learning_rate": 3.6048418371243222e-06,
	"loss": 0.4474,
	"num_input_tokens_seen": 38993904,
	"step": 595
	},
	{
	"epoch": 0.6578366445916115,
	"grad_norm": 5.669276237487793,
	"learning_rate": 3.5899448550588335e-06,
	"loss": 0.6614,
	"num_input_tokens_seen": 39059440,
	"step": 596
	},
	{
	"epoch": 0.6589403973509934,
	"grad_norm": 4.830669403076172,
	"learning_rate": 3.5750733617273914e-06,
	"loss": 0.4255,
	"num_input_tokens_seen": 39124976,
	"step": 597
	},
	{
	"epoch": 0.6600441501103753,
	"grad_norm": 5.008633613586426,
	"learning_rate": 3.560227555582665e-06,
	"loss": 0.2942,
	"num_input_tokens_seen": 39190508,
	"step": 598
	},
	{
	"epoch": 0.6611479028697572,
	"grad_norm": 3.8209006786346436,
	"learning_rate": 3.5454076347345367e-06,
	"loss": 0.2513,
	"num_input_tokens_seen": 39256044,
	"step": 599
	},
	{
	"epoch": 0.6622516556291391,
	"grad_norm": 4.039699554443359,
	"learning_rate": 3.5306137969474663e-06,
	"loss": 0.3439,
	"num_input_tokens_seen": 39321580,
	"step": 600
	},
	{
	"epoch": 0.6633554083885209,
	"grad_norm": 5.03836727142334,
	"learning_rate": 3.515846239637846e-06,
	"loss": 0.3721,
	"num_input_tokens_seen": 39387116,
	"step": 601
	},
	{
	"epoch": 0.6644591611479028,
	"grad_norm": 5.898911476135254,
	"learning_rate": 3.5011051598713707e-06,
	"loss": 0.5748,
	"num_input_tokens_seen": 39452652,
	"step": 602
	},
	{
	"epoch": 0.6655629139072847,
	"grad_norm": 6.085241794586182,
	"learning_rate": 3.4863907543604e-06,
	"loss": 0.6649,
	"num_input_tokens_seen": 39518188,
	"step": 603
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 5.235047340393066,
	"learning_rate": 3.4717032194613455e-06,
	"loss": 0.4869,
	"num_input_tokens_seen": 39583724,
	"step": 604
	},
	{
	"epoch": 0.6677704194260485,
	"grad_norm": 3.5258564949035645,
	"learning_rate": 3.45704275117204e-06,
	"loss": 0.2515,
	"num_input_tokens_seen": 39649260,
	"step": 605
	},
	{
	"epoch": 0.6688741721854304,
	"grad_norm": 4.411483287811279,
	"learning_rate": 3.4424095451291273e-06,
	"loss": 0.3673,
	"num_input_tokens_seen": 39714796,
	"step": 606
	},
	{
	"epoch": 0.6699779249448123,
	"grad_norm": 4.131246566772461,
	"learning_rate": 3.4278037966054505e-06,
	"loss": 0.3262,
	"num_input_tokens_seen": 39780332,
	"step": 607
	},
	{
	"epoch": 0.6710816777041942,
	"grad_norm": 6.033511161804199,
	"learning_rate": 3.4132257005074424e-06,
	"loss": 0.6029,
	"num_input_tokens_seen": 39845868,
	"step": 608
	},
	{
	"epoch": 0.6721854304635762,
	"grad_norm": 4.950568675994873,
	"learning_rate": 3.3986754513725308e-06,
	"loss": 0.356,
	"num_input_tokens_seen": 39911404,
	"step": 609
	},
	{
	"epoch": 0.673289183222958,
	"grad_norm": 5.005128860473633,
	"learning_rate": 3.3841532433665425e-06,
	"loss": 0.431,
	"num_input_tokens_seen": 39976940,
	"step": 610
	},
	{
	"epoch": 0.67439293598234,
	"grad_norm": 6.317650318145752,
	"learning_rate": 3.369659270281106e-06,
	"loss": 0.7201,
	"num_input_tokens_seen": 40042476,
	"step": 611
	},
	{
	"epoch": 0.6754966887417219,
	"grad_norm": 4.954858779907227,
	"learning_rate": 3.3551937255310656e-06,
	"loss": 0.4634,
	"num_input_tokens_seen": 40108012,
	"step": 612
	},
	{
	"epoch": 0.6766004415011038,
	"grad_norm": 5.401790142059326,
	"learning_rate": 3.3407568021519086e-06,
	"loss": 0.4785,
	"num_input_tokens_seen": 40173548,
	"step": 613
	},
	{
	"epoch": 0.6777041942604857,
	"grad_norm": 3.7082345485687256,
	"learning_rate": 3.326348692797185e-06,
	"loss": 0.2134,
	"num_input_tokens_seen": 40239084,
	"step": 614
	},
	{
	"epoch": 0.6788079470198676,
	"grad_norm": 4.993045806884766,
	"learning_rate": 3.3119695897359318e-06,
	"loss": 0.4226,
	"num_input_tokens_seen": 40304620,
	"step": 615
	},
	{
	"epoch": 0.6799116997792495,
	"grad_norm": 7.229109764099121,
	"learning_rate": 3.2976196848501164e-06,
	"loss": 0.5581,
	"num_input_tokens_seen": 40370156,
	"step": 616
	},
	{
	"epoch": 0.6810154525386314,
	"grad_norm": 5.062275409698486,
	"learning_rate": 3.2832991696320647e-06,
	"loss": 0.3896,
	"num_input_tokens_seen": 40435692,
	"step": 617
	},
	{
	"epoch": 0.6821192052980133,
	"grad_norm": 4.842869281768799,
	"learning_rate": 3.2690082351819176e-06,
	"loss": 0.3345,
	"num_input_tokens_seen": 40501228,
	"step": 618
	},
	{
	"epoch": 0.6832229580573952,
	"grad_norm": 4.732944011688232,
	"learning_rate": 3.254747072205072e-06,
	"loss": 0.3487,
	"num_input_tokens_seen": 40566764,
	"step": 619
	},
	{
	"epoch": 0.6843267108167771,
	"grad_norm": 5.033801078796387,
	"learning_rate": 3.2405158710096437e-06,
	"loss": 0.3981,
	"num_input_tokens_seen": 40632300,
	"step": 620
	},
	{
	"epoch": 0.6854304635761589,
	"grad_norm": 4.653602600097656,
	"learning_rate": 3.2263148215039188e-06,
	"loss": 0.4127,
	"num_input_tokens_seen": 40697836,
	"step": 621
	},
	{
	"epoch": 0.6865342163355408,
	"grad_norm": 5.868643760681152,
	"learning_rate": 3.2121441131938257e-06,
	"loss": 0.4875,
	"num_input_tokens_seen": 40763372,
	"step": 622
	},
	{
	"epoch": 0.6876379690949227,
	"grad_norm": 4.774325847625732,
	"learning_rate": 3.198003935180406e-06,
	"loss": 0.3392,
	"num_input_tokens_seen": 40828908,
	"step": 623
	},
	{
	"epoch": 0.6887417218543046,
	"grad_norm": 4.566282749176025,
	"learning_rate": 3.183894476157288e-06,
	"loss": 0.2351,
	"num_input_tokens_seen": 40894444,
	"step": 624
	},
	{
	"epoch": 0.6898454746136865,
	"grad_norm": 6.035506725311279,
	"learning_rate": 3.1698159244081728e-06,
	"loss": 0.5228,
	"num_input_tokens_seen": 40959980,
	"step": 625
	},
	{
	"epoch": 0.6909492273730684,
	"grad_norm": 5.202334880828857,
	"learning_rate": 3.1557684678043145e-06,
	"loss": 0.4605,
	"num_input_tokens_seen": 41025516,
	"step": 626
	},
	{
	"epoch": 0.6920529801324503,
	"grad_norm": 5.597423553466797,
	"learning_rate": 3.1417522938020227e-06,
	"loss": 0.4955,
	"num_input_tokens_seen": 41091052,
	"step": 627
	},
	{
	"epoch": 0.6931567328918322,
	"grad_norm": 4.580325603485107,
	"learning_rate": 3.127767589440154e-06,
	"loss": 0.3477,
	"num_input_tokens_seen": 41156588,
	"step": 628
	},
	{
	"epoch": 0.6942604856512141,
	"grad_norm": 5.499457836151123,
	"learning_rate": 3.1138145413376187e-06,
	"loss": 0.4553,
	"num_input_tokens_seen": 41222124,
	"step": 629
	},
	{
	"epoch": 0.695364238410596,
	"grad_norm": 4.949913024902344,
	"learning_rate": 3.0998933356908933e-06,
	"loss": 0.36,
	"num_input_tokens_seen": 41287660,
	"step": 630
	},
	{
	"epoch": 0.6964679911699779,
	"grad_norm": 4.248452663421631,
	"learning_rate": 3.086004158271526e-06,
	"loss": 0.298,
	"num_input_tokens_seen": 41353196,
	"step": 631
	},
	{
	"epoch": 0.6975717439293598,
	"grad_norm": 3.7569615840911865,
	"learning_rate": 3.072147194423668e-06,
	"loss": 0.2398,
	"num_input_tokens_seen": 41418732,
	"step": 632
	},
	{
	"epoch": 0.6986754966887417,
	"grad_norm": 4.620909690856934,
	"learning_rate": 3.058322629061598e-06,
	"loss": 0.3882,
	"num_input_tokens_seen": 41484268,
	"step": 633
	},
	{
	"epoch": 0.6997792494481236,
	"grad_norm": 6.98662805557251,
	"learning_rate": 3.044530646667251e-06,
	"loss": 0.5345,
	"num_input_tokens_seen": 41549804,
	"step": 634
	},
	{
	"epoch": 0.7008830022075055,
	"grad_norm": 5.646053791046143,
	"learning_rate": 3.0307714312877588e-06,
	"loss": 0.4899,
	"num_input_tokens_seen": 41615340,
	"step": 635
	},
	{
	"epoch": 0.7019867549668874,
	"grad_norm": 11.439247131347656,
	"learning_rate": 3.0170451665329936e-06,
	"loss": 0.4995,
	"num_input_tokens_seen": 41680876,
	"step": 636
	},
	{
	"epoch": 0.7030905077262694,
	"grad_norm": 5.286317825317383,
	"learning_rate": 3.0033520355731182e-06,
	"loss": 0.4077,
	"num_input_tokens_seen": 41746412,
	"step": 637
	},
	{
	"epoch": 0.7041942604856513,
	"grad_norm": 6.521766662597656,
	"learning_rate": 2.9896922211361423e-06,
	"loss": 0.5231,
	"num_input_tokens_seen": 41811948,
	"step": 638
	},
	{
	"epoch": 0.7052980132450332,
	"grad_norm": 4.848811149597168,
	"learning_rate": 2.9760659055054826e-06,
	"loss": 0.3481,
	"num_input_tokens_seen": 41877484,
	"step": 639
	},
	{
	"epoch": 0.7064017660044151,
	"grad_norm": 4.405468940734863,
	"learning_rate": 2.962473270517528e-06,
	"loss": 0.3645,
	"num_input_tokens_seen": 41943020,
	"step": 640
	},
	{
	"epoch": 0.7075055187637969,
	"grad_norm": 3.9719290733337402,
	"learning_rate": 2.94891449755922e-06,
	"loss": 0.2403,
	"num_input_tokens_seen": 42008556,
	"step": 641
	},
	{
	"epoch": 0.7086092715231788,
	"grad_norm": 5.281460762023926,
	"learning_rate": 2.9353897675656267e-06,
	"loss": 0.4094,
	"num_input_tokens_seen": 42074092,
	"step": 642
	},
	{
	"epoch": 0.7097130242825607,
	"grad_norm": 3.758775234222412,
	"learning_rate": 2.9218992610175324e-06,
	"loss": 0.2112,
	"num_input_tokens_seen": 42139628,
	"step": 643
	},
	{
	"epoch": 0.7108167770419426,
	"grad_norm": 6.650103569030762,
	"learning_rate": 2.9084431579390204e-06,
	"loss": 0.6355,
	"num_input_tokens_seen": 42205164,
	"step": 644
	},
	{
	"epoch": 0.7119205298013245,
	"grad_norm": 5.46085786819458,
	"learning_rate": 2.8950216378950824e-06,
	"loss": 0.5132,
	"num_input_tokens_seen": 42270700,
	"step": 645
	},
	{
	"epoch": 0.7130242825607064,
	"grad_norm": 5.055593967437744,
	"learning_rate": 2.8816348799892134e-06,
	"loss": 0.3778,
	"num_input_tokens_seen": 42336236,
	"step": 646
	},
	{
	"epoch": 0.7141280353200883,
	"grad_norm": 3.933264970779419,
	"learning_rate": 2.868283062861028e-06,
	"loss": 0.2851,
	"num_input_tokens_seen": 42401772,
	"step": 647
	},
	{
	"epoch": 0.7152317880794702,
	"grad_norm": 5.225867748260498,
	"learning_rate": 2.854966364683872e-06,
	"loss": 0.4315,
	"num_input_tokens_seen": 42467308,
	"step": 648
	},
	{
	"epoch": 0.7163355408388521,
	"grad_norm": 4.521208763122559,
	"learning_rate": 2.8416849631624453e-06,
	"loss": 0.3846,
	"num_input_tokens_seen": 42532844,
	"step": 649
	},
	{
	"epoch": 0.717439293598234,
	"grad_norm": 4.635922908782959,
	"learning_rate": 2.8284390355304325e-06,
	"loss": 0.5581,
	"num_input_tokens_seen": 42598380,
	"step": 650
	},
	{
	"epoch": 0.7185430463576159,
	"grad_norm": 4.856995105743408,
	"learning_rate": 2.8152287585481384e-06,
	"loss": 0.4154,
	"num_input_tokens_seen": 42663916,
	"step": 651
	},
	{
	"epoch": 0.7196467991169978,
	"grad_norm": 4.650574684143066,
	"learning_rate": 2.802054308500125e-06,
	"loss": 0.4506,
	"num_input_tokens_seen": 42729452,
	"step": 652
	},
	{
	"epoch": 0.7207505518763797,
	"grad_norm": 5.974058628082275,
	"learning_rate": 2.7889158611928647e-06,
	"loss": 0.406,
	"num_input_tokens_seen": 42794988,
	"step": 653
	},
	{
	"epoch": 0.7218543046357616,
	"grad_norm": 3.3415307998657227,
	"learning_rate": 2.775813591952385e-06,
	"loss": 0.2127,
	"num_input_tokens_seen": 42860524,
	"step": 654
	},
	{
	"epoch": 0.7229580573951435,
	"grad_norm": 5.096837997436523,
	"learning_rate": 2.7627476756219416e-06,
	"loss": 0.4521,
	"num_input_tokens_seen": 42926060,
	"step": 655
	},
	{
	"epoch": 0.7240618101545254,
	"grad_norm": 5.722452640533447,
	"learning_rate": 2.7497182865596785e-06,
	"loss": 0.488,
	"num_input_tokens_seen": 42991596,
	"step": 656
	},
	{
	"epoch": 0.7251655629139073,
	"grad_norm": 5.530818462371826,
	"learning_rate": 2.7367255986362995e-06,
	"loss": 0.5543,
	"num_input_tokens_seen": 43057132,
	"step": 657
	},
	{
	"epoch": 0.7262693156732892,
	"grad_norm": 4.10623836517334,
	"learning_rate": 2.7237697852327465e-06,
	"loss": 0.2923,
	"num_input_tokens_seen": 43122668,
	"step": 658
	},
	{
	"epoch": 0.7273730684326711,
	"grad_norm": 5.076680660247803,
	"learning_rate": 2.7108510192378956e-06,
	"loss": 0.4849,
	"num_input_tokens_seen": 43188204,
	"step": 659
	},
	{
	"epoch": 0.7284768211920529,
	"grad_norm": 5.36618185043335,
	"learning_rate": 2.697969473046239e-06,
	"loss": 0.504,
	"num_input_tokens_seen": 43253740,
	"step": 660
	},
	{
	"epoch": 0.7295805739514348,
	"grad_norm": 3.818769693374634,
	"learning_rate": 2.685125318555595e-06,
	"loss": 0.2422,
	"num_input_tokens_seen": 43319276,
	"step": 661
	},
	{
	"epoch": 0.7306843267108167,
	"grad_norm": 4.558277606964111,
	"learning_rate": 2.672318727164803e-06,
	"loss": 0.3608,
	"num_input_tokens_seen": 43384812,
	"step": 662
	},
	{
	"epoch": 0.7317880794701986,
	"grad_norm": 3.284147262573242,
	"learning_rate": 2.659549869771442e-06,
	"loss": 0.1414,
	"num_input_tokens_seen": 43450348,
	"step": 663
	},
	{
	"epoch": 0.7328918322295805,
	"grad_norm": 4.764499187469482,
	"learning_rate": 2.646818916769551e-06,
	"loss": 0.3462,
	"num_input_tokens_seen": 43515884,
	"step": 664
	},
	{
	"epoch": 0.7339955849889624,
	"grad_norm": 6.250286102294922,
	"learning_rate": 2.6341260380473522e-06,
	"loss": 0.584,
	"num_input_tokens_seen": 43581420,
	"step": 665
	},
	{
	"epoch": 0.7350993377483444,
	"grad_norm": 5.290203094482422,
	"learning_rate": 2.621471402984991e-06,
	"loss": 0.4575,
	"num_input_tokens_seen": 43646956,
	"step": 666
	},
	{
	"epoch": 0.7362030905077263,
	"grad_norm": 4.591466903686523,
	"learning_rate": 2.60885518045226e-06,
	"loss": 0.3306,
	"num_input_tokens_seen": 43712492,
	"step": 667
	},
	{
	"epoch": 0.7373068432671082,
	"grad_norm": 3.301421642303467,
	"learning_rate": 2.5962775388063653e-06,
	"loss": 0.1541,
	"num_input_tokens_seen": 43778028,
	"step": 668
	},
	{
	"epoch": 0.7384105960264901,
	"grad_norm": 4.60337495803833,
	"learning_rate": 2.5837386458896665e-06,
	"loss": 0.3604,
	"num_input_tokens_seen": 43843564,
	"step": 669
	},
	{
	"epoch": 0.739514348785872,
	"grad_norm": 5.7256879806518555,
	"learning_rate": 2.5712386690274405e-06,
	"loss": 0.5413,
	"num_input_tokens_seen": 43909100,
	"step": 670
	},
	{
	"epoch": 0.7406181015452539,
	"grad_norm": 4.792141914367676,
	"learning_rate": 2.55877777502565e-06,
	"loss": 0.3497,
	"num_input_tokens_seen": 43974636,
	"step": 671
	},
	{
	"epoch": 0.7417218543046358,
	"grad_norm": 4.639016628265381,
	"learning_rate": 2.5463561301687122e-06,
	"loss": 0.3359,
	"num_input_tokens_seen": 44040172,
	"step": 672
	},
	{
	"epoch": 0.7428256070640177,
	"grad_norm": 6.675306797027588,
	"learning_rate": 2.533973900217292e-06,
	"loss": 0.6212,
	"num_input_tokens_seen": 44105708,
	"step": 673
	},
	{
	"epoch": 0.7439293598233996,
	"grad_norm": 4.351767063140869,
	"learning_rate": 2.521631250406076e-06,
	"loss": 0.3184,
	"num_input_tokens_seen": 44171244,
	"step": 674
	},
	{
	"epoch": 0.7450331125827815,
	"grad_norm": 5.042402744293213,
	"learning_rate": 2.5093283454415753e-06,
	"loss": 0.3898,
	"num_input_tokens_seen": 44236780,
	"step": 675
	},
	{
	"epoch": 0.7461368653421634,
	"grad_norm": 5.825693130493164,
	"learning_rate": 2.4970653494999233e-06,
	"loss": 0.5072,
	"num_input_tokens_seen": 44302316,
	"step": 676
	},
	{
	"epoch": 0.7472406181015453,
	"grad_norm": 3.8188884258270264,
	"learning_rate": 2.484842426224692e-06,
	"loss": 0.2332,
	"num_input_tokens_seen": 44367852,
	"step": 677
	},
	{
	"epoch": 0.7483443708609272,
	"grad_norm": 4.3476033210754395,
	"learning_rate": 2.4726597387247e-06,
	"loss": 0.307,
	"num_input_tokens_seen": 44433388,
	"step": 678
	},
	{
	"epoch": 0.7494481236203091,
	"grad_norm": 5.082565784454346,
	"learning_rate": 2.4605174495718426e-06,
	"loss": 0.3315,
	"num_input_tokens_seen": 44498924,
	"step": 679
	},
	{
	"epoch": 0.7505518763796909,
	"grad_norm": 5.1927032470703125,
	"learning_rate": 2.4484157207989172e-06,
	"loss": 0.4357,
	"num_input_tokens_seen": 44564460,
	"step": 680
	},
	{
	"epoch": 0.7516556291390728,
	"grad_norm": 4.175013542175293,
	"learning_rate": 2.4363547138974615e-06,
	"loss": 0.3239,
	"num_input_tokens_seen": 44629996,
	"step": 681
	},
	{
	"epoch": 0.7527593818984547,
	"grad_norm": 3.897489070892334,
	"learning_rate": 2.4243345898156036e-06,
	"loss": 0.2688,
	"num_input_tokens_seen": 44695532,
	"step": 682
	},
	{
	"epoch": 0.7538631346578366,
	"grad_norm": 3.912888288497925,
	"learning_rate": 2.4123555089559084e-06,
	"loss": 0.2775,
	"num_input_tokens_seen": 44761068,
	"step": 683
	},
	{
	"epoch": 0.7549668874172185,
	"grad_norm": 3.3684606552124023,
	"learning_rate": 2.4004176311732407e-06,
	"loss": 0.1913,
	"num_input_tokens_seen": 44826604,
	"step": 684
	},
	{
	"epoch": 0.7560706401766004,
	"grad_norm": 2.597721815109253,
	"learning_rate": 2.388521115772631e-06,
	"loss": 0.1278,
	"num_input_tokens_seen": 44892140,
	"step": 685
	},
	{
	"epoch": 0.7571743929359823,
	"grad_norm": 5.179257869720459,
	"learning_rate": 2.3766661215071473e-06,
	"loss": 0.4902,
	"num_input_tokens_seen": 44957676,
	"step": 686
	},
	{
	"epoch": 0.7582781456953642,
	"grad_norm": 5.601065635681152,
	"learning_rate": 2.364852806575782e-06,
	"loss": 0.5226,
	"num_input_tokens_seen": 45023212,
	"step": 687
	},
	{
	"epoch": 0.7593818984547461,
	"grad_norm": 4.68391752243042,
	"learning_rate": 2.353081328621335e-06,
	"loss": 0.3309,
	"num_input_tokens_seen": 45088748,
	"step": 688
	},
	{
	"epoch": 0.760485651214128,
	"grad_norm": 4.620096683502197,
	"learning_rate": 2.3413518447283145e-06,
	"loss": 0.3436,
	"num_input_tokens_seen": 45154284,
	"step": 689
	},
	{
	"epoch": 0.7615894039735099,
	"grad_norm": 3.8575119972229004,
	"learning_rate": 2.329664511420835e-06,
	"loss": 0.2027,
	"num_input_tokens_seen": 45219820,
	"step": 690
	},
	{
	"epoch": 0.7626931567328918,
	"grad_norm": 5.794271945953369,
	"learning_rate": 2.3180194846605367e-06,
	"loss": 0.5122,
	"num_input_tokens_seen": 45285356,
	"step": 691
	},
	{
	"epoch": 0.7637969094922737,
	"grad_norm": 3.642765998840332,
	"learning_rate": 2.3064169198444988e-06,
	"loss": 0.1909,
	"num_input_tokens_seen": 45350892,
	"step": 692
	},
	{
	"epoch": 0.7649006622516556,
	"grad_norm": 4.802554130554199,
	"learning_rate": 2.2948569718031665e-06,
	"loss": 0.3171,
	"num_input_tokens_seen": 45416428,
	"step": 693
	},
	{
	"epoch": 0.7660044150110376,
	"grad_norm": 3.871217727661133,
	"learning_rate": 2.283339794798286e-06,
	"loss": 0.2115,
	"num_input_tokens_seen": 45481964,
	"step": 694
	},
	{
	"epoch": 0.7671081677704195,
	"grad_norm": 4.514727592468262,
	"learning_rate": 2.2718655425208443e-06,
	"loss": 0.2803,
	"num_input_tokens_seen": 45547500,
	"step": 695
	},
	{
	"epoch": 0.7682119205298014,
	"grad_norm": 4.732895851135254,
	"learning_rate": 2.26043436808902e-06,
	"loss": 0.3749,
	"num_input_tokens_seen": 45613036,
	"step": 696
	},
	{
	"epoch": 0.7693156732891833,
	"grad_norm": 4.663212776184082,
	"learning_rate": 2.2490464240461386e-06,
	"loss": 0.2932,
	"num_input_tokens_seen": 45678572,
	"step": 697
	},
	{
	"epoch": 0.7704194260485652,
	"grad_norm": 4.421245574951172,
	"learning_rate": 2.2377018623586392e-06,
	"loss": 0.2619,
	"num_input_tokens_seen": 45744108,
	"step": 698
	},
	{
	"epoch": 0.7715231788079471,
	"grad_norm": 4.790342807769775,
	"learning_rate": 2.2264008344140444e-06,
	"loss": 0.351,
	"num_input_tokens_seen": 45809644,
	"step": 699
	},
	{
	"epoch": 0.7726269315673289,
	"grad_norm": 4.666688919067383,
	"learning_rate": 2.2151434910189397e-06,
	"loss": 0.307,
	"num_input_tokens_seen": 45875180,
	"step": 700
	},
	{
	"epoch": 0.7737306843267108,
	"grad_norm": 6.7703704833984375,
	"learning_rate": 2.2039299823969623e-06,
	"loss": 0.5548,
	"num_input_tokens_seen": 45940716,
	"step": 701
	},
	{
	"epoch": 0.7748344370860927,
	"grad_norm": 4.884865760803223,
	"learning_rate": 2.1927604581867974e-06,
	"loss": 0.2819,
	"num_input_tokens_seen": 46006252,
	"step": 702
	},
	{
	"epoch": 0.7759381898454746,
	"grad_norm": 3.6003012657165527,
	"learning_rate": 2.1816350674401804e-06,
	"loss": 0.2164,
	"num_input_tokens_seen": 46071788,
	"step": 703
	},
	{
	"epoch": 0.7770419426048565,
	"grad_norm": 4.006162166595459,
	"learning_rate": 2.1705539586199037e-06,
	"loss": 0.2567,
	"num_input_tokens_seen": 46137324,
	"step": 704
	},
	{
	"epoch": 0.7781456953642384,
	"grad_norm": 5.422812461853027,
	"learning_rate": 2.159517279597844e-06,
	"loss": 0.4782,
	"num_input_tokens_seen": 46202860,
	"step": 705
	},
	{
	"epoch": 0.7792494481236203,
	"grad_norm": 5.053647041320801,
	"learning_rate": 2.148525177652982e-06,
	"loss": 0.2962,
	"num_input_tokens_seen": 46268396,
	"step": 706
	},
	{
	"epoch": 0.7803532008830022,
	"grad_norm": 4.703584671020508,
	"learning_rate": 2.1375777994694415e-06,
	"loss": 0.3387,
	"num_input_tokens_seen": 46333932,
	"step": 707
	},
	{
	"epoch": 0.7814569536423841,
	"grad_norm": 6.285885810852051,
	"learning_rate": 2.1266752911345293e-06,
	"loss": 0.7101,
	"num_input_tokens_seen": 46399468,
	"step": 708
	},
	{
	"epoch": 0.782560706401766,
	"grad_norm": 5.295046329498291,
	"learning_rate": 2.1158177981367832e-06,
	"loss": 0.4221,
	"num_input_tokens_seen": 46465004,
	"step": 709
	},
	{
	"epoch": 0.7836644591611479,
	"grad_norm": 5.126113414764404,
	"learning_rate": 2.1050054653640382e-06,
	"loss": 0.499,
	"num_input_tokens_seen": 46530540,
	"step": 710
	},
	{
	"epoch": 0.7847682119205298,
	"grad_norm": 4.821897983551025,
	"learning_rate": 2.0942384371014858e-06,
	"loss": 0.3448,
	"num_input_tokens_seen": 46596076,
	"step": 711
	},
	{
	"epoch": 0.7858719646799117,
	"grad_norm": 5.19854211807251,
	"learning_rate": 2.083516857029757e-06,
	"loss": 0.5352,
	"num_input_tokens_seen": 46661612,
	"step": 712
	},
	{
	"epoch": 0.7869757174392936,
	"grad_norm": 4.652998924255371,
	"learning_rate": 2.072840868222989e-06,
	"loss": 0.3713,
	"num_input_tokens_seen": 46727148,
	"step": 713
	},
	{
	"epoch": 0.7880794701986755,
	"grad_norm": 4.630868434906006,
	"learning_rate": 2.0622106131469346e-06,
	"loss": 0.3579,
	"num_input_tokens_seen": 46792684,
	"step": 714
	},
	{
	"epoch": 0.7891832229580574,
	"grad_norm": 5.569841384887695,
	"learning_rate": 2.0516262336570504e-06,
	"loss": 0.6049,
	"num_input_tokens_seen": 46858220,
	"step": 715
	},
	{
	"epoch": 0.7902869757174393,
	"grad_norm": 4.281322479248047,
	"learning_rate": 2.0410878709966055e-06,
	"loss": 0.2668,
	"num_input_tokens_seen": 46923756,
	"step": 716
	},
	{
	"epoch": 0.7913907284768212,
	"grad_norm": 6.267445087432861,
	"learning_rate": 2.0305956657947993e-06,
	"loss": 0.5742,
	"num_input_tokens_seen": 46989292,
	"step": 717
	},
	{
	"epoch": 0.7924944812362031,
	"grad_norm": 6.611531734466553,
	"learning_rate": 2.0201497580648804e-06,
	"loss": 0.6532,
	"num_input_tokens_seen": 47054828,
	"step": 718
	},
	{
	"epoch": 0.7935982339955849,
	"grad_norm": 5.3773040771484375,
	"learning_rate": 2.0097502872022808e-06,
	"loss": 0.4038,
	"num_input_tokens_seen": 47120364,
	"step": 719
	},
	{
	"epoch": 0.7947019867549668,
	"grad_norm": 5.617459774017334,
	"learning_rate": 1.999397391982758e-06,
	"loss": 0.4642,
	"num_input_tokens_seen": 47185900,
	"step": 720
	},
	{
	"epoch": 0.7958057395143487,
	"grad_norm": 4.279394149780273,
	"learning_rate": 1.98909121056054e-06,
	"loss": 0.2961,
	"num_input_tokens_seen": 47251436,
	"step": 721
	},
	{
	"epoch": 0.7969094922737306,
	"grad_norm": 4.948429107666016,
	"learning_rate": 1.97883188046648e-06,
	"loss": 0.298,
	"num_input_tokens_seen": 47316972,
	"step": 722
	},
	{
	"epoch": 0.7980132450331126,
	"grad_norm": 4.897294521331787,
	"learning_rate": 1.9686195386062253e-06,
	"loss": 0.406,
	"num_input_tokens_seen": 47382508,
	"step": 723
	},
	{
	"epoch": 0.7991169977924945,
	"grad_norm": 3.2944583892822266,
	"learning_rate": 1.958454321258391e-06,
	"loss": 0.1767,
	"num_input_tokens_seen": 47448044,
	"step": 724
	},
	{
	"epoch": 0.8002207505518764,
	"grad_norm": 5.691059589385986,
	"learning_rate": 1.948336364072736e-06,
	"loss": 0.5323,
	"num_input_tokens_seen": 47513580,
	"step": 725
	},
	{
	"epoch": 0.8013245033112583,
	"grad_norm": 3.72227144241333,
	"learning_rate": 1.9382658020683572e-06,
	"loss": 0.2576,
	"num_input_tokens_seen": 47579116,
	"step": 726
	},
	{
	"epoch": 0.8024282560706402,
	"grad_norm": 5.053169250488281,
	"learning_rate": 1.928242769631884e-06,
	"loss": 0.4782,
	"num_input_tokens_seen": 47644652,
	"step": 727
	},
	{
	"epoch": 0.8035320088300221,
	"grad_norm": 3.867647171020508,
	"learning_rate": 1.918267400515691e-06,
	"loss": 0.2233,
	"num_input_tokens_seen": 47710188,
	"step": 728
	},
	{
	"epoch": 0.804635761589404,
	"grad_norm": 6.746331691741943,
	"learning_rate": 1.9083398278361077e-06,
	"loss": 0.5753,
	"num_input_tokens_seen": 47775724,
	"step": 729
	},
	{
	"epoch": 0.8057395143487859,
	"grad_norm": 5.674907207489014,
	"learning_rate": 1.8984601840716443e-06,
	"loss": 0.4902,
	"num_input_tokens_seen": 47841260,
	"step": 730
	},
	{
	"epoch": 0.8068432671081678,
	"grad_norm": 5.640385150909424,
	"learning_rate": 1.8886286010612226e-06,
	"loss": 0.5091,
	"num_input_tokens_seen": 47906796,
	"step": 731
	},
	{
	"epoch": 0.8079470198675497,
	"grad_norm": 4.219995975494385,
	"learning_rate": 1.8788452100024185e-06,
	"loss": 0.2676,
	"num_input_tokens_seen": 47972332,
	"step": 732
	},
	{
	"epoch": 0.8090507726269316,
	"grad_norm": 4.815901279449463,
	"learning_rate": 1.8691101414497104e-06,
	"loss": 0.3313,
	"num_input_tokens_seen": 48037868,
	"step": 733
	},
	{
	"epoch": 0.8101545253863135,
	"grad_norm": 5.200927734375,
	"learning_rate": 1.8594235253127373e-06,
	"loss": 0.4606,
	"num_input_tokens_seen": 48103404,
	"step": 734
	},
	{
	"epoch": 0.8112582781456954,
	"grad_norm": 4.116132736206055,
	"learning_rate": 1.8497854908545632e-06,
	"loss": 0.2862,
	"num_input_tokens_seen": 48168940,
	"step": 735
	},
	{
	"epoch": 0.8123620309050773,
	"grad_norm": 4.191470623016357,
	"learning_rate": 1.840196166689956e-06,
	"loss": 0.248,
	"num_input_tokens_seen": 48234476,
	"step": 736
	},
	{
	"epoch": 0.8134657836644592,
	"grad_norm": 4.818159103393555,
	"learning_rate": 1.8306556807836673e-06,
	"loss": 0.3043,
	"num_input_tokens_seen": 48300012,
	"step": 737
	},
	{
	"epoch": 0.8145695364238411,
	"grad_norm": 5.291959762573242,
	"learning_rate": 1.8211641604487276e-06,
	"loss": 0.3915,
	"num_input_tokens_seen": 48365548,
	"step": 738
	},
	{
	"epoch": 0.8156732891832229,
	"grad_norm": 3.9926469326019287,
	"learning_rate": 1.811721732344745e-06,
	"loss": 0.2789,
	"num_input_tokens_seen": 48431084,
	"step": 739
	},
	{
	"epoch": 0.8167770419426048,
	"grad_norm": 3.875976085662842,
	"learning_rate": 1.8023285224762182e-06,
	"loss": 0.2372,
	"num_input_tokens_seen": 48496620,
	"step": 740
	},
	{
	"epoch": 0.8178807947019867,
	"grad_norm": 4.194228649139404,
	"learning_rate": 1.792984656190851e-06,
	"loss": 0.3044,
	"num_input_tokens_seen": 48562156,
	"step": 741
	},
	{
	"epoch": 0.8189845474613686,
	"grad_norm": 3.9738593101501465,
	"learning_rate": 1.7836902581778814e-06,
	"loss": 0.2313,
	"num_input_tokens_seen": 48627688,
	"step": 742
	},
	{
	"epoch": 0.8200883002207505,
	"grad_norm": 5.357481479644775,
	"learning_rate": 1.7744454524664206e-06,
	"loss": 0.3658,
	"num_input_tokens_seen": 48693224,
	"step": 743
	},
	{
	"epoch": 0.8211920529801324,
	"grad_norm": 4.926805019378662,
	"learning_rate": 1.7652503624237943e-06,
	"loss": 0.3554,
	"num_input_tokens_seen": 48758760,
	"step": 744
	},
	{
	"epoch": 0.8222958057395143,
	"grad_norm": 4.7101149559021,
	"learning_rate": 1.7561051107538957e-06,
	"loss": 0.3042,
	"num_input_tokens_seen": 48824296,
	"step": 745
	},
	{
	"epoch": 0.8233995584988962,
	"grad_norm": 7.876413822174072,
	"learning_rate": 1.7470098194955502e-06,
	"loss": 0.9089,
	"num_input_tokens_seen": 48889832,
	"step": 746
	},
	{
	"epoch": 0.8245033112582781,
	"grad_norm": 7.759825706481934,
	"learning_rate": 1.737964610020888e-06,
	"loss": 0.7701,
	"num_input_tokens_seen": 48955368,
	"step": 747
	},
	{
	"epoch": 0.82560706401766,
	"grad_norm": 5.320918083190918,
	"learning_rate": 1.7289696030337217e-06,
	"loss": 0.473,
	"num_input_tokens_seen": 49020904,
	"step": 748
	},
	{
	"epoch": 0.826710816777042,
	"grad_norm": 4.480899810791016,
	"learning_rate": 1.7200249185679373e-06,
	"loss": 0.279,
	"num_input_tokens_seen": 49086440,
	"step": 749
	},
	{
	"epoch": 0.8278145695364238,
	"grad_norm": 3.9195127487182617,
	"learning_rate": 1.7111306759858915e-06,
	"loss": 0.2524,
	"num_input_tokens_seen": 49151976,
	"step": 750
	},
	{
	"epoch": 0.8289183222958058,
	"grad_norm": 4.489572525024414,
	"learning_rate": 1.7022869939768189e-06,
	"loss": 0.3206,
	"num_input_tokens_seen": 49217512,
	"step": 751
	},
	{
	"epoch": 0.8300220750551877,
	"grad_norm": 4.9796247482299805,
	"learning_rate": 1.6934939905552483e-06,
	"loss": 0.3519,
	"num_input_tokens_seen": 49283048,
	"step": 752
	},
	{
	"epoch": 0.8311258278145696,
	"grad_norm": 4.599273204803467,
	"learning_rate": 1.6847517830594304e-06,
	"loss": 0.2959,
	"num_input_tokens_seen": 49348584,
	"step": 753
	},
	{
	"epoch": 0.8322295805739515,
	"grad_norm": 4.5784502029418945,
	"learning_rate": 1.676060488149765e-06,
	"loss": 0.3448,
	"num_input_tokens_seen": 49414120,
	"step": 754
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 4.545161247253418,
	"learning_rate": 1.6674202218072528e-06,
	"loss": 0.2993,
	"num_input_tokens_seen": 49479656,
	"step": 755
	},
	{
	"epoch": 0.8344370860927153,
	"grad_norm": 5.198947429656982,
	"learning_rate": 1.6588310993319411e-06,
	"loss": 0.3496,
	"num_input_tokens_seen": 49545192,
	"step": 756
	},
	{
	"epoch": 0.8355408388520972,
	"grad_norm": 6.070314407348633,
	"learning_rate": 1.6502932353413911e-06,
	"loss": 0.6534,
	"num_input_tokens_seen": 49610728,
	"step": 757
	},
	{
	"epoch": 0.8366445916114791,
	"grad_norm": 3.886892557144165,
	"learning_rate": 1.641806743769142e-06,
	"loss": 0.2371,
	"num_input_tokens_seen": 49676264,
	"step": 758
	},
	{
	"epoch": 0.8377483443708609,
	"grad_norm": 4.761082649230957,
	"learning_rate": 1.633371737863194e-06,
	"loss": 0.3792,
	"num_input_tokens_seen": 49741800,
	"step": 759
	},
	{
	"epoch": 0.8388520971302428,
	"grad_norm": 4.743200778961182,
	"learning_rate": 1.6249883301844977e-06,
	"loss": 0.2798,
	"num_input_tokens_seen": 49807336,
	"step": 760
	},
	{
	"epoch": 0.8399558498896247,
	"grad_norm": 4.598114967346191,
	"learning_rate": 1.616656632605451e-06,
	"loss": 0.3047,
	"num_input_tokens_seen": 49872872,
	"step": 761
	},
	{
	"epoch": 0.8410596026490066,
	"grad_norm": 4.357061386108398,
	"learning_rate": 1.6083767563084056e-06,
	"loss": 0.2891,
	"num_input_tokens_seen": 49938408,
	"step": 762
	},
	{
	"epoch": 0.8421633554083885,
	"grad_norm": 5.4613938331604,
	"learning_rate": 1.6001488117841855e-06,
	"loss": 0.3881,
	"num_input_tokens_seen": 50003944,
	"step": 763
	},
	{
	"epoch": 0.8432671081677704,
	"grad_norm": 5.408591270446777,
	"learning_rate": 1.5919729088306093e-06,
	"loss": 0.4353,
	"num_input_tokens_seen": 50069480,
	"step": 764
	},
	{
	"epoch": 0.8443708609271523,
	"grad_norm": 4.4144697189331055,
	"learning_rate": 1.5838491565510275e-06,
	"loss": 0.3202,
	"num_input_tokens_seen": 50135016,
	"step": 765
	},
	{
	"epoch": 0.8454746136865342,
	"grad_norm": 4.777880668640137,
	"learning_rate": 1.5757776633528654e-06,
	"loss": 0.3601,
	"num_input_tokens_seen": 50200552,
	"step": 766
	},
	{
	"epoch": 0.8465783664459161,
	"grad_norm": 5.162795066833496,
	"learning_rate": 1.5677585369461796e-06,
	"loss": 0.4695,
	"num_input_tokens_seen": 50266088,
	"step": 767
	},
	{
	"epoch": 0.847682119205298,
	"grad_norm": 4.954742431640625,
	"learning_rate": 1.5597918843422132e-06,
	"loss": 0.4612,
	"num_input_tokens_seen": 50331624,
	"step": 768
	},
	{
	"epoch": 0.8487858719646799,
	"grad_norm": 4.867616653442383,
	"learning_rate": 1.5518778118519754e-06,
	"loss": 0.3481,
	"num_input_tokens_seen": 50397160,
	"step": 769
	},
	{
	"epoch": 0.8498896247240618,
	"grad_norm": 5.606635093688965,
	"learning_rate": 1.5440164250848205e-06,
	"loss": 0.3699,
	"num_input_tokens_seen": 50462696,
	"step": 770
	},
	{
	"epoch": 0.8509933774834437,
	"grad_norm": 4.597039699554443,
	"learning_rate": 1.5362078289470369e-06,
	"loss": 0.2831,
	"num_input_tokens_seen": 50528232,
	"step": 771
	},
	{
	"epoch": 0.8520971302428256,
	"grad_norm": 4.647115707397461,
	"learning_rate": 1.5284521276404498e-06,
	"loss": 0.3296,
	"num_input_tokens_seen": 50593768,
	"step": 772
	},
	{
	"epoch": 0.8532008830022075,
	"grad_norm": 7.4029083251953125,
	"learning_rate": 1.520749424661026e-06,
	"loss": 0.8206,
	"num_input_tokens_seen": 50659304,
	"step": 773
	},
	{
	"epoch": 0.8543046357615894,
	"grad_norm": 5.793678283691406,
	"learning_rate": 1.513099822797498e-06,
	"loss": 0.5007,
	"num_input_tokens_seen": 50724840,
	"step": 774
	},
	{
	"epoch": 0.8554083885209713,
	"grad_norm": 5.196356296539307,
	"learning_rate": 1.5055034241299933e-06,
	"loss": 0.3584,
	"num_input_tokens_seen": 50790376,
	"step": 775
	},
	{
	"epoch": 0.8565121412803532,
	"grad_norm": 3.680781841278076,
	"learning_rate": 1.4979603300286655e-06,
	"loss": 0.2379,
	"num_input_tokens_seen": 50855912,
	"step": 776
	},
	{
	"epoch": 0.8576158940397351,
	"grad_norm": 5.659000873565674,
	"learning_rate": 1.490470641152345e-06,
	"loss": 0.4034,
	"num_input_tokens_seen": 50921448,
	"step": 777
	},
	{
	"epoch": 0.8587196467991169,
	"grad_norm": 4.814398288726807,
	"learning_rate": 1.4830344574471986e-06,
	"loss": 0.3384,
	"num_input_tokens_seen": 50986984,
	"step": 778
	},
	{
	"epoch": 0.8598233995584988,
	"grad_norm": 3.8748183250427246,
	"learning_rate": 1.475651878145391e-06,
	"loss": 0.2315,
	"num_input_tokens_seen": 51052520,
	"step": 779
	},
	{
	"epoch": 0.8609271523178808,
	"grad_norm": 4.726593017578125,
	"learning_rate": 1.4683230017637653e-06,
	"loss": 0.39,
	"num_input_tokens_seen": 51118056,
	"step": 780
	},
	{
	"epoch": 0.8620309050772627,
	"grad_norm": 4.92621374130249,
	"learning_rate": 1.4610479261025247e-06,
	"loss": 0.3703,
	"num_input_tokens_seen": 51183592,
	"step": 781
	},
	{
	"epoch": 0.8631346578366446,
	"grad_norm": 2.963569164276123,
	"learning_rate": 1.4538267482439264e-06,
	"loss": 0.1459,
	"num_input_tokens_seen": 51249128,
	"step": 782
	},
	{
	"epoch": 0.8642384105960265,
	"grad_norm": 4.367040634155273,
	"learning_rate": 1.4466595645509917e-06,
	"loss": 0.2845,
	"num_input_tokens_seen": 51314664,
	"step": 783
	},
	{
	"epoch": 0.8653421633554084,
	"grad_norm": 6.132776260375977,
	"learning_rate": 1.4395464706662155e-06,
	"loss": 0.3871,
	"num_input_tokens_seen": 51380200,
	"step": 784
	},
	{
	"epoch": 0.8664459161147903,
	"grad_norm": 4.9763593673706055,
	"learning_rate": 1.4324875615102896e-06,
	"loss": 0.2819,
	"num_input_tokens_seen": 51445736,
	"step": 785
	},
	{
	"epoch": 0.8675496688741722,
	"grad_norm": 4.710178375244141,
	"learning_rate": 1.4254829312808405e-06,
	"loss": 0.2911,
	"num_input_tokens_seen": 51511272,
	"step": 786
	},
	{
	"epoch": 0.8686534216335541,
	"grad_norm": 5.016818523406982,
	"learning_rate": 1.4185326734511667e-06,
	"loss": 0.3404,
	"num_input_tokens_seen": 51576808,
	"step": 787
	},
	{
	"epoch": 0.869757174392936,
	"grad_norm": 4.105848789215088,
	"learning_rate": 1.4116368807689968e-06,
	"loss": 0.255,
	"num_input_tokens_seen": 51642344,
	"step": 788
	},
	{
	"epoch": 0.8708609271523179,
	"grad_norm": 3.7043731212615967,
	"learning_rate": 1.4047956452552458e-06,
	"loss": 0.2043,
	"num_input_tokens_seen": 51707880,
	"step": 789
	},
	{
	"epoch": 0.8719646799116998,
	"grad_norm": 4.634637832641602,
	"learning_rate": 1.3980090582027943e-06,
	"loss": 0.302,
	"num_input_tokens_seen": 51773416,
	"step": 790
	},
	{
	"epoch": 0.8730684326710817,
	"grad_norm": 5.685799598693848,
	"learning_rate": 1.3912772101752628e-06,
	"loss": 0.3963,
	"num_input_tokens_seen": 51838952,
	"step": 791
	},
	{
	"epoch": 0.8741721854304636,
	"grad_norm": 6.1849212646484375,
	"learning_rate": 1.384600191005809e-06,
	"loss": 0.4956,
	"num_input_tokens_seen": 51904488,
	"step": 792
	},
	{
	"epoch": 0.8752759381898455,
	"grad_norm": 4.928698539733887,
	"learning_rate": 1.3779780897959266e-06,
	"loss": 0.3066,
	"num_input_tokens_seen": 51970024,
	"step": 793
	},
	{
	"epoch": 0.8763796909492274,
	"grad_norm": 4.356123447418213,
	"learning_rate": 1.3714109949142568e-06,
	"loss": 0.2387,
	"num_input_tokens_seen": 52035560,
	"step": 794
	},
	{
	"epoch": 0.8774834437086093,
	"grad_norm": 3.3618569374084473,
	"learning_rate": 1.3648989939954065e-06,
	"loss": 0.1518,
	"num_input_tokens_seen": 52101096,
	"step": 795
	},
	{
	"epoch": 0.8785871964679912,
	"grad_norm": 5.220973968505859,
	"learning_rate": 1.3584421739387831e-06,
	"loss": 0.3637,
	"num_input_tokens_seen": 52166632,
	"step": 796
	},
	{
	"epoch": 0.8796909492273731,
	"grad_norm": 3.5688204765319824,
	"learning_rate": 1.3520406209074333e-06,
	"loss": 0.1974,
	"num_input_tokens_seen": 52232168,
	"step": 797
	},
	{
	"epoch": 0.8807947019867549,
	"grad_norm": 5.112353324890137,
	"learning_rate": 1.3456944203268918e-06,
	"loss": 0.3774,
	"num_input_tokens_seen": 52297704,
	"step": 798
	},
	{
	"epoch": 0.8818984547461368,
	"grad_norm": 2.9946765899658203,
	"learning_rate": 1.3394036568840423e-06,
	"loss": 0.1356,
	"num_input_tokens_seen": 52363240,
	"step": 799
	},
	{
	"epoch": 0.8830022075055187,
	"grad_norm": 6.761628150939941,
	"learning_rate": 1.3331684145259897e-06,
	"loss": 0.5675,
	"num_input_tokens_seen": 52428776,
	"step": 800
	},
	{
	"epoch": 0.8841059602649006,
	"grad_norm": 3.472043991088867,
	"learning_rate": 1.3269887764589338e-06,
	"loss": 0.1852,
	"num_input_tokens_seen": 52494312,
	"step": 801
	},
	{
	"epoch": 0.8852097130242825,
	"grad_norm": 4.0303497314453125,
	"learning_rate": 1.3208648251470662e-06,
	"loss": 0.2197,
	"num_input_tokens_seen": 52559848,
	"step": 802
	},
	{
	"epoch": 0.8863134657836644,
	"grad_norm": 6.038300514221191,
	"learning_rate": 1.314796642311465e-06,
	"loss": 0.5266,
	"num_input_tokens_seen": 52625384,
	"step": 803
	},
	{
	"epoch": 0.8874172185430463,
	"grad_norm": 4.095331192016602,
	"learning_rate": 1.3087843089290072e-06,
	"loss": 0.2284,
	"num_input_tokens_seen": 52690920,
	"step": 804
	},
	{
	"epoch": 0.8885209713024282,
	"grad_norm": 3.6835544109344482,
	"learning_rate": 1.3028279052312836e-06,
	"loss": 0.1985,
	"num_input_tokens_seen": 52756456,
	"step": 805
	},
	{
	"epoch": 0.8896247240618101,
	"grad_norm": 6.688685417175293,
	"learning_rate": 1.2969275107035344e-06,
	"loss": 0.5688,
	"num_input_tokens_seen": 52821992,
	"step": 806
	},
	{
	"epoch": 0.890728476821192,
	"grad_norm": 4.240151882171631,
	"learning_rate": 1.291083204083584e-06,
	"loss": 0.2624,
	"num_input_tokens_seen": 52887528,
	"step": 807
	},
	{
	"epoch": 0.891832229580574,
	"grad_norm": 4.761137008666992,
	"learning_rate": 1.2852950633607922e-06,
	"loss": 0.2818,
	"num_input_tokens_seen": 52953064,
	"step": 808
	},
	{
	"epoch": 0.8929359823399559,
	"grad_norm": 5.820546627044678,
	"learning_rate": 1.2795631657750113e-06,
	"loss": 0.4492,
	"num_input_tokens_seen": 53018600,
	"step": 809
	},
	{
	"epoch": 0.8940397350993378,
	"grad_norm": 3.614879846572876,
	"learning_rate": 1.2738875878155593e-06,
	"loss": 0.1956,
	"num_input_tokens_seen": 53084136,
	"step": 810
	},
	{
	"epoch": 0.8951434878587197,
	"grad_norm": 6.228170394897461,
	"learning_rate": 1.268268405220195e-06,
	"loss": 0.5272,
	"num_input_tokens_seen": 53149672,
	"step": 811
	},
	{
	"epoch": 0.8962472406181016,
	"grad_norm": 5.280664920806885,
	"learning_rate": 1.2627056929741096e-06,
	"loss": 0.3557,
	"num_input_tokens_seen": 53215208,
	"step": 812
	},
	{
	"epoch": 0.8973509933774835,
	"grad_norm": 4.466437816619873,
	"learning_rate": 1.257199525308927e-06,
	"loss": 0.2463,
	"num_input_tokens_seen": 53280744,
	"step": 813
	},
	{
	"epoch": 0.8984547461368654,
	"grad_norm": 4.941433429718018,
	"learning_rate": 1.2517499757017098e-06,
	"loss": 0.342,
	"num_input_tokens_seen": 53346280,
	"step": 814
	},
	{
	"epoch": 0.8995584988962473,
	"grad_norm": 3.8996658325195312,
	"learning_rate": 1.2463571168739825e-06,
	"loss": 0.2186,
	"num_input_tokens_seen": 53411816,
	"step": 815
	},
	{
	"epoch": 0.9006622516556292,
	"grad_norm": 5.6412811279296875,
	"learning_rate": 1.2410210207907579e-06,
	"loss": 0.4572,
	"num_input_tokens_seen": 53477352,
	"step": 816
	},
	{
	"epoch": 0.9017660044150111,
	"grad_norm": 4.444023132324219,
	"learning_rate": 1.2357417586595803e-06,
	"loss": 0.2967,
	"num_input_tokens_seen": 53542888,
	"step": 817
	},
	{
	"epoch": 0.9028697571743929,
	"grad_norm": 5.247828483581543,
	"learning_rate": 1.23051940092957e-06,
	"loss": 0.3782,
	"num_input_tokens_seen": 53608424,
	"step": 818
	},
	{
	"epoch": 0.9039735099337748,
	"grad_norm": 4.472630977630615,
	"learning_rate": 1.2253540172904894e-06,
	"loss": 0.2586,
	"num_input_tokens_seen": 53673960,
	"step": 819
	},
	{
	"epoch": 0.9050772626931567,
	"grad_norm": 6.463611602783203,
	"learning_rate": 1.2202456766718092e-06,
	"loss": 0.4628,
	"num_input_tokens_seen": 53739496,
	"step": 820
	},
	{
	"epoch": 0.9061810154525386,
	"grad_norm": 4.195343017578125,
	"learning_rate": 1.2151944472417888e-06,
	"loss": 0.2325,
	"num_input_tokens_seen": 53805032,
	"step": 821
	},
	{
	"epoch": 0.9072847682119205,
	"grad_norm": 4.714290618896484,
	"learning_rate": 1.2102003964065693e-06,
	"loss": 0.351,
	"num_input_tokens_seen": 53870568,
	"step": 822
	},
	{
	"epoch": 0.9083885209713024,
	"grad_norm": 5.385950565338135,
	"learning_rate": 1.205263590809268e-06,
	"loss": 0.3268,
	"num_input_tokens_seen": 53936104,
	"step": 823
	},
	{
	"epoch": 0.9094922737306843,
	"grad_norm": 5.244440078735352,
	"learning_rate": 1.200384096329096e-06,
	"loss": 0.4413,
	"num_input_tokens_seen": 54001640,
	"step": 824
	},
	{
	"epoch": 0.9105960264900662,
	"grad_norm": 6.079404354095459,
	"learning_rate": 1.1955619780804757e-06,
	"loss": 0.4869,
	"num_input_tokens_seen": 54067176,
	"step": 825
	},
	{
	"epoch": 0.9116997792494481,
	"grad_norm": 4.891379356384277,
	"learning_rate": 1.190797300412174e-06,
	"loss": 0.3709,
	"num_input_tokens_seen": 54132712,
	"step": 826
	},
	{
	"epoch": 0.91280353200883,
	"grad_norm": 4.037010192871094,
	"learning_rate": 1.1860901269064366e-06,
	"loss": 0.2608,
	"num_input_tokens_seen": 54198248,
	"step": 827
	},
	{
	"epoch": 0.9139072847682119,
	"grad_norm": 3.740389347076416,
	"learning_rate": 1.1814405203781503e-06,
	"loss": 0.1963,
	"num_input_tokens_seen": 54263784,
	"step": 828
	},
	{
	"epoch": 0.9150110375275938,
	"grad_norm": 4.0328779220581055,
	"learning_rate": 1.1768485428739963e-06,
	"loss": 0.2375,
	"num_input_tokens_seen": 54329320,
	"step": 829
	},
	{
	"epoch": 0.9161147902869757,
	"grad_norm": 6.169814109802246,
	"learning_rate": 1.1723142556716265e-06,
	"loss": 0.5289,
	"num_input_tokens_seen": 54394856,
	"step": 830
	},
	{
	"epoch": 0.9172185430463576,
	"grad_norm": 4.388846397399902,
	"learning_rate": 1.167837719278844e-06,
	"loss": 0.2342,
	"num_input_tokens_seen": 54460392,
	"step": 831
	},
	{
	"epoch": 0.9183222958057395,
	"grad_norm": 4.988517761230469,
	"learning_rate": 1.1634189934327954e-06,
	"loss": 0.3133,
	"num_input_tokens_seen": 54525928,
	"step": 832
	},
	{
	"epoch": 0.9194260485651214,
	"grad_norm": 5.121459484100342,
	"learning_rate": 1.1590581370991758e-06,
	"loss": 0.3411,
	"num_input_tokens_seen": 54591464,
	"step": 833
	},
	{
	"epoch": 0.9205298013245033,
	"grad_norm": 4.2386345863342285,
	"learning_rate": 1.1547552084714394e-06,
	"loss": 0.2751,
	"num_input_tokens_seen": 54657000,
	"step": 834
	},
	{
	"epoch": 0.9216335540838853,
	"grad_norm": 3.978631019592285,
	"learning_rate": 1.1505102649700243e-06,
	"loss": 0.2063,
	"num_input_tokens_seen": 54722536,
	"step": 835
	},
	{
	"epoch": 0.9227373068432672,
	"grad_norm": 5.66132926940918,
	"learning_rate": 1.1463233632415866e-06,
	"loss": 0.4821,
	"num_input_tokens_seen": 54788072,
	"step": 836
	},
	{
	"epoch": 0.9238410596026491,
	"grad_norm": 5.7866692543029785,
	"learning_rate": 1.1421945591582428e-06,
	"loss": 0.4443,
	"num_input_tokens_seen": 54853608,
	"step": 837
	},
	{
	"epoch": 0.9249448123620309,
	"grad_norm": 5.27299690246582,
	"learning_rate": 1.1381239078168262e-06,
	"loss": 0.4269,
	"num_input_tokens_seen": 54919144,
	"step": 838
	},
	{
	"epoch": 0.9260485651214128,
	"grad_norm": 4.533444404602051,
	"learning_rate": 1.1341114635381506e-06,
	"loss": 0.3032,
	"num_input_tokens_seen": 54984680,
	"step": 839
	},
	{
	"epoch": 0.9271523178807947,
	"grad_norm": 7.473748207092285,
	"learning_rate": 1.1301572798662849e-06,
	"loss": 0.6928,
	"num_input_tokens_seen": 55050216,
	"step": 840
	},
	{
	"epoch": 0.9282560706401766,
	"grad_norm": 4.378798007965088,
	"learning_rate": 1.1262614095678395e-06,
	"loss": 0.303,
	"num_input_tokens_seen": 55115752,
	"step": 841
	},
	{
	"epoch": 0.9293598233995585,
	"grad_norm": 5.152125835418701,
	"learning_rate": 1.1224239046312627e-06,
	"loss": 0.5211,
	"num_input_tokens_seen": 55181288,
	"step": 842
	},
	{
	"epoch": 0.9304635761589404,
	"grad_norm": 4.320618152618408,
	"learning_rate": 1.1186448162661444e-06,
	"loss": 0.2154,
	"num_input_tokens_seen": 55246824,
	"step": 843
	},
	{
	"epoch": 0.9315673289183223,
	"grad_norm": 5.254551887512207,
	"learning_rate": 1.1149241949025365e-06,
	"loss": 0.2749,
	"num_input_tokens_seen": 55312360,
	"step": 844
	},
	{
	"epoch": 0.9326710816777042,
	"grad_norm": 5.376104354858398,
	"learning_rate": 1.1112620901902775e-06,
	"loss": 0.4807,
	"num_input_tokens_seen": 55377896,
	"step": 845
	},
	{
	"epoch": 0.9337748344370861,
	"grad_norm": 3.8265469074249268,
	"learning_rate": 1.1076585509983285e-06,
	"loss": 0.2671,
	"num_input_tokens_seen": 55443432,
	"step": 846
	},
	{
	"epoch": 0.934878587196468,
	"grad_norm": 4.158047199249268,
	"learning_rate": 1.104113625414124e-06,
	"loss": 0.2879,
	"num_input_tokens_seen": 55508968,
	"step": 847
	},
	{
	"epoch": 0.9359823399558499,
	"grad_norm": 5.733949661254883,
	"learning_rate": 1.1006273607429305e-06,
	"loss": 0.4776,
	"num_input_tokens_seen": 55574504,
	"step": 848
	},
	{
	"epoch": 0.9370860927152318,
	"grad_norm": 5.860391616821289,
	"learning_rate": 1.0971998035072123e-06,
	"loss": 0.4113,
	"num_input_tokens_seen": 55640040,
	"step": 849
	},
	{
	"epoch": 0.9381898454746137,
	"grad_norm": 4.877603530883789,
	"learning_rate": 1.0938309994460127e-06,
	"loss": 0.3053,
	"num_input_tokens_seen": 55705576,
	"step": 850
	},
	{
	"epoch": 0.9392935982339956,
	"grad_norm": 4.361584663391113,
	"learning_rate": 1.090520993514343e-06,
	"loss": 0.2688,
	"num_input_tokens_seen": 55771112,
	"step": 851
	},
	{
	"epoch": 0.9403973509933775,
	"grad_norm": 4.158669471740723,
	"learning_rate": 1.0872698298825822e-06,
	"loss": 0.2407,
	"num_input_tokens_seen": 55836648,
	"step": 852
	},
	{
	"epoch": 0.9415011037527594,
	"grad_norm": 3.3524842262268066,
	"learning_rate": 1.08407755193589e-06,
	"loss": 0.1298,
	"num_input_tokens_seen": 55902184,
	"step": 853
	},
	{
	"epoch": 0.9426048565121413,
	"grad_norm": 7.272517204284668,
	"learning_rate": 1.0809442022736238e-06,
	"loss": 0.5958,
	"num_input_tokens_seen": 55967720,
	"step": 854
	},
	{
	"epoch": 0.9437086092715232,
	"grad_norm": 4.141610622406006,
	"learning_rate": 1.0778698227087736e-06,
	"loss": 0.2352,
	"num_input_tokens_seen": 56033256,
	"step": 855
	},
	{
	"epoch": 0.9448123620309051,
	"grad_norm": 6.14682674407959,
	"learning_rate": 1.0748544542674028e-06,
	"loss": 0.5763,
	"num_input_tokens_seen": 56098792,
	"step": 856
	},
	{
	"epoch": 0.9459161147902869,
	"grad_norm": 4.349286079406738,
	"learning_rate": 1.0718981371881004e-06,
	"loss": 0.2543,
	"num_input_tokens_seen": 56164328,
	"step": 857
	},
	{
	"epoch": 0.9470198675496688,
	"grad_norm": 5.373385906219482,
	"learning_rate": 1.0690009109214443e-06,
	"loss": 0.3312,
	"num_input_tokens_seen": 56229864,
	"step": 858
	},
	{
	"epoch": 0.9481236203090507,
	"grad_norm": 5.748344421386719,
	"learning_rate": 1.0661628141294758e-06,
	"loss": 0.4741,
	"num_input_tokens_seen": 56295400,
	"step": 859
	},
	{
	"epoch": 0.9492273730684326,
	"grad_norm": 5.545693397521973,
	"learning_rate": 1.0633838846851817e-06,
	"loss": 0.4531,
	"num_input_tokens_seen": 56360936,
	"step": 860
	},
	{
	"epoch": 0.9503311258278145,
	"grad_norm": 5.274410247802734,
	"learning_rate": 1.0606641596719908e-06,
	"loss": 0.3835,
	"num_input_tokens_seen": 56426472,
	"step": 861
	},
	{
	"epoch": 0.9514348785871964,
	"grad_norm": 4.2041826248168945,
	"learning_rate": 1.0580036753832781e-06,
	"loss": 0.2417,
	"num_input_tokens_seen": 56492008,
	"step": 862
	},
	{
	"epoch": 0.9525386313465783,
	"grad_norm": 5.932213306427002,
	"learning_rate": 1.0554024673218808e-06,
	"loss": 0.4734,
	"num_input_tokens_seen": 56557544,
	"step": 863
	},
	{
	"epoch": 0.9536423841059603,
	"grad_norm": 5.501502990722656,
	"learning_rate": 1.0528605701996232e-06,
	"loss": 0.5387,
	"num_input_tokens_seen": 56623080,
	"step": 864
	},
	{
	"epoch": 0.9547461368653422,
	"grad_norm": 4.631185054779053,
	"learning_rate": 1.0503780179368569e-06,
	"loss": 0.3111,
	"num_input_tokens_seen": 56688616,
	"step": 865
	},
	{
	"epoch": 0.9558498896247241,
	"grad_norm": 5.278607368469238,
	"learning_rate": 1.047954843662004e-06,
	"loss": 0.4427,
	"num_input_tokens_seen": 56754152,
	"step": 866
	},
	{
	"epoch": 0.956953642384106,
	"grad_norm": 3.5461151599884033,
	"learning_rate": 1.0455910797111182e-06,
	"loss": 0.1917,
	"num_input_tokens_seen": 56819688,
	"step": 867
	},
	{
	"epoch": 0.9580573951434879,
	"grad_norm": 3.519580125808716,
	"learning_rate": 1.043286757627451e-06,
	"loss": 0.1873,
	"num_input_tokens_seen": 56885224,
	"step": 868
	},
	{
	"epoch": 0.9591611479028698,
	"grad_norm": 6.359206199645996,
	"learning_rate": 1.0410419081610324e-06,
	"loss": 0.5259,
	"num_input_tokens_seen": 56950760,
	"step": 869
	},
	{
	"epoch": 0.9602649006622517,
	"grad_norm": 5.1878557205200195,
	"learning_rate": 1.0388565612682591e-06,
	"loss": 0.3572,
	"num_input_tokens_seen": 57016296,
	"step": 870
	},
	{
	"epoch": 0.9613686534216336,
	"grad_norm": 5.292546272277832,
	"learning_rate": 1.0367307461114976e-06,
	"loss": 0.2851,
	"num_input_tokens_seen": 57081832,
	"step": 871
	},
	{
	"epoch": 0.9624724061810155,
	"grad_norm": 4.41323709487915,
	"learning_rate": 1.0346644910586912e-06,
	"loss": 0.2781,
	"num_input_tokens_seen": 57147368,
	"step": 872
	},
	{
	"epoch": 0.9635761589403974,
	"grad_norm": 5.156498908996582,
	"learning_rate": 1.0326578236829837e-06,
	"loss": 0.378,
	"num_input_tokens_seen": 57212904,
	"step": 873
	},
	{
	"epoch": 0.9646799116997793,
	"grad_norm": 4.593717575073242,
	"learning_rate": 1.0307107707623509e-06,
	"loss": 0.2814,
	"num_input_tokens_seen": 57278440,
	"step": 874
	},
	{
	"epoch": 0.9657836644591612,
	"grad_norm": 4.606041431427002,
	"learning_rate": 1.0288233582792448e-06,
	"loss": 0.3716,
	"num_input_tokens_seen": 57343976,
	"step": 875
	},
	{
	"epoch": 0.9668874172185431,
	"grad_norm": 4.7908124923706055,
	"learning_rate": 1.0269956114202435e-06,
	"loss": 0.3239,
	"num_input_tokens_seen": 57409512,
	"step": 876
	},
	{
	"epoch": 0.9679911699779249,
	"grad_norm": 5.706357002258301,
	"learning_rate": 1.0252275545757185e-06,
	"loss": 0.4617,
	"num_input_tokens_seen": 57475048,
	"step": 877
	},
	{
	"epoch": 0.9690949227373068,
	"grad_norm": 6.367629051208496,
	"learning_rate": 1.0235192113395068e-06,
	"loss": 0.5561,
	"num_input_tokens_seen": 57540584,
	"step": 878
	},
	{
	"epoch": 0.9701986754966887,
	"grad_norm": 4.593899250030518,
	"learning_rate": 1.0218706045085982e-06,
	"loss": 0.2952,
	"num_input_tokens_seen": 57606120,
	"step": 879
	},
	{
	"epoch": 0.9713024282560706,
	"grad_norm": 6.838583946228027,
	"learning_rate": 1.0202817560828287e-06,
	"loss": 0.3793,
	"num_input_tokens_seen": 57671656,
	"step": 880
	},
	{
	"epoch": 0.9724061810154525,
	"grad_norm": 3.928147315979004,
	"learning_rate": 1.0187526872645888e-06,
	"loss": 0.1679,
	"num_input_tokens_seen": 57737192,
	"step": 881
	},
	{
	"epoch": 0.9735099337748344,
	"grad_norm": 4.4882330894470215,
	"learning_rate": 1.0172834184585406e-06,
	"loss": 0.2663,
	"num_input_tokens_seen": 57802728,
	"step": 882
	},
	{
	"epoch": 0.9746136865342163,
	"grad_norm": 3.8216326236724854,
	"learning_rate": 1.0158739692713428e-06,
	"loss": 0.1723,
	"num_input_tokens_seen": 57868264,
	"step": 883
	},
	{
	"epoch": 0.9757174392935982,
	"grad_norm": 4.116147041320801,
	"learning_rate": 1.0145243585113936e-06,
	"loss": 0.1924,
	"num_input_tokens_seen": 57933800,
	"step": 884
	},
	{
	"epoch": 0.9768211920529801,
	"grad_norm": 4.032740592956543,
	"learning_rate": 1.0132346041885756e-06,
	"loss": 0.2267,
	"num_input_tokens_seen": 57999336,
	"step": 885
	},
	{
	"epoch": 0.977924944812362,
	"grad_norm": 6.308236122131348,
	"learning_rate": 1.0120047235140178e-06,
	"loss": 0.4259,
	"num_input_tokens_seen": 58064872,
	"step": 886
	},
	{
	"epoch": 0.9790286975717439,
	"grad_norm": 6.122150421142578,
	"learning_rate": 1.0108347328998642e-06,
	"loss": 0.4391,
	"num_input_tokens_seen": 58130408,
	"step": 887
	},
	{
	"epoch": 0.9801324503311258,
	"grad_norm": 3.8909456729888916,
	"learning_rate": 1.0097246479590569e-06,
	"loss": 0.2207,
	"num_input_tokens_seen": 58195944,
	"step": 888
	},
	{
	"epoch": 0.9812362030905077,
	"grad_norm": 4.869685173034668,
	"learning_rate": 1.008674483505126e-06,
	"loss": 0.3534,
	"num_input_tokens_seen": 58261480,
	"step": 889
	},
	{
	"epoch": 0.9823399558498896,
	"grad_norm": 5.161973476409912,
	"learning_rate": 1.0076842535519936e-06,
	"loss": 0.3576,
	"num_input_tokens_seen": 58327016,
	"step": 890
	},
	{
	"epoch": 0.9834437086092715,
	"grad_norm": 6.185498237609863,
	"learning_rate": 1.0067539713137842e-06,
	"loss": 0.5,
	"num_input_tokens_seen": 58392552,
	"step": 891
	},
	{
	"epoch": 0.9845474613686535,
	"grad_norm": 4.712432384490967,
	"learning_rate": 1.0058836492046506e-06,
	"loss": 0.2778,
	"num_input_tokens_seen": 58458088,
	"step": 892
	},
	{
	"epoch": 0.9856512141280354,
	"grad_norm": 4.5431389808654785,
	"learning_rate": 1.0050732988386082e-06,
	"loss": 0.2725,
	"num_input_tokens_seen": 58523624,
	"step": 893
	},
	{
	"epoch": 0.9867549668874173,
	"grad_norm": 5.538437843322754,
	"learning_rate": 1.0043229310293782e-06,
	"loss": 0.3557,
	"num_input_tokens_seen": 58589160,
	"step": 894
	},
	{
	"epoch": 0.9878587196467992,
	"grad_norm": 5.204857349395752,
	"learning_rate": 1.0036325557902454e-06,
	"loss": 0.3684,
	"num_input_tokens_seen": 58654696,
	"step": 895
	},
	{
	"epoch": 0.9889624724061811,
	"grad_norm": 3.494764804840088,
	"learning_rate": 1.0030021823339229e-06,
	"loss": 0.1827,
	"num_input_tokens_seen": 58720232,
	"step": 896
	},
	{
	"epoch": 0.9900662251655629,
	"grad_norm": 5.376889705657959,
	"learning_rate": 1.0024318190724313e-06,
	"loss": 0.429,
	"num_input_tokens_seen": 58785768,
	"step": 897
	},
	{
	"epoch": 0.9911699779249448,
	"grad_norm": 4.6836838722229,
	"learning_rate": 1.0019214736169832e-06,
	"loss": 0.326,
	"num_input_tokens_seen": 58851304,
	"step": 898
	},
	{
	"epoch": 0.9922737306843267,
	"grad_norm": 4.479922771453857,
	"learning_rate": 1.0014711527778844e-06,
	"loss": 0.2861,
	"num_input_tokens_seen": 58916840,
	"step": 899
	},
	{
	"epoch": 0.9933774834437086,
	"grad_norm": 4.647156715393066,
	"learning_rate": 1.0010808625644427e-06,
	"loss": 0.3314,
	"num_input_tokens_seen": 58982376,
	"step": 900
	},
	{
	"epoch": 0.9944812362030905,
	"grad_norm": 6.767654895782471,
	"learning_rate": 1.000750608184886e-06,
	"loss": 0.5011,
	"num_input_tokens_seen": 59047912,
	"step": 901
	},
	{
	"epoch": 0.9955849889624724,
	"grad_norm": 4.77541446685791,
	"learning_rate": 1.0004803940462948e-06,
	"loss": 0.2887,
	"num_input_tokens_seen": 59113448,
	"step": 902
	},
	{
	"epoch": 0.9966887417218543,
	"grad_norm": 4.733397483825684,
	"learning_rate": 1.0002702237545419e-06,
	"loss": 0.2941,
	"num_input_tokens_seen": 59178984,
	"step": 903
	},
	{
	"epoch": 0.9977924944812362,
	"grad_norm": 4.308443069458008,
	"learning_rate": 1.0001201001142449e-06,
	"loss": 0.2109,
	"num_input_tokens_seen": 59244520,
	"step": 904
	},
	{
	"epoch": 0.9988962472406181,
	"grad_norm": 5.600368022918701,
	"learning_rate": 1.000030025128729e-06,
	"loss": 0.3868,
	"num_input_tokens_seen": 59310056,
	"step": 905
	},
	{
	"epoch": 1.0,
	"grad_norm": 5.8607497215271,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.4341,
	"num_input_tokens_seen": 59375592,
	"step": 906
	},
	{
	"epoch": 1.0,
	"num_input_tokens_seen": 59375592,
	"step": 906,
	"total_flos": 6.684140179701105e+17,
	"train_loss": 0.4684678308715094,
	"train_runtime": 15557.945,
	"train_samples_per_second": 0.233,
	"train_steps_per_second": 0.058
	}
	],
	"logging_steps": 1.0,
	"max_steps": 906,
	"num_input_tokens_seen": 59375592,
	"num_train_epochs": 1,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 6.684140179701105e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}