8b-zuckqa-TTTTS / trainer_state.json

Update model

bbc6717 verified 25 days ago

201 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 1250,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0008,
	"grad_norm": 5.9686970710754395,
	"learning_rate": 4.9999921043206356e-06,
	"loss": 6.1536,
	"step": 1
	},
	{
	"epoch": 0.0016,
	"grad_norm": 5.313859462738037,
	"learning_rate": 4.999968417332415e-06,
	"loss": 1.8192,
	"step": 2
	},
	{
	"epoch": 0.0024,
	"grad_norm": 3.8611130714416504,
	"learning_rate": 4.999928939184958e-06,
	"loss": 5.7147,
	"step": 3
	},
	{
	"epoch": 0.0032,
	"grad_norm": 8.215139389038086,
	"learning_rate": 4.99987367012763e-06,
	"loss": 1.9633,
	"step": 4
	},
	{
	"epoch": 0.004,
	"grad_norm": 2.859307050704956,
	"learning_rate": 4.999802610509541e-06,
	"loss": 5.4413,
	"step": 5
	},
	{
	"epoch": 0.0048,
	"grad_norm": 10.999748229980469,
	"learning_rate": 4.999715760779541e-06,
	"loss": 1.9931,
	"step": 6
	},
	{
	"epoch": 0.0056,
	"grad_norm": 2.5857369899749756,
	"learning_rate": 4.999613121486222e-06,
	"loss": 5.2138,
	"step": 7
	},
	{
	"epoch": 0.0064,
	"grad_norm": 4.739017009735107,
	"learning_rate": 4.9994946932779076e-06,
	"loss": 1.5203,
	"step": 8
	},
	{
	"epoch": 0.0072,
	"grad_norm": 2.03410267829895,
	"learning_rate": 4.999360476902656e-06,
	"loss": 5.1349,
	"step": 9
	},
	{
	"epoch": 0.008,
	"grad_norm": 4.154623508453369,
	"learning_rate": 4.99921047320825e-06,
	"loss": 1.6121,
	"step": 10
	},
	{
	"epoch": 0.0088,
	"grad_norm": 1.8263472318649292,
	"learning_rate": 4.999044683142196e-06,
	"loss": 4.9737,
	"step": 11
	},
	{
	"epoch": 0.0096,
	"grad_norm": 4.39143705368042,
	"learning_rate": 4.998863107751711e-06,
	"loss": 1.4866,
	"step": 12
	},
	{
	"epoch": 0.0104,
	"grad_norm": 1.6841758489608765,
	"learning_rate": 4.998665748183727e-06,
	"loss": 5.0078,
	"step": 13
	},
	{
	"epoch": 0.0112,
	"grad_norm": 4.099013805389404,
	"learning_rate": 4.998452605684874e-06,
	"loss": 1.6304,
	"step": 14
	},
	{
	"epoch": 0.012,
	"grad_norm": 1.6769129037857056,
	"learning_rate": 4.9982236816014735e-06,
	"loss": 4.8359,
	"step": 15
	},
	{
	"epoch": 0.0128,
	"grad_norm": 3.6601269245147705,
	"learning_rate": 4.9979789773795365e-06,
	"loss": 1.6408,
	"step": 16
	},
	{
	"epoch": 0.0136,
	"grad_norm": 1.6234138011932373,
	"learning_rate": 4.997718494564747e-06,
	"loss": 4.9268,
	"step": 17
	},
	{
	"epoch": 0.0144,
	"grad_norm": 4.540709018707275,
	"learning_rate": 4.9974422348024565e-06,
	"loss": 1.4653,
	"step": 18
	},
	{
	"epoch": 0.0152,
	"grad_norm": 2.201477527618408,
	"learning_rate": 4.997150199837671e-06,
	"loss": 4.8255,
	"step": 19
	},
	{
	"epoch": 0.016,
	"grad_norm": 3.3589704036712646,
	"learning_rate": 4.996842391515045e-06,
	"loss": 1.3599,
	"step": 20
	},
	{
	"epoch": 0.0168,
	"grad_norm": 1.7828714847564697,
	"learning_rate": 4.996518811778858e-06,
	"loss": 4.7924,
	"step": 21
	},
	{
	"epoch": 0.0176,
	"grad_norm": 4.722200870513916,
	"learning_rate": 4.99617946267302e-06,
	"loss": 1.8165,
	"step": 22
	},
	{
	"epoch": 0.0184,
	"grad_norm": 1.5609182119369507,
	"learning_rate": 4.995824346341041e-06,
	"loss": 4.8322,
	"step": 23
	},
	{
	"epoch": 0.0192,
	"grad_norm": 3.8967134952545166,
	"learning_rate": 4.995453465026033e-06,
	"loss": 1.49,
	"step": 24
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.199491024017334,
	"learning_rate": 4.9950668210706795e-06,
	"loss": 4.6516,
	"step": 25
	},
	{
	"epoch": 0.0208,
	"grad_norm": 4.164550304412842,
	"learning_rate": 4.994664416917236e-06,
	"loss": 1.3359,
	"step": 26
	},
	{
	"epoch": 0.0216,
	"grad_norm": 1.9813035726547241,
	"learning_rate": 4.994246255107506e-06,
	"loss": 4.6697,
	"step": 27
	},
	{
	"epoch": 0.0224,
	"grad_norm": 5.564512729644775,
	"learning_rate": 4.993812338282826e-06,
	"loss": 1.6348,
	"step": 28
	},
	{
	"epoch": 0.0232,
	"grad_norm": 2.7316086292266846,
	"learning_rate": 4.993362669184051e-06,
	"loss": 4.4999,
	"step": 29
	},
	{
	"epoch": 0.024,
	"grad_norm": 4.501605987548828,
	"learning_rate": 4.992897250651535e-06,
	"loss": 1.4643,
	"step": 30
	},
	{
	"epoch": 0.0248,
	"grad_norm": 1.8927552700042725,
	"learning_rate": 4.992416085625115e-06,
	"loss": 4.7085,
	"step": 31
	},
	{
	"epoch": 0.0256,
	"grad_norm": 4.785287380218506,
	"learning_rate": 4.9919191771440905e-06,
	"loss": 1.3398,
	"step": 32
	},
	{
	"epoch": 0.0264,
	"grad_norm": 2.4881515502929688,
	"learning_rate": 4.991406528347206e-06,
	"loss": 4.5912,
	"step": 33
	},
	{
	"epoch": 0.0272,
	"grad_norm": 4.189312934875488,
	"learning_rate": 4.990878142472628e-06,
	"loss": 1.4647,
	"step": 34
	},
	{
	"epoch": 0.028,
	"grad_norm": 2.654892921447754,
	"learning_rate": 4.990334022857932e-06,
	"loss": 4.4038,
	"step": 35
	},
	{
	"epoch": 0.0288,
	"grad_norm": 5.841195583343506,
	"learning_rate": 4.989774172940071e-06,
	"loss": 1.5347,
	"step": 36
	},
	{
	"epoch": 0.0296,
	"grad_norm": 3.269841432571411,
	"learning_rate": 4.989198596255361e-06,
	"loss": 4.4978,
	"step": 37
	},
	{
	"epoch": 0.0304,
	"grad_norm": 3.6912543773651123,
	"learning_rate": 4.988607296439459e-06,
	"loss": 1.3615,
	"step": 38
	},
	{
	"epoch": 0.0312,
	"grad_norm": 3.773468255996704,
	"learning_rate": 4.988000277227334e-06,
	"loss": 4.4462,
	"step": 39
	},
	{
	"epoch": 0.032,
	"grad_norm": 4.216678142547607,
	"learning_rate": 4.9873775424532515e-06,
	"loss": 1.3803,
	"step": 40
	},
	{
	"epoch": 0.0328,
	"grad_norm": 4.231056213378906,
	"learning_rate": 4.98673909605074e-06,
	"loss": 4.4349,
	"step": 41
	},
	{
	"epoch": 0.0336,
	"grad_norm": 4.05332088470459,
	"learning_rate": 4.986084942052577e-06,
	"loss": 1.3321,
	"step": 42
	},
	{
	"epoch": 0.0344,
	"grad_norm": 3.9502322673797607,
	"learning_rate": 4.985415084590752e-06,
	"loss": 4.2693,
	"step": 43
	},
	{
	"epoch": 0.0352,
	"grad_norm": 8.568007469177246,
	"learning_rate": 4.984729527896451e-06,
	"loss": 1.6135,
	"step": 44
	},
	{
	"epoch": 0.036,
	"grad_norm": 4.460508346557617,
	"learning_rate": 4.984028276300021e-06,
	"loss": 4.4412,
	"step": 45
	},
	{
	"epoch": 0.0368,
	"grad_norm": 7.591355323791504,
	"learning_rate": 4.9833113342309495e-06,
	"loss": 1.6569,
	"step": 46
	},
	{
	"epoch": 0.0376,
	"grad_norm": 5.810396194458008,
	"learning_rate": 4.9825787062178315e-06,
	"loss": 4.1632,
	"step": 47
	},
	{
	"epoch": 0.0384,
	"grad_norm": 10.894949913024902,
	"learning_rate": 4.9818303968883445e-06,
	"loss": 1.6721,
	"step": 48
	},
	{
	"epoch": 0.0392,
	"grad_norm": 4.217193126678467,
	"learning_rate": 4.981066410969215e-06,
	"loss": 4.1738,
	"step": 49
	},
	{
	"epoch": 0.04,
	"grad_norm": 8.75684642791748,
	"learning_rate": 4.980286753286196e-06,
	"loss": 1.3856,
	"step": 50
	},
	{
	"epoch": 0.0408,
	"grad_norm": 3.8983495235443115,
	"learning_rate": 4.9794914287640264e-06,
	"loss": 4.0982,
	"step": 51
	},
	{
	"epoch": 0.0416,
	"grad_norm": 6.7597527503967285,
	"learning_rate": 4.978680442426409e-06,
	"loss": 1.4406,
	"step": 52
	},
	{
	"epoch": 0.0424,
	"grad_norm": 5.493980407714844,
	"learning_rate": 4.977853799395976e-06,
	"loss": 4.3028,
	"step": 53
	},
	{
	"epoch": 0.0432,
	"grad_norm": 7.1781487464904785,
	"learning_rate": 4.977011504894253e-06,
	"loss": 1.4716,
	"step": 54
	},
	{
	"epoch": 0.044,
	"grad_norm": 4.196126937866211,
	"learning_rate": 4.9761535642416284e-06,
	"loss": 4.1292,
	"step": 55
	},
	{
	"epoch": 0.0448,
	"grad_norm": 7.720696926116943,
	"learning_rate": 4.975279982857324e-06,
	"loss": 1.5968,
	"step": 56
	},
	{
	"epoch": 0.0456,
	"grad_norm": 1.6588771343231201,
	"learning_rate": 4.974390766259353e-06,
	"loss": 4.2463,
	"step": 57
	},
	{
	"epoch": 0.0464,
	"grad_norm": 10.156800270080566,
	"learning_rate": 4.973485920064491e-06,
	"loss": 1.4834,
	"step": 58
	},
	{
	"epoch": 0.0472,
	"grad_norm": 1.59371018409729,
	"learning_rate": 4.972565449988238e-06,
	"loss": 4.0996,
	"step": 59
	},
	{
	"epoch": 0.048,
	"grad_norm": 8.833647727966309,
	"learning_rate": 4.971629361844785e-06,
	"loss": 1.6226,
	"step": 60
	},
	{
	"epoch": 0.0488,
	"grad_norm": 1.8904303312301636,
	"learning_rate": 4.970677661546972e-06,
	"loss": 4.1373,
	"step": 61
	},
	{
	"epoch": 0.0496,
	"grad_norm": 7.343002796173096,
	"learning_rate": 4.969710355106256e-06,
	"loss": 1.5989,
	"step": 62
	},
	{
	"epoch": 0.0504,
	"grad_norm": 1.5326752662658691,
	"learning_rate": 4.968727448632669e-06,
	"loss": 4.067,
	"step": 63
	},
	{
	"epoch": 0.0512,
	"grad_norm": 5.595536708831787,
	"learning_rate": 4.967728948334784e-06,
	"loss": 1.515,
	"step": 64
	},
	{
	"epoch": 0.052,
	"grad_norm": 2.240656852722168,
	"learning_rate": 4.96671486051967e-06,
	"loss": 3.9452,
	"step": 65
	},
	{
	"epoch": 0.0528,
	"grad_norm": 8.656717300415039,
	"learning_rate": 4.965685191592859e-06,
	"loss": 1.7592,
	"step": 66
	},
	{
	"epoch": 0.0536,
	"grad_norm": 1.6276272535324097,
	"learning_rate": 4.964639948058297e-06,
	"loss": 3.9894,
	"step": 67
	},
	{
	"epoch": 0.0544,
	"grad_norm": 5.7422075271606445,
	"learning_rate": 4.963579136518312e-06,
	"loss": 1.5689,
	"step": 68
	},
	{
	"epoch": 0.0552,
	"grad_norm": 1.9765911102294922,
	"learning_rate": 4.962502763673566e-06,
	"loss": 4.0761,
	"step": 69
	},
	{
	"epoch": 0.056,
	"grad_norm": 6.2184224128723145,
	"learning_rate": 4.961410836323014e-06,
	"loss": 1.5643,
	"step": 70
	},
	{
	"epoch": 0.0568,
	"grad_norm": 1.7013366222381592,
	"learning_rate": 4.960303361363863e-06,
	"loss": 3.9535,
	"step": 71
	},
	{
	"epoch": 0.0576,
	"grad_norm": 5.7151713371276855,
	"learning_rate": 4.959180345791528e-06,
	"loss": 1.3778,
	"step": 72
	},
	{
	"epoch": 0.0584,
	"grad_norm": 2.092637777328491,
	"learning_rate": 4.958041796699583e-06,
	"loss": 4.043,
	"step": 73
	},
	{
	"epoch": 0.0592,
	"grad_norm": 6.953094482421875,
	"learning_rate": 4.956887721279726e-06,
	"loss": 1.4149,
	"step": 74
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.5431764125823975,
	"learning_rate": 4.9557181268217225e-06,
	"loss": 4.1433,
	"step": 75
	},
	{
	"epoch": 0.0608,
	"grad_norm": 5.6638665199279785,
	"learning_rate": 4.954533020713367e-06,
	"loss": 1.3123,
	"step": 76
	},
	{
	"epoch": 0.0616,
	"grad_norm": 2.033217668533325,
	"learning_rate": 4.953332410440434e-06,
	"loss": 4.12,
	"step": 77
	},
	{
	"epoch": 0.0624,
	"grad_norm": 5.832539081573486,
	"learning_rate": 4.952116303586631e-06,
	"loss": 1.4276,
	"step": 78
	},
	{
	"epoch": 0.0632,
	"grad_norm": 1.4119787216186523,
	"learning_rate": 4.95088470783355e-06,
	"loss": 3.9499,
	"step": 79
	},
	{
	"epoch": 0.064,
	"grad_norm": 5.931257247924805,
	"learning_rate": 4.949637630960618e-06,
	"loss": 1.5232,
	"step": 80
	},
	{
	"epoch": 0.0648,
	"grad_norm": 1.5532656908035278,
	"learning_rate": 4.94837508084505e-06,
	"loss": 3.9162,
	"step": 81
	},
	{
	"epoch": 0.0656,
	"grad_norm": 5.160223007202148,
	"learning_rate": 4.947097065461801e-06,
	"loss": 1.7749,
	"step": 82
	},
	{
	"epoch": 0.0664,
	"grad_norm": 1.274683952331543,
	"learning_rate": 4.945803592883509e-06,
	"loss": 3.9429,
	"step": 83
	},
	{
	"epoch": 0.0672,
	"grad_norm": 4.50646448135376,
	"learning_rate": 4.94449467128045e-06,
	"loss": 1.3428,
	"step": 84
	},
	{
	"epoch": 0.068,
	"grad_norm": 2.7638394832611084,
	"learning_rate": 4.943170308920484e-06,
	"loss": 4.0664,
	"step": 85
	},
	{
	"epoch": 0.0688,
	"grad_norm": 5.305659770965576,
	"learning_rate": 4.9418305141690045e-06,
	"loss": 1.6382,
	"step": 86
	},
	{
	"epoch": 0.0696,
	"grad_norm": 1.672782301902771,
	"learning_rate": 4.940475295488882e-06,
	"loss": 3.9736,
	"step": 87
	},
	{
	"epoch": 0.0704,
	"grad_norm": 4.357553482055664,
	"learning_rate": 4.939104661440415e-06,
	"loss": 1.2025,
	"step": 88
	},
	{
	"epoch": 0.0712,
	"grad_norm": 1.9459145069122314,
	"learning_rate": 4.937718620681273e-06,
	"loss": 3.8823,
	"step": 89
	},
	{
	"epoch": 0.072,
	"grad_norm": 4.6320085525512695,
	"learning_rate": 4.9363171819664434e-06,
	"loss": 1.4891,
	"step": 90
	},
	{
	"epoch": 0.0728,
	"grad_norm": 1.9804147481918335,
	"learning_rate": 4.934900354148173e-06,
	"loss": 3.673,
	"step": 91
	},
	{
	"epoch": 0.0736,
	"grad_norm": 5.650574684143066,
	"learning_rate": 4.933468146175918e-06,
	"loss": 1.6462,
	"step": 92
	},
	{
	"epoch": 0.0744,
	"grad_norm": 2.002102851867676,
	"learning_rate": 4.9320205670962815e-06,
	"loss": 3.9996,
	"step": 93
	},
	{
	"epoch": 0.0752,
	"grad_norm": 5.602189540863037,
	"learning_rate": 4.930557626052961e-06,
	"loss": 1.57,
	"step": 94
	},
	{
	"epoch": 0.076,
	"grad_norm": 1.618115782737732,
	"learning_rate": 4.929079332286685e-06,
	"loss": 3.9771,
	"step": 95
	},
	{
	"epoch": 0.0768,
	"grad_norm": 4.976815223693848,
	"learning_rate": 4.927585695135162e-06,
	"loss": 1.3109,
	"step": 96
	},
	{
	"epoch": 0.0776,
	"grad_norm": 1.5383416414260864,
	"learning_rate": 4.926076724033016e-06,
	"loss": 3.943,
	"step": 97
	},
	{
	"epoch": 0.0784,
	"grad_norm": 5.538623809814453,
	"learning_rate": 4.924552428511727e-06,
	"loss": 1.5928,
	"step": 98
	},
	{
	"epoch": 0.0792,
	"grad_norm": 1.1636689901351929,
	"learning_rate": 4.923012818199576e-06,
	"loss": 3.9089,
	"step": 99
	},
	{
	"epoch": 0.08,
	"grad_norm": 5.035048484802246,
	"learning_rate": 4.921457902821578e-06,
	"loss": 1.709,
	"step": 100
	},
	{
	"epoch": 0.0808,
	"grad_norm": 1.3163026571273804,
	"learning_rate": 4.919887692199423e-06,
	"loss": 3.9234,
	"step": 101
	},
	{
	"epoch": 0.0816,
	"grad_norm": 4.93280029296875,
	"learning_rate": 4.9183021962514145e-06,
	"loss": 1.4215,
	"step": 102
	},
	{
	"epoch": 0.0824,
	"grad_norm": 2.1531784534454346,
	"learning_rate": 4.9167014249924075e-06,
	"loss": 3.8196,
	"step": 103
	},
	{
	"epoch": 0.0832,
	"grad_norm": 4.800553798675537,
	"learning_rate": 4.915085388533743e-06,
	"loss": 1.573,
	"step": 104
	},
	{
	"epoch": 0.084,
	"grad_norm": 1.383305311203003,
	"learning_rate": 4.913454097083185e-06,
	"loss": 3.9708,
	"step": 105
	},
	{
	"epoch": 0.0848,
	"grad_norm": 4.389811038970947,
	"learning_rate": 4.911807560944858e-06,
	"loss": 1.3961,
	"step": 106
	},
	{
	"epoch": 0.0856,
	"grad_norm": 1.5299296379089355,
	"learning_rate": 4.910145790519177e-06,
	"loss": 3.8796,
	"step": 107
	},
	{
	"epoch": 0.0864,
	"grad_norm": 5.052987575531006,
	"learning_rate": 4.90846879630279e-06,
	"loss": 1.3103,
	"step": 108
	},
	{
	"epoch": 0.0872,
	"grad_norm": 1.417496919631958,
	"learning_rate": 4.906776588888502e-06,
	"loss": 3.9388,
	"step": 109
	},
	{
	"epoch": 0.088,
	"grad_norm": 4.012498378753662,
	"learning_rate": 4.905069178965215e-06,
	"loss": 1.1366,
	"step": 110
	},
	{
	"epoch": 0.0888,
	"grad_norm": 1.2801809310913086,
	"learning_rate": 4.903346577317859e-06,
	"loss": 3.872,
	"step": 111
	},
	{
	"epoch": 0.0896,
	"grad_norm": 5.76353120803833,
	"learning_rate": 4.901608794827321e-06,
	"loss": 1.5188,
	"step": 112
	},
	{
	"epoch": 0.0904,
	"grad_norm": 1.5510302782058716,
	"learning_rate": 4.89985584247038e-06,
	"loss": 3.807,
	"step": 113
	},
	{
	"epoch": 0.0912,
	"grad_norm": 4.934327125549316,
	"learning_rate": 4.898087731319637e-06,
	"loss": 1.6052,
	"step": 114
	},
	{
	"epoch": 0.092,
	"grad_norm": 1.849161982536316,
	"learning_rate": 4.89630447254344e-06,
	"loss": 3.8367,
	"step": 115
	},
	{
	"epoch": 0.0928,
	"grad_norm": 5.75076150894165,
	"learning_rate": 4.894506077405824e-06,
	"loss": 1.6729,
	"step": 116
	},
	{
	"epoch": 0.0936,
	"grad_norm": 1.3285000324249268,
	"learning_rate": 4.892692557266429e-06,
	"loss": 3.9178,
	"step": 117
	},
	{
	"epoch": 0.0944,
	"grad_norm": 5.176731586456299,
	"learning_rate": 4.8908639235804324e-06,
	"loss": 1.3498,
	"step": 118
	},
	{
	"epoch": 0.0952,
	"grad_norm": 2.258445978164673,
	"learning_rate": 4.88902018789848e-06,
	"loss": 3.9289,
	"step": 119
	},
	{
	"epoch": 0.096,
	"grad_norm": 4.080480575561523,
	"learning_rate": 4.887161361866608e-06,
	"loss": 1.2727,
	"step": 120
	},
	{
	"epoch": 0.0968,
	"grad_norm": 1.3605031967163086,
	"learning_rate": 4.8852874572261715e-06,
	"loss": 3.8425,
	"step": 121
	},
	{
	"epoch": 0.0976,
	"grad_norm": 4.4306135177612305,
	"learning_rate": 4.883398485813772e-06,
	"loss": 1.4429,
	"step": 122
	},
	{
	"epoch": 0.0984,
	"grad_norm": 1.9310946464538574,
	"learning_rate": 4.881494459561177e-06,
	"loss": 3.7989,
	"step": 123
	},
	{
	"epoch": 0.0992,
	"grad_norm": 5.516058444976807,
	"learning_rate": 4.879575390495254e-06,
	"loss": 1.6466,
	"step": 124
	},
	{
	"epoch": 0.1,
	"grad_norm": 1.665083646774292,
	"learning_rate": 4.8776412907378845e-06,
	"loss": 3.7725,
	"step": 125
	},
	{
	"epoch": 0.1008,
	"grad_norm": 5.122972011566162,
	"learning_rate": 4.8756921725058935e-06,
	"loss": 1.4164,
	"step": 126
	},
	{
	"epoch": 0.1016,
	"grad_norm": 1.7785176038742065,
	"learning_rate": 4.873728048110973e-06,
	"loss": 3.8428,
	"step": 127
	},
	{
	"epoch": 0.1024,
	"grad_norm": 4.19711446762085,
	"learning_rate": 4.871748929959598e-06,
	"loss": 1.4346,
	"step": 128
	},
	{
	"epoch": 0.1032,
	"grad_norm": 1.5167326927185059,
	"learning_rate": 4.869754830552956e-06,
	"loss": 3.7787,
	"step": 129
	},
	{
	"epoch": 0.104,
	"grad_norm": 4.343649387359619,
	"learning_rate": 4.867745762486862e-06,
	"loss": 1.4161,
	"step": 130
	},
	{
	"epoch": 0.1048,
	"grad_norm": 1.7682503461837769,
	"learning_rate": 4.86572173845168e-06,
	"loss": 3.7656,
	"step": 131
	},
	{
	"epoch": 0.1056,
	"grad_norm": 5.387735843658447,
	"learning_rate": 4.863682771232249e-06,
	"loss": 1.5529,
	"step": 132
	},
	{
	"epoch": 0.1064,
	"grad_norm": 1.6323776245117188,
	"learning_rate": 4.861628873707792e-06,
	"loss": 3.7581,
	"step": 133
	},
	{
	"epoch": 0.1072,
	"grad_norm": 4.973332405090332,
	"learning_rate": 4.859560058851844e-06,
	"loss": 1.3401,
	"step": 134
	},
	{
	"epoch": 0.108,
	"grad_norm": 2.288790464401245,
	"learning_rate": 4.857476339732162e-06,
	"loss": 3.5462,
	"step": 135
	},
	{
	"epoch": 0.1088,
	"grad_norm": 4.954509735107422,
	"learning_rate": 4.855377729510648e-06,
	"loss": 1.4214,
	"step": 136
	},
	{
	"epoch": 0.1096,
	"grad_norm": 1.466504693031311,
	"learning_rate": 4.8532642414432675e-06,
	"loss": 3.7383,
	"step": 137
	},
	{
	"epoch": 0.1104,
	"grad_norm": 4.507660865783691,
	"learning_rate": 4.851135888879958e-06,
	"loss": 1.429,
	"step": 138
	},
	{
	"epoch": 0.1112,
	"grad_norm": 1.4335397481918335,
	"learning_rate": 4.8489926852645505e-06,
	"loss": 3.8185,
	"step": 139
	},
	{
	"epoch": 0.112,
	"grad_norm": 5.188979148864746,
	"learning_rate": 4.846834644134686e-06,
	"loss": 1.288,
	"step": 140
	},
	{
	"epoch": 0.1128,
	"grad_norm": 1.4267185926437378,
	"learning_rate": 4.844661779121723e-06,
	"loss": 3.7755,
	"step": 141
	},
	{
	"epoch": 0.1136,
	"grad_norm": 4.5999555587768555,
	"learning_rate": 4.842474103950658e-06,
	"loss": 1.4337,
	"step": 142
	},
	{
	"epoch": 0.1144,
	"grad_norm": 1.5960358381271362,
	"learning_rate": 4.8402716324400375e-06,
	"loss": 3.8674,
	"step": 143
	},
	{
	"epoch": 0.1152,
	"grad_norm": 4.50584077835083,
	"learning_rate": 4.838054378501868e-06,
	"loss": 1.4054,
	"step": 144
	},
	{
	"epoch": 0.116,
	"grad_norm": 2.3714451789855957,
	"learning_rate": 4.8358223561415304e-06,
	"loss": 3.6878,
	"step": 145
	},
	{
	"epoch": 0.1168,
	"grad_norm": 4.409125328063965,
	"learning_rate": 4.833575579457691e-06,
	"loss": 1.4443,
	"step": 146
	},
	{
	"epoch": 0.1176,
	"grad_norm": 1.876566767692566,
	"learning_rate": 4.831314062642213e-06,
	"loss": 3.9204,
	"step": 147
	},
	{
	"epoch": 0.1184,
	"grad_norm": 4.678242206573486,
	"learning_rate": 4.829037819980065e-06,
	"loss": 1.3475,
	"step": 148
	},
	{
	"epoch": 0.1192,
	"grad_norm": 1.5604186058044434,
	"learning_rate": 4.8267468658492335e-06,
	"loss": 3.8065,
	"step": 149
	},
	{
	"epoch": 0.12,
	"grad_norm": 4.738994598388672,
	"learning_rate": 4.824441214720629e-06,
	"loss": 1.2868,
	"step": 150
	},
	{
	"epoch": 0.1208,
	"grad_norm": 1.2587168216705322,
	"learning_rate": 4.822120881157998e-06,
	"loss": 3.8178,
	"step": 151
	},
	{
	"epoch": 0.1216,
	"grad_norm": 4.9535298347473145,
	"learning_rate": 4.819785879817827e-06,
	"loss": 1.4865,
	"step": 152
	},
	{
	"epoch": 0.1224,
	"grad_norm": 1.3460506200790405,
	"learning_rate": 4.8174362254492555e-06,
	"loss": 3.7509,
	"step": 153
	},
	{
	"epoch": 0.1232,
	"grad_norm": 6.2948832511901855,
	"learning_rate": 4.815071932893976e-06,
	"loss": 1.6562,
	"step": 154
	},
	{
	"epoch": 0.124,
	"grad_norm": 1.2623156309127808,
	"learning_rate": 4.812693017086145e-06,
	"loss": 3.7352,
	"step": 155
	},
	{
	"epoch": 0.1248,
	"grad_norm": 4.746945858001709,
	"learning_rate": 4.810299493052289e-06,
	"loss": 1.4701,
	"step": 156
	},
	{
	"epoch": 0.1256,
	"grad_norm": 1.41659414768219,
	"learning_rate": 4.807891375911207e-06,
	"loss": 3.7158,
	"step": 157
	},
	{
	"epoch": 0.1264,
	"grad_norm": 5.151709079742432,
	"learning_rate": 4.805468680873874e-06,
	"loss": 1.5235,
	"step": 158
	},
	{
	"epoch": 0.1272,
	"grad_norm": 1.1390382051467896,
	"learning_rate": 4.803031423243349e-06,
	"loss": 3.7685,
	"step": 159
	},
	{
	"epoch": 0.128,
	"grad_norm": 4.6451802253723145,
	"learning_rate": 4.800579618414677e-06,
	"loss": 1.3374,
	"step": 160
	},
	{
	"epoch": 0.1288,
	"grad_norm": 2.0730605125427246,
	"learning_rate": 4.798113281874788e-06,
	"loss": 3.7551,
	"step": 161
	},
	{
	"epoch": 0.1296,
	"grad_norm": 4.244422435760498,
	"learning_rate": 4.7956324292024045e-06,
	"loss": 1.4507,
	"step": 162
	},
	{
	"epoch": 0.1304,
	"grad_norm": 1.437325119972229,
	"learning_rate": 4.7931370760679415e-06,
	"loss": 3.8459,
	"step": 163
	},
	{
	"epoch": 0.1312,
	"grad_norm": 4.308803558349609,
	"learning_rate": 4.790627238233405e-06,
	"loss": 1.4397,
	"step": 164
	},
	{
	"epoch": 0.132,
	"grad_norm": 1.3514691591262817,
	"learning_rate": 4.788102931552294e-06,
	"loss": 3.7826,
	"step": 165
	},
	{
	"epoch": 0.1328,
	"grad_norm": 4.431159973144531,
	"learning_rate": 4.785564171969503e-06,
	"loss": 1.3688,
	"step": 166
	},
	{
	"epoch": 0.1336,
	"grad_norm": 1.9444341659545898,
	"learning_rate": 4.783010975521216e-06,
	"loss": 3.786,
	"step": 167
	},
	{
	"epoch": 0.1344,
	"grad_norm": 4.421632289886475,
	"learning_rate": 4.78044335833481e-06,
	"loss": 1.3799,
	"step": 168
	},
	{
	"epoch": 0.1352,
	"grad_norm": 1.30320143699646,
	"learning_rate": 4.777861336628751e-06,
	"loss": 3.7414,
	"step": 169
	},
	{
	"epoch": 0.136,
	"grad_norm": 4.836937427520752,
	"learning_rate": 4.775264926712489e-06,
	"loss": 1.3762,
	"step": 170
	},
	{
	"epoch": 0.1368,
	"grad_norm": 1.720489501953125,
	"learning_rate": 4.772654144986364e-06,
	"loss": 3.7693,
	"step": 171
	},
	{
	"epoch": 0.1376,
	"grad_norm": 4.573201656341553,
	"learning_rate": 4.77002900794149e-06,
	"loss": 1.4831,
	"step": 172
	},
	{
	"epoch": 0.1384,
	"grad_norm": 1.4767590761184692,
	"learning_rate": 4.767389532159659e-06,
	"loss": 3.7936,
	"step": 173
	},
	{
	"epoch": 0.1392,
	"grad_norm": 4.3813090324401855,
	"learning_rate": 4.764735734313236e-06,
	"loss": 1.3468,
	"step": 174
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.5614203214645386,
	"learning_rate": 4.762067631165049e-06,
	"loss": 3.8268,
	"step": 175
	},
	{
	"epoch": 0.1408,
	"grad_norm": 4.7881317138671875,
	"learning_rate": 4.75938523956829e-06,
	"loss": 1.6201,
	"step": 176
	},
	{
	"epoch": 0.1416,
	"grad_norm": 1.2957278490066528,
	"learning_rate": 4.756688576466398e-06,
	"loss": 3.7073,
	"step": 177
	},
	{
	"epoch": 0.1424,
	"grad_norm": 4.188969612121582,
	"learning_rate": 4.753977658892967e-06,
	"loss": 1.4572,
	"step": 178
	},
	{
	"epoch": 0.1432,
	"grad_norm": 2.046276330947876,
	"learning_rate": 4.751252503971624e-06,
	"loss": 3.6809,
	"step": 179
	},
	{
	"epoch": 0.144,
	"grad_norm": 4.05677604675293,
	"learning_rate": 4.748513128915928e-06,
	"loss": 1.3311,
	"step": 180
	},
	{
	"epoch": 0.1448,
	"grad_norm": 1.2244303226470947,
	"learning_rate": 4.7457595510292615e-06,
	"loss": 3.8316,
	"step": 181
	},
	{
	"epoch": 0.1456,
	"grad_norm": 4.775726795196533,
	"learning_rate": 4.74299178770472e-06,
	"loss": 1.5603,
	"step": 182
	},
	{
	"epoch": 0.1464,
	"grad_norm": 1.41436767578125,
	"learning_rate": 4.740209856424998e-06,
	"loss": 3.7105,
	"step": 183
	},
	{
	"epoch": 0.1472,
	"grad_norm": 5.448317527770996,
	"learning_rate": 4.737413774762287e-06,
	"loss": 1.2361,
	"step": 184
	},
	{
	"epoch": 0.148,
	"grad_norm": 1.222730040550232,
	"learning_rate": 4.73460356037816e-06,
	"loss": 3.8072,
	"step": 185
	},
	{
	"epoch": 0.1488,
	"grad_norm": 4.413971900939941,
	"learning_rate": 4.731779231023456e-06,
	"loss": 1.6303,
	"step": 186
	},
	{
	"epoch": 0.1496,
	"grad_norm": 1.4510987997055054,
	"learning_rate": 4.728940804538176e-06,
	"loss": 3.6988,
	"step": 187
	},
	{
	"epoch": 0.1504,
	"grad_norm": 4.780493259429932,
	"learning_rate": 4.726088298851362e-06,
	"loss": 1.1804,
	"step": 188
	},
	{
	"epoch": 0.1512,
	"grad_norm": 1.5533583164215088,
	"learning_rate": 4.723221731980993e-06,
	"loss": 3.6128,
	"step": 189
	},
	{
	"epoch": 0.152,
	"grad_norm": 4.775524616241455,
	"learning_rate": 4.720341122033862e-06,
	"loss": 1.5147,
	"step": 190
	},
	{
	"epoch": 0.1528,
	"grad_norm": 1.6876249313354492,
	"learning_rate": 4.717446487205466e-06,
	"loss": 3.7315,
	"step": 191
	},
	{
	"epoch": 0.1536,
	"grad_norm": 3.9606497287750244,
	"learning_rate": 4.714537845779894e-06,
	"loss": 1.3284,
	"step": 192
	},
	{
	"epoch": 0.1544,
	"grad_norm": 1.2425357103347778,
	"learning_rate": 4.7116152161297045e-06,
	"loss": 3.7983,
	"step": 193
	},
	{
	"epoch": 0.1552,
	"grad_norm": 3.9687187671661377,
	"learning_rate": 4.708678616715815e-06,
	"loss": 1.3479,
	"step": 194
	},
	{
	"epoch": 0.156,
	"grad_norm": 1.5664615631103516,
	"learning_rate": 4.705728066087384e-06,
	"loss": 3.7247,
	"step": 195
	},
	{
	"epoch": 0.1568,
	"grad_norm": 4.444562911987305,
	"learning_rate": 4.702763582881692e-06,
	"loss": 1.2835,
	"step": 196
	},
	{
	"epoch": 0.1576,
	"grad_norm": 1.8698633909225464,
	"learning_rate": 4.699785185824026e-06,
	"loss": 3.8091,
	"step": 197
	},
	{
	"epoch": 0.1584,
	"grad_norm": 4.637014389038086,
	"learning_rate": 4.696792893727562e-06,
	"loss": 1.3871,
	"step": 198
	},
	{
	"epoch": 0.1592,
	"grad_norm": 1.3571611642837524,
	"learning_rate": 4.693786725493242e-06,
	"loss": 3.7813,
	"step": 199
	},
	{
	"epoch": 0.16,
	"grad_norm": 4.458593368530273,
	"learning_rate": 4.690766700109659e-06,
	"loss": 1.4933,
	"step": 200
	},
	{
	"epoch": 0.1608,
	"grad_norm": 1.5887341499328613,
	"learning_rate": 4.687732836652935e-06,
	"loss": 3.6873,
	"step": 201
	},
	{
	"epoch": 0.1616,
	"grad_norm": 6.06688928604126,
	"learning_rate": 4.684685154286599e-06,
	"loss": 1.312,
	"step": 202
	},
	{
	"epoch": 0.1624,
	"grad_norm": 1.5234293937683105,
	"learning_rate": 4.6816236722614694e-06,
	"loss": 3.7146,
	"step": 203
	},
	{
	"epoch": 0.1632,
	"grad_norm": 4.001331806182861,
	"learning_rate": 4.6785484099155324e-06,
	"loss": 1.4507,
	"step": 204
	},
	{
	"epoch": 0.164,
	"grad_norm": 1.5702141523361206,
	"learning_rate": 4.675459386673815e-06,
	"loss": 3.6801,
	"step": 205
	},
	{
	"epoch": 0.1648,
	"grad_norm": 3.6314635276794434,
	"learning_rate": 4.672356622048266e-06,
	"loss": 1.2263,
	"step": 206
	},
	{
	"epoch": 0.1656,
	"grad_norm": 1.422735571861267,
	"learning_rate": 4.669240135637635e-06,
	"loss": 3.6963,
	"step": 207
	},
	{
	"epoch": 0.1664,
	"grad_norm": 4.454765796661377,
	"learning_rate": 4.666109947127343e-06,
	"loss": 1.1784,
	"step": 208
	},
	{
	"epoch": 0.1672,
	"grad_norm": 2.0289947986602783,
	"learning_rate": 4.662966076289363e-06,
	"loss": 3.8096,
	"step": 209
	},
	{
	"epoch": 0.168,
	"grad_norm": 4.10106086730957,
	"learning_rate": 4.659808542982089e-06,
	"loss": 1.3621,
	"step": 210
	},
	{
	"epoch": 0.1688,
	"grad_norm": 1.7755879163742065,
	"learning_rate": 4.65663736715022e-06,
	"loss": 3.6229,
	"step": 211
	},
	{
	"epoch": 0.1696,
	"grad_norm": 3.9878623485565186,
	"learning_rate": 4.653452568824625e-06,
	"loss": 1.3814,
	"step": 212
	},
	{
	"epoch": 0.1704,
	"grad_norm": 1.2768726348876953,
	"learning_rate": 4.650254168122222e-06,
	"loss": 3.7008,
	"step": 213
	},
	{
	"epoch": 0.1712,
	"grad_norm": 3.8291852474212646,
	"learning_rate": 4.647042185245848e-06,
	"loss": 1.3145,
	"step": 214
	},
	{
	"epoch": 0.172,
	"grad_norm": 1.5507771968841553,
	"learning_rate": 4.6438166404841316e-06,
	"loss": 3.6915,
	"step": 215
	},
	{
	"epoch": 0.1728,
	"grad_norm": 4.554000377655029,
	"learning_rate": 4.640577554211366e-06,
	"loss": 1.2244,
	"step": 216
	},
	{
	"epoch": 0.1736,
	"grad_norm": 1.2744420766830444,
	"learning_rate": 4.637324946887384e-06,
	"loss": 3.7756,
	"step": 217
	},
	{
	"epoch": 0.1744,
	"grad_norm": 5.061426162719727,
	"learning_rate": 4.634058839057417e-06,
	"loss": 1.479,
	"step": 218
	},
	{
	"epoch": 0.1752,
	"grad_norm": 1.7611600160598755,
	"learning_rate": 4.63077925135198e-06,
	"loss": 3.7824,
	"step": 219
	},
	{
	"epoch": 0.176,
	"grad_norm": 5.889009952545166,
	"learning_rate": 4.62748620448673e-06,
	"loss": 1.4081,
	"step": 220
	},
	{
	"epoch": 0.1768,
	"grad_norm": 1.560341238975525,
	"learning_rate": 4.624179719262342e-06,
	"loss": 3.7535,
	"step": 221
	},
	{
	"epoch": 0.1776,
	"grad_norm": 4.9289231300354,
	"learning_rate": 4.620859816564371e-06,
	"loss": 1.4075,
	"step": 222
	},
	{
	"epoch": 0.1784,
	"grad_norm": 1.3027839660644531,
	"learning_rate": 4.6175265173631304e-06,
	"loss": 3.7511,
	"step": 223
	},
	{
	"epoch": 0.1792,
	"grad_norm": 4.20517635345459,
	"learning_rate": 4.6141798427135475e-06,
	"loss": 1.2056,
	"step": 224
	},
	{
	"epoch": 0.18,
	"grad_norm": 1.9253166913986206,
	"learning_rate": 4.610819813755038e-06,
	"loss": 3.5762,
	"step": 225
	},
	{
	"epoch": 0.1808,
	"grad_norm": 4.654662609100342,
	"learning_rate": 4.607446451711372e-06,
	"loss": 1.4106,
	"step": 226
	},
	{
	"epoch": 0.1816,
	"grad_norm": 1.6170463562011719,
	"learning_rate": 4.604059777890537e-06,
	"loss": 3.5927,
	"step": 227
	},
	{
	"epoch": 0.1824,
	"grad_norm": 4.272345066070557,
	"learning_rate": 4.6006598136846056e-06,
	"loss": 1.3751,
	"step": 228
	},
	{
	"epoch": 0.1832,
	"grad_norm": 1.1468439102172852,
	"learning_rate": 4.5972465805696e-06,
	"loss": 3.7235,
	"step": 229
	},
	{
	"epoch": 0.184,
	"grad_norm": 4.337528705596924,
	"learning_rate": 4.593820100105355e-06,
	"loss": 1.212,
	"step": 230
	},
	{
	"epoch": 0.1848,
	"grad_norm": 1.6321645975112915,
	"learning_rate": 4.590380393935383e-06,
	"loss": 3.7544,
	"step": 231
	},
	{
	"epoch": 0.1856,
	"grad_norm": 4.132114410400391,
	"learning_rate": 4.586927483786739e-06,
	"loss": 1.4566,
	"step": 232
	},
	{
	"epoch": 0.1864,
	"grad_norm": 1.6077178716659546,
	"learning_rate": 4.583461391469879e-06,
	"loss": 3.6934,
	"step": 233
	},
	{
	"epoch": 0.1872,
	"grad_norm": 4.226905345916748,
	"learning_rate": 4.579982138878527e-06,
	"loss": 1.5507,
	"step": 234
	},
	{
	"epoch": 0.188,
	"grad_norm": 1.280689001083374,
	"learning_rate": 4.576489747989532e-06,
	"loss": 3.77,
	"step": 235
	},
	{
	"epoch": 0.1888,
	"grad_norm": 3.9274861812591553,
	"learning_rate": 4.572984240862733e-06,
	"loss": 1.5939,
	"step": 236
	},
	{
	"epoch": 0.1896,
	"grad_norm": 1.420904278755188,
	"learning_rate": 4.56946563964082e-06,
	"loss": 3.5977,
	"step": 237
	},
	{
	"epoch": 0.1904,
	"grad_norm": 4.135627746582031,
	"learning_rate": 4.5659339665491894e-06,
	"loss": 1.2989,
	"step": 238
	},
	{
	"epoch": 0.1912,
	"grad_norm": 1.301414966583252,
	"learning_rate": 4.562389243895807e-06,
	"loss": 3.6786,
	"step": 239
	},
	{
	"epoch": 0.192,
	"grad_norm": 4.637629508972168,
	"learning_rate": 4.558831494071069e-06,
	"loss": 1.4187,
	"step": 240
	},
	{
	"epoch": 0.1928,
	"grad_norm": 1.2166482210159302,
	"learning_rate": 4.555260739547657e-06,
	"loss": 3.6755,
	"step": 241
	},
	{
	"epoch": 0.1936,
	"grad_norm": 3.494554281234741,
	"learning_rate": 4.551677002880395e-06,
	"loss": 1.0023,
	"step": 242
	},
	{
	"epoch": 0.1944,
	"grad_norm": 1.2456482648849487,
	"learning_rate": 4.548080306706114e-06,
	"loss": 3.7268,
	"step": 243
	},
	{
	"epoch": 0.1952,
	"grad_norm": 3.789717674255371,
	"learning_rate": 4.544470673743502e-06,
	"loss": 1.1345,
	"step": 244
	},
	{
	"epoch": 0.196,
	"grad_norm": 1.615335464477539,
	"learning_rate": 4.54084812679296e-06,
	"loss": 3.5679,
	"step": 245
	},
	{
	"epoch": 0.1968,
	"grad_norm": 4.087082862854004,
	"learning_rate": 4.537212688736466e-06,
	"loss": 1.5294,
	"step": 246
	},
	{
	"epoch": 0.1976,
	"grad_norm": 1.3239346742630005,
	"learning_rate": 4.533564382537421e-06,
	"loss": 3.8232,
	"step": 247
	},
	{
	"epoch": 0.1984,
	"grad_norm": 3.6679818630218506,
	"learning_rate": 4.529903231240511e-06,
	"loss": 1.1619,
	"step": 248
	},
	{
	"epoch": 0.1992,
	"grad_norm": 1.6263890266418457,
	"learning_rate": 4.526229257971556e-06,
	"loss": 3.7185,
	"step": 249
	},
	{
	"epoch": 0.2,
	"grad_norm": 4.270927429199219,
	"learning_rate": 4.522542485937369e-06,
	"loss": 1.4918,
	"step": 250
	},
	{
	"epoch": 0.2008,
	"grad_norm": 1.6562573909759521,
	"learning_rate": 4.518842938425606e-06,
	"loss": 3.7609,
	"step": 251
	},
	{
	"epoch": 0.2016,
	"grad_norm": 4.229763031005859,
	"learning_rate": 4.5151306388046175e-06,
	"loss": 1.1358,
	"step": 252
	},
	{
	"epoch": 0.2024,
	"grad_norm": 1.3031507730484009,
	"learning_rate": 4.511405610523309e-06,
	"loss": 3.6721,
	"step": 253
	},
	{
	"epoch": 0.2032,
	"grad_norm": 4.729180335998535,
	"learning_rate": 4.507667877110982e-06,
	"loss": 1.5732,
	"step": 254
	},
	{
	"epoch": 0.204,
	"grad_norm": 1.4898425340652466,
	"learning_rate": 4.503917462177192e-06,
	"loss": 3.6121,
	"step": 255
	},
	{
	"epoch": 0.2048,
	"grad_norm": 4.497402667999268,
	"learning_rate": 4.500154389411598e-06,
	"loss": 1.3272,
	"step": 256
	},
	{
	"epoch": 0.2056,
	"grad_norm": 1.141797423362732,
	"learning_rate": 4.496378682583813e-06,
	"loss": 3.6704,
	"step": 257
	},
	{
	"epoch": 0.2064,
	"grad_norm": 4.572139739990234,
	"learning_rate": 4.492590365543253e-06,
	"loss": 1.4076,
	"step": 258
	},
	{
	"epoch": 0.2072,
	"grad_norm": 1.6577672958374023,
	"learning_rate": 4.488789462218988e-06,
	"loss": 3.6953,
	"step": 259
	},
	{
	"epoch": 0.208,
	"grad_norm": 4.384160041809082,
	"learning_rate": 4.4849759966195885e-06,
	"loss": 1.2979,
	"step": 260
	},
	{
	"epoch": 0.2088,
	"grad_norm": 1.2096525430679321,
	"learning_rate": 4.4811499928329775e-06,
	"loss": 3.7744,
	"step": 261
	},
	{
	"epoch": 0.2096,
	"grad_norm": 4.4223246574401855,
	"learning_rate": 4.477311475026271e-06,
	"loss": 1.3639,
	"step": 262
	},
	{
	"epoch": 0.2104,
	"grad_norm": 1.2359306812286377,
	"learning_rate": 4.473460467445637e-06,
	"loss": 3.6689,
	"step": 263
	},
	{
	"epoch": 0.2112,
	"grad_norm": 4.513794898986816,
	"learning_rate": 4.469596994416131e-06,
	"loss": 1.2571,
	"step": 264
	},
	{
	"epoch": 0.212,
	"grad_norm": 1.4100075960159302,
	"learning_rate": 4.465721080341547e-06,
	"loss": 3.669,
	"step": 265
	},
	{
	"epoch": 0.2128,
	"grad_norm": 4.375431537628174,
	"learning_rate": 4.4618327497042676e-06,
	"loss": 1.3244,
	"step": 266
	},
	{
	"epoch": 0.2136,
	"grad_norm": 1.1597020626068115,
	"learning_rate": 4.457932027065102e-06,
	"loss": 3.7463,
	"step": 267
	},
	{
	"epoch": 0.2144,
	"grad_norm": 4.304786682128906,
	"learning_rate": 4.4540189370631315e-06,
	"loss": 1.2498,
	"step": 268
	},
	{
	"epoch": 0.2152,
	"grad_norm": 1.5611578226089478,
	"learning_rate": 4.450093504415562e-06,
	"loss": 3.7,
	"step": 269
	},
	{
	"epoch": 0.216,
	"grad_norm": 4.710305213928223,
	"learning_rate": 4.446155753917559e-06,
	"loss": 1.4829,
	"step": 270
	},
	{
	"epoch": 0.2168,
	"grad_norm": 1.0595712661743164,
	"learning_rate": 4.442205710442095e-06,
	"loss": 3.7709,
	"step": 271
	},
	{
	"epoch": 0.2176,
	"grad_norm": 4.113396644592285,
	"learning_rate": 4.43824339893979e-06,
	"loss": 1.4732,
	"step": 272
	},
	{
	"epoch": 0.2184,
	"grad_norm": 1.346928358078003,
	"learning_rate": 4.434268844438758e-06,
	"loss": 3.6034,
	"step": 273
	},
	{
	"epoch": 0.2192,
	"grad_norm": 4.2482452392578125,
	"learning_rate": 4.4302820720444454e-06,
	"loss": 1.3669,
	"step": 274
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.1629118919372559,
	"learning_rate": 4.426283106939474e-06,
	"loss": 3.7432,
	"step": 275
	},
	{
	"epoch": 0.2208,
	"grad_norm": 3.7786972522735596,
	"learning_rate": 4.422271974383479e-06,
	"loss": 1.3379,
	"step": 276
	},
	{
	"epoch": 0.2216,
	"grad_norm": 1.7842165231704712,
	"learning_rate": 4.418248699712955e-06,
	"loss": 3.6675,
	"step": 277
	},
	{
	"epoch": 0.2224,
	"grad_norm": 3.950294017791748,
	"learning_rate": 4.414213308341092e-06,
	"loss": 1.5301,
	"step": 278
	},
	{
	"epoch": 0.2232,
	"grad_norm": 1.4630101919174194,
	"learning_rate": 4.410165825757613e-06,
	"loss": 3.571,
	"step": 279
	},
	{
	"epoch": 0.224,
	"grad_norm": 4.155986309051514,
	"learning_rate": 4.40610627752862e-06,
	"loss": 1.3453,
	"step": 280
	},
	{
	"epoch": 0.2248,
	"grad_norm": 1.698153018951416,
	"learning_rate": 4.402034689296425e-06,
	"loss": 3.6699,
	"step": 281
	},
	{
	"epoch": 0.2256,
	"grad_norm": 4.893118858337402,
	"learning_rate": 4.397951086779392e-06,
	"loss": 1.6296,
	"step": 282
	},
	{
	"epoch": 0.2264,
	"grad_norm": 1.9244930744171143,
	"learning_rate": 4.393855495771774e-06,
	"loss": 3.728,
	"step": 283
	},
	{
	"epoch": 0.2272,
	"grad_norm": 4.7193827629089355,
	"learning_rate": 4.389747942143549e-06,
	"loss": 1.3797,
	"step": 284
	},
	{
	"epoch": 0.228,
	"grad_norm": 1.3077738285064697,
	"learning_rate": 4.38562845184026e-06,
	"loss": 3.7899,
	"step": 285
	},
	{
	"epoch": 0.2288,
	"grad_norm": 4.431347370147705,
	"learning_rate": 4.381497050882845e-06,
	"loss": 1.6555,
	"step": 286
	},
	{
	"epoch": 0.2296,
	"grad_norm": 1.5692718029022217,
	"learning_rate": 4.377353765367479e-06,
	"loss": 3.6771,
	"step": 287
	},
	{
	"epoch": 0.2304,
	"grad_norm": 3.9838104248046875,
	"learning_rate": 4.373198621465405e-06,
	"loss": 1.1383,
	"step": 288
	},
	{
	"epoch": 0.2312,
	"grad_norm": 1.101969838142395,
	"learning_rate": 4.369031645422768e-06,
	"loss": 3.6786,
	"step": 289
	},
	{
	"epoch": 0.232,
	"grad_norm": 4.563289165496826,
	"learning_rate": 4.364852863560456e-06,
	"loss": 1.2641,
	"step": 290
	},
	{
	"epoch": 0.2328,
	"grad_norm": 1.3112094402313232,
	"learning_rate": 4.360662302273926e-06,
	"loss": 3.7925,
	"step": 291
	},
	{
	"epoch": 0.2336,
	"grad_norm": 4.193509578704834,
	"learning_rate": 4.356459988033039e-06,
	"loss": 1.1937,
	"step": 292
	},
	{
	"epoch": 0.2344,
	"grad_norm": 1.167222499847412,
	"learning_rate": 4.352245947381897e-06,
	"loss": 3.6606,
	"step": 293
	},
	{
	"epoch": 0.2352,
	"grad_norm": 5.211182117462158,
	"learning_rate": 4.348020206938672e-06,
	"loss": 1.5236,
	"step": 294
	},
	{
	"epoch": 0.236,
	"grad_norm": 1.5906448364257812,
	"learning_rate": 4.343782793395435e-06,
	"loss": 3.6172,
	"step": 295
	},
	{
	"epoch": 0.2368,
	"grad_norm": 4.557344913482666,
	"learning_rate": 4.3395337335179945e-06,
	"loss": 1.2071,
	"step": 296
	},
	{
	"epoch": 0.2376,
	"grad_norm": 1.5080584287643433,
	"learning_rate": 4.3352730541457215e-06,
	"loss": 3.5182,
	"step": 297
	},
	{
	"epoch": 0.2384,
	"grad_norm": 4.691150665283203,
	"learning_rate": 4.331000782191384e-06,
	"loss": 1.4428,
	"step": 298
	},
	{
	"epoch": 0.2392,
	"grad_norm": 1.2369650602340698,
	"learning_rate": 4.32671694464097e-06,
	"loss": 3.6389,
	"step": 299
	},
	{
	"epoch": 0.24,
	"grad_norm": 5.130438327789307,
	"learning_rate": 4.322421568553529e-06,
	"loss": 1.4164,
	"step": 300
	},
	{
	"epoch": 0.2408,
	"grad_norm": 1.76595938205719,
	"learning_rate": 4.318114681060989e-06,
	"loss": 3.5655,
	"step": 301
	},
	{
	"epoch": 0.2416,
	"grad_norm": 4.4846954345703125,
	"learning_rate": 4.3137963093679945e-06,
	"loss": 1.4369,
	"step": 302
	},
	{
	"epoch": 0.2424,
	"grad_norm": 1.5124865770339966,
	"learning_rate": 4.309466480751726e-06,
	"loss": 3.5159,
	"step": 303
	},
	{
	"epoch": 0.2432,
	"grad_norm": 4.232130527496338,
	"learning_rate": 4.305125222561736e-06,
	"loss": 1.5252,
	"step": 304
	},
	{
	"epoch": 0.244,
	"grad_norm": 1.544097900390625,
	"learning_rate": 4.3007725622197675e-06,
	"loss": 3.7571,
	"step": 305
	},
	{
	"epoch": 0.2448,
	"grad_norm": 3.7335703372955322,
	"learning_rate": 4.296408527219592e-06,
	"loss": 1.2674,
	"step": 306
	},
	{
	"epoch": 0.2456,
	"grad_norm": 1.2222108840942383,
	"learning_rate": 4.2920331451268246e-06,
	"loss": 3.6799,
	"step": 307
	},
	{
	"epoch": 0.2464,
	"grad_norm": 4.682336807250977,
	"learning_rate": 4.2876464435787576e-06,
	"loss": 1.3907,
	"step": 308
	},
	{
	"epoch": 0.2472,
	"grad_norm": 1.7839024066925049,
	"learning_rate": 4.283248450284182e-06,
	"loss": 3.4632,
	"step": 309
	},
	{
	"epoch": 0.248,
	"grad_norm": 4.441279411315918,
	"learning_rate": 4.278839193023214e-06,
	"loss": 1.4755,
	"step": 310
	},
	{
	"epoch": 0.2488,
	"grad_norm": 1.5365478992462158,
	"learning_rate": 4.274418699647117e-06,
	"loss": 3.5074,
	"step": 311
	},
	{
	"epoch": 0.2496,
	"grad_norm": 4.5583062171936035,
	"learning_rate": 4.269986998078132e-06,
	"loss": 1.681,
	"step": 312
	},
	{
	"epoch": 0.2504,
	"grad_norm": 1.4559458494186401,
	"learning_rate": 4.265544116309294e-06,
	"loss": 3.5942,
	"step": 313
	},
	{
	"epoch": 0.2512,
	"grad_norm": 4.114186763763428,
	"learning_rate": 4.2610900824042575e-06,
	"loss": 1.6586,
	"step": 314
	},
	{
	"epoch": 0.252,
	"grad_norm": 1.3927795886993408,
	"learning_rate": 4.256624924497124e-06,
	"loss": 3.6604,
	"step": 315
	},
	{
	"epoch": 0.2528,
	"grad_norm": 3.7071781158447266,
	"learning_rate": 4.2521486707922545e-06,
	"loss": 1.3165,
	"step": 316
	},
	{
	"epoch": 0.2536,
	"grad_norm": 1.5977774858474731,
	"learning_rate": 4.247661349564103e-06,
	"loss": 3.71,
	"step": 317
	},
	{
	"epoch": 0.2544,
	"grad_norm": 4.849422931671143,
	"learning_rate": 4.243162989157027e-06,
	"loss": 1.4173,
	"step": 318
	},
	{
	"epoch": 0.2552,
	"grad_norm": 1.525455355644226,
	"learning_rate": 4.2386536179851175e-06,
	"loss": 3.5833,
	"step": 319
	},
	{
	"epoch": 0.256,
	"grad_norm": 4.420166969299316,
	"learning_rate": 4.234133264532012e-06,
	"loss": 1.2962,
	"step": 320
	},
	{
	"epoch": 0.2568,
	"grad_norm": 1.18903386592865,
	"learning_rate": 4.229601957350722e-06,
	"loss": 3.6984,
	"step": 321
	},
	{
	"epoch": 0.2576,
	"grad_norm": 3.8449833393096924,
	"learning_rate": 4.225059725063444e-06,
	"loss": 1.3112,
	"step": 322
	},
	{
	"epoch": 0.2584,
	"grad_norm": 1.7980787754058838,
	"learning_rate": 4.220506596361387e-06,
	"loss": 3.5587,
	"step": 323
	},
	{
	"epoch": 0.2592,
	"grad_norm": 3.5607681274414062,
	"learning_rate": 4.215942600004586e-06,
	"loss": 1.2554,
	"step": 324
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.572067379951477,
	"learning_rate": 4.211367764821722e-06,
	"loss": 3.7133,
	"step": 325
	},
	{
	"epoch": 0.2608,
	"grad_norm": 10.11608600616455,
	"learning_rate": 4.206782119709942e-06,
	"loss": 1.5166,
	"step": 326
	},
	{
	"epoch": 0.2616,
	"grad_norm": 1.5986098051071167,
	"learning_rate": 4.202185693634671e-06,
	"loss": 3.6253,
	"step": 327
	},
	{
	"epoch": 0.2624,
	"grad_norm": 3.9274239540100098,
	"learning_rate": 4.197578515629435e-06,
	"loss": 1.311,
	"step": 328
	},
	{
	"epoch": 0.2632,
	"grad_norm": 1.2195369005203247,
	"learning_rate": 4.192960614795676e-06,
	"loss": 3.7322,
	"step": 329
	},
	{
	"epoch": 0.264,
	"grad_norm": 4.052531719207764,
	"learning_rate": 4.188332020302561e-06,
	"loss": 1.3612,
	"step": 330
	},
	{
	"epoch": 0.2648,
	"grad_norm": 1.4489315748214722,
	"learning_rate": 4.183692761386813e-06,
	"loss": 3.534,
	"step": 331
	},
	{
	"epoch": 0.2656,
	"grad_norm": 5.4260053634643555,
	"learning_rate": 4.1790428673525104e-06,
	"loss": 1.523,
	"step": 332
	},
	{
	"epoch": 0.2664,
	"grad_norm": 1.6070371866226196,
	"learning_rate": 4.1743823675709115e-06,
	"loss": 3.4917,
	"step": 333
	},
	{
	"epoch": 0.2672,
	"grad_norm": 4.363175392150879,
	"learning_rate": 4.1697112914802665e-06,
	"loss": 1.6258,
	"step": 334
	},
	{
	"epoch": 0.268,
	"grad_norm": 1.6007026433944702,
	"learning_rate": 4.16502966858563e-06,
	"loss": 3.575,
	"step": 335
	},
	{
	"epoch": 0.2688,
	"grad_norm": 4.8055419921875,
	"learning_rate": 4.160337528458676e-06,
	"loss": 1.7682,
	"step": 336
	},
	{
	"epoch": 0.2696,
	"grad_norm": 1.2397737503051758,
	"learning_rate": 4.155634900737513e-06,
	"loss": 3.6629,
	"step": 337
	},
	{
	"epoch": 0.2704,
	"grad_norm": 4.131043910980225,
	"learning_rate": 4.150921815126493e-06,
	"loss": 1.5988,
	"step": 338
	},
	{
	"epoch": 0.2712,
	"grad_norm": 1.2639617919921875,
	"learning_rate": 4.146198301396025e-06,
	"loss": 3.5698,
	"step": 339
	},
	{
	"epoch": 0.272,
	"grad_norm": 4.381173610687256,
	"learning_rate": 4.141464389382392e-06,
	"loss": 1.3198,
	"step": 340
	},
	{
	"epoch": 0.2728,
	"grad_norm": 1.440491795539856,
	"learning_rate": 4.136720108987552e-06,
	"loss": 3.6658,
	"step": 341
	},
	{
	"epoch": 0.2736,
	"grad_norm": 8.941045761108398,
	"learning_rate": 4.13196549017896e-06,
	"loss": 1.2674,
	"step": 342
	},
	{
	"epoch": 0.2744,
	"grad_norm": 1.5544283390045166,
	"learning_rate": 4.127200562989372e-06,
	"loss": 3.5196,
	"step": 343
	},
	{
	"epoch": 0.2752,
	"grad_norm": 4.094554424285889,
	"learning_rate": 4.122425357516658e-06,
	"loss": 1.2112,
	"step": 344
	},
	{
	"epoch": 0.276,
	"grad_norm": 1.1563968658447266,
	"learning_rate": 4.117639903923611e-06,
	"loss": 3.6399,
	"step": 345
	},
	{
	"epoch": 0.2768,
	"grad_norm": 4.3765482902526855,
	"learning_rate": 4.112844232437757e-06,
	"loss": 1.3016,
	"step": 346
	},
	{
	"epoch": 0.2776,
	"grad_norm": 1.073043704032898,
	"learning_rate": 4.108038373351163e-06,
	"loss": 3.6758,
	"step": 347
	},
	{
	"epoch": 0.2784,
	"grad_norm": 4.243771553039551,
	"learning_rate": 4.103222357020248e-06,
	"loss": 1.4512,
	"step": 348
	},
	{
	"epoch": 0.2792,
	"grad_norm": 1.4195610284805298,
	"learning_rate": 4.098396213865587e-06,
	"loss": 3.6391,
	"step": 349
	},
	{
	"epoch": 0.28,
	"grad_norm": 4.04062032699585,
	"learning_rate": 4.093559974371725e-06,
	"loss": 1.2876,
	"step": 350
	},
	{
	"epoch": 0.2808,
	"grad_norm": 1.384352207183838,
	"learning_rate": 4.0887136690869774e-06,
	"loss": 3.6527,
	"step": 351
	},
	{
	"epoch": 0.2816,
	"grad_norm": 4.134579181671143,
	"learning_rate": 4.083857328623243e-06,
	"loss": 1.3498,
	"step": 352
	},
	{
	"epoch": 0.2824,
	"grad_norm": 1.8394545316696167,
	"learning_rate": 4.078990983655807e-06,
	"loss": 3.5694,
	"step": 353
	},
	{
	"epoch": 0.2832,
	"grad_norm": 4.24132776260376,
	"learning_rate": 4.07411466492315e-06,
	"loss": 1.6123,
	"step": 354
	},
	{
	"epoch": 0.284,
	"grad_norm": 1.1497430801391602,
	"learning_rate": 4.069228403226751e-06,
	"loss": 3.6655,
	"step": 355
	},
	{
	"epoch": 0.2848,
	"grad_norm": 3.8187551498413086,
	"learning_rate": 4.064332229430895e-06,
	"loss": 1.4159,
	"step": 356
	},
	{
	"epoch": 0.2856,
	"grad_norm": 1.5703147649765015,
	"learning_rate": 4.059426174462476e-06,
	"loss": 3.5892,
	"step": 357
	},
	{
	"epoch": 0.2864,
	"grad_norm": 4.054878234863281,
	"learning_rate": 4.054510269310803e-06,
	"loss": 1.3898,
	"step": 358
	},
	{
	"epoch": 0.2872,
	"grad_norm": 1.7447679042816162,
	"learning_rate": 4.049584545027406e-06,
	"loss": 3.5291,
	"step": 359
	},
	{
	"epoch": 0.288,
	"grad_norm": 3.6220648288726807,
	"learning_rate": 4.044649032725836e-06,
	"loss": 1.1255,
	"step": 360
	},
	{
	"epoch": 0.2888,
	"grad_norm": 1.4866344928741455,
	"learning_rate": 4.039703763581472e-06,
	"loss": 3.647,
	"step": 361
	},
	{
	"epoch": 0.2896,
	"grad_norm": 4.575165271759033,
	"learning_rate": 4.034748768831319e-06,
	"loss": 1.3781,
	"step": 362
	},
	{
	"epoch": 0.2904,
	"grad_norm": 1.0558618307113647,
	"learning_rate": 4.02978407977382e-06,
	"loss": 3.6163,
	"step": 363
	},
	{
	"epoch": 0.2912,
	"grad_norm": 4.454329490661621,
	"learning_rate": 4.024809727768648e-06,
	"loss": 1.3233,
	"step": 364
	},
	{
	"epoch": 0.292,
	"grad_norm": 1.3956743478775024,
	"learning_rate": 4.019825744236514e-06,
	"loss": 3.5997,
	"step": 365
	},
	{
	"epoch": 0.2928,
	"grad_norm": 4.550688743591309,
	"learning_rate": 4.014832160658966e-06,
	"loss": 1.4364,
	"step": 366
	},
	{
	"epoch": 0.2936,
	"grad_norm": 1.2573503255844116,
	"learning_rate": 4.009829008578192e-06,
	"loss": 3.6729,
	"step": 367
	},
	{
	"epoch": 0.2944,
	"grad_norm": 4.038947582244873,
	"learning_rate": 4.004816319596822e-06,
	"loss": 1.2911,
	"step": 368
	},
	{
	"epoch": 0.2952,
	"grad_norm": 1.9488675594329834,
	"learning_rate": 3.999794125377721e-06,
	"loss": 3.5393,
	"step": 369
	},
	{
	"epoch": 0.296,
	"grad_norm": 4.447761535644531,
	"learning_rate": 3.9947624576437975e-06,
	"loss": 1.5997,
	"step": 370
	},
	{
	"epoch": 0.2968,
	"grad_norm": 1.2472996711730957,
	"learning_rate": 3.989721348177801e-06,
	"loss": 3.6067,
	"step": 371
	},
	{
	"epoch": 0.2976,
	"grad_norm": 4.081388473510742,
	"learning_rate": 3.984670828822118e-06,
	"loss": 1.4171,
	"step": 372
	},
	{
	"epoch": 0.2984,
	"grad_norm": 1.7100144624710083,
	"learning_rate": 3.979610931478574e-06,
	"loss": 3.7103,
	"step": 373
	},
	{
	"epoch": 0.2992,
	"grad_norm": 4.408793926239014,
	"learning_rate": 3.97454168810823e-06,
	"loss": 1.3243,
	"step": 374
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.326974868774414,
	"learning_rate": 3.969463130731183e-06,
	"loss": 3.6149,
	"step": 375
	},
	{
	"epoch": 0.3008,
	"grad_norm": 4.624994277954102,
	"learning_rate": 3.964375291426361e-06,
	"loss": 1.5994,
	"step": 376
	},
	{
	"epoch": 0.3016,
	"grad_norm": 1.3679853677749634,
	"learning_rate": 3.959278202331323e-06,
	"loss": 3.5478,
	"step": 377
	},
	{
	"epoch": 0.3024,
	"grad_norm": 4.432180881500244,
	"learning_rate": 3.954171895642052e-06,
	"loss": 1.4198,
	"step": 378
	},
	{
	"epoch": 0.3032,
	"grad_norm": 1.0665056705474854,
	"learning_rate": 3.949056403612758e-06,
	"loss": 3.7173,
	"step": 379
	},
	{
	"epoch": 0.304,
	"grad_norm": 3.6534807682037354,
	"learning_rate": 3.943931758555669e-06,
	"loss": 1.2773,
	"step": 380
	},
	{
	"epoch": 0.3048,
	"grad_norm": 1.4018532037734985,
	"learning_rate": 3.938797992840828e-06,
	"loss": 3.5796,
	"step": 381
	},
	{
	"epoch": 0.3056,
	"grad_norm": 4.3174357414245605,
	"learning_rate": 3.933655138895889e-06,
	"loss": 1.0747,
	"step": 382
	},
	{
	"epoch": 0.3064,
	"grad_norm": 1.893721342086792,
	"learning_rate": 3.928503229205913e-06,
	"loss": 3.5452,
	"step": 383
	},
	{
	"epoch": 0.3072,
	"grad_norm": 4.509764194488525,
	"learning_rate": 3.923342296313162e-06,
	"loss": 1.4684,
	"step": 384
	},
	{
	"epoch": 0.308,
	"grad_norm": 1.2628504037857056,
	"learning_rate": 3.918172372816892e-06,
	"loss": 3.5872,
	"step": 385
	},
	{
	"epoch": 0.3088,
	"grad_norm": 3.868783712387085,
	"learning_rate": 3.91299349137315e-06,
	"loss": 1.316,
	"step": 386
	},
	{
	"epoch": 0.3096,
	"grad_norm": 1.3258881568908691,
	"learning_rate": 3.907805684694567e-06,
	"loss": 3.6877,
	"step": 387
	},
	{
	"epoch": 0.3104,
	"grad_norm": 3.9455106258392334,
	"learning_rate": 3.9026089855501475e-06,
	"loss": 1.2362,
	"step": 388
	},
	{
	"epoch": 0.3112,
	"grad_norm": 1.0947574377059937,
	"learning_rate": 3.8974034267650695e-06,
	"loss": 3.735,
	"step": 389
	},
	{
	"epoch": 0.312,
	"grad_norm": 4.135454177856445,
	"learning_rate": 3.89218904122047e-06,
	"loss": 1.3921,
	"step": 390
	},
	{
	"epoch": 0.3128,
	"grad_norm": 1.3168636560440063,
	"learning_rate": 3.886965861853243e-06,
	"loss": 3.5585,
	"step": 391
	},
	{
	"epoch": 0.3136,
	"grad_norm": 3.532658100128174,
	"learning_rate": 3.881733921655829e-06,
	"loss": 1.2495,
	"step": 392
	},
	{
	"epoch": 0.3144,
	"grad_norm": 1.3559529781341553,
	"learning_rate": 3.876493253676004e-06,
	"loss": 3.561,
	"step": 393
	},
	{
	"epoch": 0.3152,
	"grad_norm": 4.4542036056518555,
	"learning_rate": 3.871243891016676e-06,
	"loss": 1.3177,
	"step": 394
	},
	{
	"epoch": 0.316,
	"grad_norm": 1.6158586740493774,
	"learning_rate": 3.8659858668356735e-06,
	"loss": 3.623,
	"step": 395
	},
	{
	"epoch": 0.3168,
	"grad_norm": 4.352112293243408,
	"learning_rate": 3.8607192143455325e-06,
	"loss": 1.3388,
	"step": 396
	},
	{
	"epoch": 0.3176,
	"grad_norm": 1.2379918098449707,
	"learning_rate": 3.855443966813295e-06,
	"loss": 3.6086,
	"step": 397
	},
	{
	"epoch": 0.3184,
	"grad_norm": 4.482300758361816,
	"learning_rate": 3.85016015756029e-06,
	"loss": 1.3943,
	"step": 398
	},
	{
	"epoch": 0.3192,
	"grad_norm": 1.632942795753479,
	"learning_rate": 3.844867819961928e-06,
	"loss": 3.5682,
	"step": 399
	},
	{
	"epoch": 0.32,
	"grad_norm": 4.9489521980285645,
	"learning_rate": 3.839566987447492e-06,
	"loss": 1.1445,
	"step": 400
	},
	{
	"epoch": 0.3208,
	"grad_norm": 1.3084850311279297,
	"learning_rate": 3.8342576934999184e-06,
	"loss": 3.7127,
	"step": 401
	},
	{
	"epoch": 0.3216,
	"grad_norm": 3.8171467781066895,
	"learning_rate": 3.828939971655595e-06,
	"loss": 1.302,
	"step": 402
	},
	{
	"epoch": 0.3224,
	"grad_norm": 1.2390443086624146,
	"learning_rate": 3.823613855504144e-06,
	"loss": 3.5798,
	"step": 403
	},
	{
	"epoch": 0.3232,
	"grad_norm": 4.057291507720947,
	"learning_rate": 3.8182793786882065e-06,
	"loss": 1.3189,
	"step": 404
	},
	{
	"epoch": 0.324,
	"grad_norm": 1.3859179019927979,
	"learning_rate": 3.8129365749032398e-06,
	"loss": 3.6643,
	"step": 405
	},
	{
	"epoch": 0.3248,
	"grad_norm": 4.864846706390381,
	"learning_rate": 3.807585477897296e-06,
	"loss": 1.4575,
	"step": 406
	},
	{
	"epoch": 0.3256,
	"grad_norm": 1.0886560678482056,
	"learning_rate": 3.802226121470811e-06,
	"loss": 3.7321,
	"step": 407
	},
	{
	"epoch": 0.3264,
	"grad_norm": 3.940027952194214,
	"learning_rate": 3.796858539476394e-06,
	"loss": 1.2742,
	"step": 408
	},
	{
	"epoch": 0.3272,
	"grad_norm": 1.2309926748275757,
	"learning_rate": 3.7914827658186104e-06,
	"loss": 3.5766,
	"step": 409
	},
	{
	"epoch": 0.328,
	"grad_norm": 4.414444446563721,
	"learning_rate": 3.7860988344537664e-06,
	"loss": 1.2858,
	"step": 410
	},
	{
	"epoch": 0.3288,
	"grad_norm": 1.0498713254928589,
	"learning_rate": 3.7807067793897006e-06,
	"loss": 3.6743,
	"step": 411
	},
	{
	"epoch": 0.3296,
	"grad_norm": 4.1902313232421875,
	"learning_rate": 3.775306634685562e-06,
	"loss": 1.4446,
	"step": 412
	},
	{
	"epoch": 0.3304,
	"grad_norm": 1.1650660037994385,
	"learning_rate": 3.7698984344516e-06,
	"loss": 3.6178,
	"step": 413
	},
	{
	"epoch": 0.3312,
	"grad_norm": 4.5790910720825195,
	"learning_rate": 3.7644822128489476e-06,
	"loss": 1.5761,
	"step": 414
	},
	{
	"epoch": 0.332,
	"grad_norm": 1.0688635110855103,
	"learning_rate": 3.7590580040894025e-06,
	"loss": 3.689,
	"step": 415
	},
	{
	"epoch": 0.3328,
	"grad_norm": 4.05617094039917,
	"learning_rate": 3.7536258424352164e-06,
	"loss": 1.6174,
	"step": 416
	},
	{
	"epoch": 0.3336,
	"grad_norm": 1.236042857170105,
	"learning_rate": 3.7481857621988734e-06,
	"loss": 3.6902,
	"step": 417
	},
	{
	"epoch": 0.3344,
	"grad_norm": 4.205336093902588,
	"learning_rate": 3.742737797742878e-06,
	"loss": 1.3125,
	"step": 418
	},
	{
	"epoch": 0.3352,
	"grad_norm": 1.460862159729004,
	"learning_rate": 3.737281983479534e-06,
	"loss": 3.503,
	"step": 419
	},
	{
	"epoch": 0.336,
	"grad_norm": 4.190709114074707,
	"learning_rate": 3.731818353870729e-06,
	"loss": 1.2207,
	"step": 420
	},
	{
	"epoch": 0.3368,
	"grad_norm": 2.0372729301452637,
	"learning_rate": 3.726346943427719e-06,
	"loss": 3.5128,
	"step": 421
	},
	{
	"epoch": 0.3376,
	"grad_norm": 4.000549793243408,
	"learning_rate": 3.7208677867109042e-06,
	"loss": 1.244,
	"step": 422
	},
	{
	"epoch": 0.3384,
	"grad_norm": 1.509992003440857,
	"learning_rate": 3.7153809183296174e-06,
	"loss": 3.6028,
	"step": 423
	},
	{
	"epoch": 0.3392,
	"grad_norm": 3.7690091133117676,
	"learning_rate": 3.7098863729418997e-06,
	"loss": 1.1382,
	"step": 424
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.0848690271377563,
	"learning_rate": 3.7043841852542884e-06,
	"loss": 3.7097,
	"step": 425
	},
	{
	"epoch": 0.3408,
	"grad_norm": 4.2273359298706055,
	"learning_rate": 3.6988743900215895e-06,
	"loss": 1.3459,
	"step": 426
	},
	{
	"epoch": 0.3416,
	"grad_norm": 1.30433189868927,
	"learning_rate": 3.6933570220466654e-06,
	"loss": 3.5762,
	"step": 427
	},
	{
	"epoch": 0.3424,
	"grad_norm": 3.894927740097046,
	"learning_rate": 3.6878321161802106e-06,
	"loss": 1.411,
	"step": 428
	},
	{
	"epoch": 0.3432,
	"grad_norm": 1.23166024684906,
	"learning_rate": 3.682299707320532e-06,
	"loss": 3.7625,
	"step": 429
	},
	{
	"epoch": 0.344,
	"grad_norm": 4.281452655792236,
	"learning_rate": 3.6767598304133325e-06,
	"loss": 1.2892,
	"step": 430
	},
	{
	"epoch": 0.3448,
	"grad_norm": 1.510961890220642,
	"learning_rate": 3.6712125204514836e-06,
	"loss": 3.5778,
	"step": 431
	},
	{
	"epoch": 0.3456,
	"grad_norm": 3.6072661876678467,
	"learning_rate": 3.665657812474812e-06,
	"loss": 1.2145,
	"step": 432
	},
	{
	"epoch": 0.3464,
	"grad_norm": 1.6257572174072266,
	"learning_rate": 3.660095741569871e-06,
	"loss": 3.7148,
	"step": 433
	},
	{
	"epoch": 0.3472,
	"grad_norm": 4.151918411254883,
	"learning_rate": 3.654526342869724e-06,
	"loss": 1.3151,
	"step": 434
	},
	{
	"epoch": 0.348,
	"grad_norm": 1.7173959016799927,
	"learning_rate": 3.6489496515537204e-06,
	"loss": 3.5563,
	"step": 435
	},
	{
	"epoch": 0.3488,
	"grad_norm": 3.5843987464904785,
	"learning_rate": 3.643365702847272e-06,
	"loss": 1.1541,
	"step": 436
	},
	{
	"epoch": 0.3496,
	"grad_norm": 1.2119823694229126,
	"learning_rate": 3.6377745320216346e-06,
	"loss": 3.6086,
	"step": 437
	},
	{
	"epoch": 0.3504,
	"grad_norm": 4.704022407531738,
	"learning_rate": 3.632176174393682e-06,
	"loss": 1.5989,
	"step": 438
	},
	{
	"epoch": 0.3512,
	"grad_norm": 1.3486601114273071,
	"learning_rate": 3.6265706653256837e-06,
	"loss": 3.6383,
	"step": 439
	},
	{
	"epoch": 0.352,
	"grad_norm": 4.133458614349365,
	"learning_rate": 3.6209580402250816e-06,
	"loss": 1.2559,
	"step": 440
	},
	{
	"epoch": 0.3528,
	"grad_norm": 1.3388392925262451,
	"learning_rate": 3.615338334544265e-06,
	"loss": 3.6902,
	"step": 441
	},
	{
	"epoch": 0.3536,
	"grad_norm": 4.311944961547852,
	"learning_rate": 3.6097115837803504e-06,
	"loss": 1.1318,
	"step": 442
	},
	{
	"epoch": 0.3544,
	"grad_norm": 1.4599226713180542,
	"learning_rate": 3.604077823474954e-06,
	"loss": 3.6407,
	"step": 443
	},
	{
	"epoch": 0.3552,
	"grad_norm": 4.284412384033203,
	"learning_rate": 3.5984370892139663e-06,
	"loss": 1.4261,
	"step": 444
	},
	{
	"epoch": 0.356,
	"grad_norm": 1.4893653392791748,
	"learning_rate": 3.5927894166273324e-06,
	"loss": 3.6037,
	"step": 445
	},
	{
	"epoch": 0.3568,
	"grad_norm": 3.953293800354004,
	"learning_rate": 3.5871348413888207e-06,
	"loss": 1.2646,
	"step": 446
	},
	{
	"epoch": 0.3576,
	"grad_norm": 1.2986643314361572,
	"learning_rate": 3.5814733992158025e-06,
	"loss": 3.5551,
	"step": 447
	},
	{
	"epoch": 0.3584,
	"grad_norm": 4.767986297607422,
	"learning_rate": 3.5758051258690223e-06,
	"loss": 1.6051,
	"step": 448
	},
	{
	"epoch": 0.3592,
	"grad_norm": 1.4707053899765015,
	"learning_rate": 3.5701300571523757e-06,
	"loss": 3.4898,
	"step": 449
	},
	{
	"epoch": 0.36,
	"grad_norm": 4.075262546539307,
	"learning_rate": 3.564448228912682e-06,
	"loss": 1.0939,
	"step": 450
	},
	{
	"epoch": 0.3608,
	"grad_norm": 1.6893370151519775,
	"learning_rate": 3.558759677039455e-06,
	"loss": 3.524,
	"step": 451
	},
	{
	"epoch": 0.3616,
	"grad_norm": 4.155539035797119,
	"learning_rate": 3.553064437464682e-06,
	"loss": 1.3009,
	"step": 452
	},
	{
	"epoch": 0.3624,
	"grad_norm": 1.3253870010375977,
	"learning_rate": 3.5473625461625884e-06,
	"loss": 3.5764,
	"step": 453
	},
	{
	"epoch": 0.3632,
	"grad_norm": 4.075945854187012,
	"learning_rate": 3.54165403914942e-06,
	"loss": 1.2607,
	"step": 454
	},
	{
	"epoch": 0.364,
	"grad_norm": 1.059866189956665,
	"learning_rate": 3.535938952483211e-06,
	"loss": 3.6742,
	"step": 455
	},
	{
	"epoch": 0.3648,
	"grad_norm": 4.110774993896484,
	"learning_rate": 3.5302173222635526e-06,
	"loss": 1.4106,
	"step": 456
	},
	{
	"epoch": 0.3656,
	"grad_norm": 1.3632076978683472,
	"learning_rate": 3.5244891846313733e-06,
	"loss": 3.6836,
	"step": 457
	},
	{
	"epoch": 0.3664,
	"grad_norm": 3.705369472503662,
	"learning_rate": 3.518754575768702e-06,
	"loss": 1.3081,
	"step": 458
	},
	{
	"epoch": 0.3672,
	"grad_norm": 1.1472023725509644,
	"learning_rate": 3.5130135318984454e-06,
	"loss": 3.6175,
	"step": 459
	},
	{
	"epoch": 0.368,
	"grad_norm": 3.85665225982666,
	"learning_rate": 3.507266089284157e-06,
	"loss": 1.3936,
	"step": 460
	},
	{
	"epoch": 0.3688,
	"grad_norm": 1.0957272052764893,
	"learning_rate": 3.501512284229807e-06,
	"loss": 3.6699,
	"step": 461
	},
	{
	"epoch": 0.3696,
	"grad_norm": 5.635092735290527,
	"learning_rate": 3.4957521530795576e-06,
	"loss": 1.5143,
	"step": 462
	},
	{
	"epoch": 0.3704,
	"grad_norm": 1.2065218687057495,
	"learning_rate": 3.4899857322175252e-06,
	"loss": 3.6554,
	"step": 463
	},
	{
	"epoch": 0.3712,
	"grad_norm": 3.687448263168335,
	"learning_rate": 3.484213058067559e-06,
	"loss": 1.3567,
	"step": 464
	},
	{
	"epoch": 0.372,
	"grad_norm": 1.4137887954711914,
	"learning_rate": 3.4784341670930067e-06,
	"loss": 3.5039,
	"step": 465
	},
	{
	"epoch": 0.3728,
	"grad_norm": 3.735736131668091,
	"learning_rate": 3.4726490957964836e-06,
	"loss": 1.1562,
	"step": 466
	},
	{
	"epoch": 0.3736,
	"grad_norm": 1.429471731185913,
	"learning_rate": 3.466857880719645e-06,
	"loss": 3.4816,
	"step": 467
	},
	{
	"epoch": 0.3744,
	"grad_norm": 3.8104074001312256,
	"learning_rate": 3.4610605584429526e-06,
	"loss": 1.2771,
	"step": 468
	},
	{
	"epoch": 0.3752,
	"grad_norm": 1.0887689590454102,
	"learning_rate": 3.455257165585444e-06,
	"loss": 3.6168,
	"step": 469
	},
	{
	"epoch": 0.376,
	"grad_norm": 4.246683120727539,
	"learning_rate": 3.4494477388045035e-06,
	"loss": 1.4563,
	"step": 470
	},
	{
	"epoch": 0.3768,
	"grad_norm": 1.181482195854187,
	"learning_rate": 3.443632314795627e-06,
	"loss": 3.5803,
	"step": 471
	},
	{
	"epoch": 0.3776,
	"grad_norm": 4.463985443115234,
	"learning_rate": 3.4378109302921946e-06,
	"loss": 1.3947,
	"step": 472
	},
	{
	"epoch": 0.3784,
	"grad_norm": 2.0847549438476562,
	"learning_rate": 3.4319836220652334e-06,
	"loss": 3.5447,
	"step": 473
	},
	{
	"epoch": 0.3792,
	"grad_norm": 3.957758903503418,
	"learning_rate": 3.4261504269231904e-06,
	"loss": 1.3876,
	"step": 474
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.2002718448638916,
	"learning_rate": 3.4203113817116955e-06,
	"loss": 3.6171,
	"step": 475
	},
	{
	"epoch": 0.3808,
	"grad_norm": 3.7537636756896973,
	"learning_rate": 3.4144665233133318e-06,
	"loss": 1.3785,
	"step": 476
	},
	{
	"epoch": 0.3816,
	"grad_norm": 1.081315517425537,
	"learning_rate": 3.408615888647402e-06,
	"loss": 3.6535,
	"step": 477
	},
	{
	"epoch": 0.3824,
	"grad_norm": 4.511240005493164,
	"learning_rate": 3.402759514669694e-06,
	"loss": 1.5004,
	"step": 478
	},
	{
	"epoch": 0.3832,
	"grad_norm": 1.60770845413208,
	"learning_rate": 3.3968974383722497e-06,
	"loss": 3.6355,
	"step": 479
	},
	{
	"epoch": 0.384,
	"grad_norm": 4.516547679901123,
	"learning_rate": 3.391029696783127e-06,
	"loss": 1.2093,
	"step": 480
	},
	{
	"epoch": 0.3848,
	"grad_norm": 1.8860230445861816,
	"learning_rate": 3.385156326966173e-06,
	"loss": 3.5089,
	"step": 481
	},
	{
	"epoch": 0.3856,
	"grad_norm": 4.554468631744385,
	"learning_rate": 3.379277366020782e-06,
	"loss": 1.477,
	"step": 482
	},
	{
	"epoch": 0.3864,
	"grad_norm": 1.258987307548523,
	"learning_rate": 3.3733928510816677e-06,
	"loss": 3.583,
	"step": 483
	},
	{
	"epoch": 0.3872,
	"grad_norm": 4.783546447753906,
	"learning_rate": 3.3675028193186243e-06,
	"loss": 1.5192,
	"step": 484
	},
	{
	"epoch": 0.388,
	"grad_norm": 1.0193849802017212,
	"learning_rate": 3.3616073079362925e-06,
	"loss": 3.629,
	"step": 485
	},
	{
	"epoch": 0.3888,
	"grad_norm": 4.146661758422852,
	"learning_rate": 3.3557063541739283e-06,
	"loss": 1.2621,
	"step": 486
	},
	{
	"epoch": 0.3896,
	"grad_norm": 1.25571608543396,
	"learning_rate": 3.349799995305162e-06,
	"loss": 3.5985,
	"step": 487
	},
	{
	"epoch": 0.3904,
	"grad_norm": 4.230064868927002,
	"learning_rate": 3.343888268637765e-06,
	"loss": 1.232,
	"step": 488
	},
	{
	"epoch": 0.3912,
	"grad_norm": 1.292047142982483,
	"learning_rate": 3.337971211513417e-06,
	"loss": 3.587,
	"step": 489
	},
	{
	"epoch": 0.392,
	"grad_norm": 4.458502769470215,
	"learning_rate": 3.332048861307467e-06,
	"loss": 1.5272,
	"step": 490
	},
	{
	"epoch": 0.3928,
	"grad_norm": 1.4470558166503906,
	"learning_rate": 3.3261212554286977e-06,
	"loss": 3.617,
	"step": 491
	},
	{
	"epoch": 0.3936,
	"grad_norm": 3.8012030124664307,
	"learning_rate": 3.320188431319088e-06,
	"loss": 1.2316,
	"step": 492
	},
	{
	"epoch": 0.3944,
	"grad_norm": 1.446913242340088,
	"learning_rate": 3.3142504264535808e-06,
	"loss": 3.6562,
	"step": 493
	},
	{
	"epoch": 0.3952,
	"grad_norm": 4.147583961486816,
	"learning_rate": 3.308307278339842e-06,
	"loss": 1.3471,
	"step": 494
	},
	{
	"epoch": 0.396,
	"grad_norm": 1.4276149272918701,
	"learning_rate": 3.3023590245180237e-06,
	"loss": 3.5495,
	"step": 495
	},
	{
	"epoch": 0.3968,
	"grad_norm": 3.8174455165863037,
	"learning_rate": 3.296405702560532e-06,
	"loss": 1.0808,
	"step": 496
	},
	{
	"epoch": 0.3976,
	"grad_norm": 1.4224337339401245,
	"learning_rate": 3.2904473500717826e-06,
	"loss": 3.5136,
	"step": 497
	},
	{
	"epoch": 0.3984,
	"grad_norm": 4.157987117767334,
	"learning_rate": 3.284484004687969e-06,
	"loss": 1.3679,
	"step": 498
	},
	{
	"epoch": 0.3992,
	"grad_norm": 1.2928471565246582,
	"learning_rate": 3.278515704076821e-06,
	"loss": 3.6342,
	"step": 499
	},
	{
	"epoch": 0.4,
	"grad_norm": 4.097792625427246,
	"learning_rate": 3.272542485937369e-06,
	"loss": 1.3664,
	"step": 500
	},
	{
	"epoch": 0.4008,
	"grad_norm": 1.1602492332458496,
	"learning_rate": 3.2665643879997054e-06,
	"loss": 3.6839,
	"step": 501
	},
	{
	"epoch": 0.4016,
	"grad_norm": 3.862520456314087,
	"learning_rate": 3.2605814480247454e-06,
	"loss": 1.4261,
	"step": 502
	},
	{
	"epoch": 0.4024,
	"grad_norm": 1.335418462753296,
	"learning_rate": 3.2545937038039904e-06,
	"loss": 3.599,
	"step": 503
	},
	{
	"epoch": 0.4032,
	"grad_norm": 4.205375671386719,
	"learning_rate": 3.2486011931592863e-06,
	"loss": 1.5577,
	"step": 504
	},
	{
	"epoch": 0.404,
	"grad_norm": 1.6254982948303223,
	"learning_rate": 3.2426039539425875e-06,
	"loss": 3.4938,
	"step": 505
	},
	{
	"epoch": 0.4048,
	"grad_norm": 4.060510158538818,
	"learning_rate": 3.2366020240357166e-06,
	"loss": 1.3317,
	"step": 506
	},
	{
	"epoch": 0.4056,
	"grad_norm": 1.3750642538070679,
	"learning_rate": 3.2305954413501252e-06,
	"loss": 3.5692,
	"step": 507
	},
	{
	"epoch": 0.4064,
	"grad_norm": 4.146080017089844,
	"learning_rate": 3.2245842438266526e-06,
	"loss": 1.1754,
	"step": 508
	},
	{
	"epoch": 0.4072,
	"grad_norm": 1.4431229829788208,
	"learning_rate": 3.2185684694352913e-06,
	"loss": 3.4761,
	"step": 509
	},
	{
	"epoch": 0.408,
	"grad_norm": 3.423323392868042,
	"learning_rate": 3.2125481561749406e-06,
	"loss": 1.2221,
	"step": 510
	},
	{
	"epoch": 0.4088,
	"grad_norm": 1.5508882999420166,
	"learning_rate": 3.2065233420731717e-06,
	"loss": 3.6483,
	"step": 511
	},
	{
	"epoch": 0.4096,
	"grad_norm": 3.5361711978912354,
	"learning_rate": 3.2004940651859844e-06,
	"loss": 1.1119,
	"step": 512
	},
	{
	"epoch": 0.4104,
	"grad_norm": 1.326869010925293,
	"learning_rate": 3.194460363597569e-06,
	"loss": 3.5423,
	"step": 513
	},
	{
	"epoch": 0.4112,
	"grad_norm": 4.03769588470459,
	"learning_rate": 3.188422275420063e-06,
	"loss": 1.4117,
	"step": 514
	},
	{
	"epoch": 0.412,
	"grad_norm": 1.3623450994491577,
	"learning_rate": 3.1823798387933134e-06,
	"loss": 3.498,
	"step": 515
	},
	{
	"epoch": 0.4128,
	"grad_norm": 4.137259483337402,
	"learning_rate": 3.1763330918846347e-06,
	"loss": 1.2982,
	"step": 516
	},
	{
	"epoch": 0.4136,
	"grad_norm": 1.067256212234497,
	"learning_rate": 3.1702820728885657e-06,
	"loss": 3.7067,
	"step": 517
	},
	{
	"epoch": 0.4144,
	"grad_norm": 4.063728332519531,
	"learning_rate": 3.164226820026632e-06,
	"loss": 1.3187,
	"step": 518
	},
	{
	"epoch": 0.4152,
	"grad_norm": 1.2824773788452148,
	"learning_rate": 3.1581673715471007e-06,
	"loss": 3.5527,
	"step": 519
	},
	{
	"epoch": 0.416,
	"grad_norm": 3.7093420028686523,
	"learning_rate": 3.152103765724743e-06,
	"loss": 1.1281,
	"step": 520
	},
	{
	"epoch": 0.4168,
	"grad_norm": 1.288455843925476,
	"learning_rate": 3.1460360408605866e-06,
	"loss": 3.5115,
	"step": 521
	},
	{
	"epoch": 0.4176,
	"grad_norm": 4.3098063468933105,
	"learning_rate": 3.1399642352816825e-06,
	"loss": 1.3113,
	"step": 522
	},
	{
	"epoch": 0.4184,
	"grad_norm": 1.1683874130249023,
	"learning_rate": 3.1338883873408517e-06,
	"loss": 3.6437,
	"step": 523
	},
	{
	"epoch": 0.4192,
	"grad_norm": 4.025966167449951,
	"learning_rate": 3.127808535416454e-06,
	"loss": 1.2751,
	"step": 524
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.7916266918182373,
	"learning_rate": 3.121724717912138e-06,
	"loss": 3.5067,
	"step": 525
	},
	{
	"epoch": 0.4208,
	"grad_norm": 4.328076362609863,
	"learning_rate": 3.1156369732566006e-06,
	"loss": 1.6473,
	"step": 526
	},
	{
	"epoch": 0.4216,
	"grad_norm": 1.400840163230896,
	"learning_rate": 3.109545339903347e-06,
	"loss": 3.5727,
	"step": 527
	},
	{
	"epoch": 0.4224,
	"grad_norm": 3.689484119415283,
	"learning_rate": 3.1034498563304435e-06,
	"loss": 1.3867,
	"step": 528
	},
	{
	"epoch": 0.4232,
	"grad_norm": 1.0594552755355835,
	"learning_rate": 3.0973505610402767e-06,
	"loss": 3.7167,
	"step": 529
	},
	{
	"epoch": 0.424,
	"grad_norm": 4.328317642211914,
	"learning_rate": 3.0912474925593124e-06,
	"loss": 1.5036,
	"step": 530
	},
	{
	"epoch": 0.4248,
	"grad_norm": 1.1060447692871094,
	"learning_rate": 3.085140689437846e-06,
	"loss": 3.6933,
	"step": 531
	},
	{
	"epoch": 0.4256,
	"grad_norm": 4.118087291717529,
	"learning_rate": 3.0790301902497664e-06,
	"loss": 1.3451,
	"step": 532
	},
	{
	"epoch": 0.4264,
	"grad_norm": 1.254740595817566,
	"learning_rate": 3.072916033592307e-06,
	"loss": 3.5871,
	"step": 533
	},
	{
	"epoch": 0.4272,
	"grad_norm": 4.144657611846924,
	"learning_rate": 3.0667982580858047e-06,
	"loss": 1.4215,
	"step": 534
	},
	{
	"epoch": 0.428,
	"grad_norm": 1.1598517894744873,
	"learning_rate": 3.0606769023734535e-06,
	"loss": 3.6583,
	"step": 535
	},
	{
	"epoch": 0.4288,
	"grad_norm": 4.24267578125,
	"learning_rate": 3.0545520051210637e-06,
	"loss": 1.2563,
	"step": 536
	},
	{
	"epoch": 0.4296,
	"grad_norm": 1.5326381921768188,
	"learning_rate": 3.048423605016815e-06,
	"loss": 3.5047,
	"step": 537
	},
	{
	"epoch": 0.4304,
	"grad_norm": 4.730625629425049,
	"learning_rate": 3.042291740771014e-06,
	"loss": 1.3603,
	"step": 538
	},
	{
	"epoch": 0.4312,
	"grad_norm": 1.132880687713623,
	"learning_rate": 3.036156451115846e-06,
	"loss": 3.6709,
	"step": 539
	},
	{
	"epoch": 0.432,
	"grad_norm": 3.7942590713500977,
	"learning_rate": 3.0300177748051375e-06,
	"loss": 1.3794,
	"step": 540
	},
	{
	"epoch": 0.4328,
	"grad_norm": 1.4315778017044067,
	"learning_rate": 3.0238757506141013e-06,
	"loss": 3.5769,
	"step": 541
	},
	{
	"epoch": 0.4336,
	"grad_norm": 3.5602166652679443,
	"learning_rate": 3.0177304173391038e-06,
	"loss": 1.2704,
	"step": 542
	},
	{
	"epoch": 0.4344,
	"grad_norm": 1.1675716638565063,
	"learning_rate": 3.0115818137974066e-06,
	"loss": 3.5886,
	"step": 543
	},
	{
	"epoch": 0.4352,
	"grad_norm": 4.345582962036133,
	"learning_rate": 3.0054299788269343e-06,
	"loss": 1.4216,
	"step": 544
	},
	{
	"epoch": 0.436,
	"grad_norm": 1.762725591659546,
	"learning_rate": 2.9992749512860177e-06,
	"loss": 3.4446,
	"step": 545
	},
	{
	"epoch": 0.4368,
	"grad_norm": 3.993100643157959,
	"learning_rate": 2.9931167700531575e-06,
	"loss": 1.343,
	"step": 546
	},
	{
	"epoch": 0.4376,
	"grad_norm": 1.2319386005401611,
	"learning_rate": 2.9869554740267726e-06,
	"loss": 3.603,
	"step": 547
	},
	{
	"epoch": 0.4384,
	"grad_norm": 4.317058086395264,
	"learning_rate": 2.9807911021249573e-06,
	"loss": 1.4564,
	"step": 548
	},
	{
	"epoch": 0.4392,
	"grad_norm": 1.6317486763000488,
	"learning_rate": 2.9746236932852355e-06,
	"loss": 3.5411,
	"step": 549
	},
	{
	"epoch": 0.44,
	"grad_norm": 3.8238189220428467,
	"learning_rate": 2.9684532864643123e-06,
	"loss": 1.1421,
	"step": 550
	},
	{
	"epoch": 0.4408,
	"grad_norm": 1.9044779539108276,
	"learning_rate": 2.9622799206378306e-06,
	"loss": 3.6848,
	"step": 551
	},
	{
	"epoch": 0.4416,
	"grad_norm": 3.827505588531494,
	"learning_rate": 2.956103634800126e-06,
	"loss": 1.3386,
	"step": 552
	},
	{
	"epoch": 0.4424,
	"grad_norm": 1.3661056756973267,
	"learning_rate": 2.949924467963975e-06,
	"loss": 3.4422,
	"step": 553
	},
	{
	"epoch": 0.4432,
	"grad_norm": 4.082735538482666,
	"learning_rate": 2.943742459160354e-06,
	"loss": 1.3541,
	"step": 554
	},
	{
	"epoch": 0.444,
	"grad_norm": 1.28450345993042,
	"learning_rate": 2.9375576474381907e-06,
	"loss": 3.5994,
	"step": 555
	},
	{
	"epoch": 0.4448,
	"grad_norm": 3.4685943126678467,
	"learning_rate": 2.9313700718641167e-06,
	"loss": 1.4483,
	"step": 556
	},
	{
	"epoch": 0.4456,
	"grad_norm": 1.7730368375778198,
	"learning_rate": 2.925179771522223e-06,
	"loss": 3.6276,
	"step": 557
	},
	{
	"epoch": 0.4464,
	"grad_norm": 3.9150004386901855,
	"learning_rate": 2.9189867855138103e-06,
	"loss": 1.3486,
	"step": 558
	},
	{
	"epoch": 0.4472,
	"grad_norm": 1.5707478523254395,
	"learning_rate": 2.912791152957145e-06,
	"loss": 3.5531,
	"step": 559
	},
	{
	"epoch": 0.448,
	"grad_norm": 4.4283766746521,
	"learning_rate": 2.9065929129872097e-06,
	"loss": 1.4254,
	"step": 560
	},
	{
	"epoch": 0.4488,
	"grad_norm": 1.5481115579605103,
	"learning_rate": 2.900392104755455e-06,
	"loss": 3.4633,
	"step": 561
	},
	{
	"epoch": 0.4496,
	"grad_norm": 3.5355985164642334,
	"learning_rate": 2.8941887674295573e-06,
	"loss": 1.3703,
	"step": 562
	},
	{
	"epoch": 0.4504,
	"grad_norm": 1.2419151067733765,
	"learning_rate": 2.887982940193165e-06,
	"loss": 3.6656,
	"step": 563
	},
	{
	"epoch": 0.4512,
	"grad_norm": 4.397960186004639,
	"learning_rate": 2.8817746622456585e-06,
	"loss": 1.338,
	"step": 564
	},
	{
	"epoch": 0.452,
	"grad_norm": 1.4676947593688965,
	"learning_rate": 2.875563972801893e-06,
	"loss": 3.6548,
	"step": 565
	},
	{
	"epoch": 0.4528,
	"grad_norm": 4.111155033111572,
	"learning_rate": 2.8693509110919597e-06,
	"loss": 1.3694,
	"step": 566
	},
	{
	"epoch": 0.4536,
	"grad_norm": 1.7541122436523438,
	"learning_rate": 2.863135516360932e-06,
	"loss": 3.4508,
	"step": 567
	},
	{
	"epoch": 0.4544,
	"grad_norm": 4.085772514343262,
	"learning_rate": 2.8569178278686222e-06,
	"loss": 1.3314,
	"step": 568
	},
	{
	"epoch": 0.4552,
	"grad_norm": 1.2001174688339233,
	"learning_rate": 2.85069788488933e-06,
	"loss": 3.5885,
	"step": 569
	},
	{
	"epoch": 0.456,
	"grad_norm": 4.38803768157959,
	"learning_rate": 2.844475726711595e-06,
	"loss": 1.1816,
	"step": 570
	},
	{
	"epoch": 0.4568,
	"grad_norm": 1.2394533157348633,
	"learning_rate": 2.8382513926379508e-06,
	"loss": 3.6019,
	"step": 571
	},
	{
	"epoch": 0.4576,
	"grad_norm": 4.420421600341797,
	"learning_rate": 2.832024921984674e-06,
	"loss": 1.4351,
	"step": 572
	},
	{
	"epoch": 0.4584,
	"grad_norm": 1.2522428035736084,
	"learning_rate": 2.825796354081537e-06,
	"loss": 3.6141,
	"step": 573
	},
	{
	"epoch": 0.4592,
	"grad_norm": 4.002085208892822,
	"learning_rate": 2.8195657282715595e-06,
	"loss": 1.1009,
	"step": 574
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.433961272239685,
	"learning_rate": 2.813333083910761e-06,
	"loss": 3.6517,
	"step": 575
	},
	{
	"epoch": 0.4608,
	"grad_norm": 4.165874004364014,
	"learning_rate": 2.807098460367911e-06,
	"loss": 1.3473,
	"step": 576
	},
	{
	"epoch": 0.4616,
	"grad_norm": 1.468865990638733,
	"learning_rate": 2.800861897024279e-06,
	"loss": 3.6747,
	"step": 577
	},
	{
	"epoch": 0.4624,
	"grad_norm": 4.306812286376953,
	"learning_rate": 2.79462343327339e-06,
	"loss": 1.416,
	"step": 578
	},
	{
	"epoch": 0.4632,
	"grad_norm": 1.0383753776550293,
	"learning_rate": 2.7883831085207707e-06,
	"loss": 3.575,
	"step": 579
	},
	{
	"epoch": 0.464,
	"grad_norm": 4.186305999755859,
	"learning_rate": 2.7821409621837042e-06,
	"loss": 1.5874,
	"step": 580
	},
	{
	"epoch": 0.4648,
	"grad_norm": 1.3052856922149658,
	"learning_rate": 2.7758970336909795e-06,
	"loss": 3.6154,
	"step": 581
	},
	{
	"epoch": 0.4656,
	"grad_norm": 3.598694324493408,
	"learning_rate": 2.7696513624826422e-06,
	"loss": 1.2231,
	"step": 582
	},
	{
	"epoch": 0.4664,
	"grad_norm": 1.3978124856948853,
	"learning_rate": 2.763403988009746e-06,
	"loss": 3.5403,
	"step": 583
	},
	{
	"epoch": 0.4672,
	"grad_norm": 3.618967056274414,
	"learning_rate": 2.7571549497341044e-06,
	"loss": 1.29,
	"step": 584
	},
	{
	"epoch": 0.468,
	"grad_norm": 1.4016177654266357,
	"learning_rate": 2.7509042871280373e-06,
	"loss": 3.6256,
	"step": 585
	},
	{
	"epoch": 0.4688,
	"grad_norm": 3.9204423427581787,
	"learning_rate": 2.7446520396741293e-06,
	"loss": 1.4597,
	"step": 586
	},
	{
	"epoch": 0.4696,
	"grad_norm": 1.4617024660110474,
	"learning_rate": 2.7383982468649715e-06,
	"loss": 3.482,
	"step": 587
	},
	{
	"epoch": 0.4704,
	"grad_norm": 4.012588024139404,
	"learning_rate": 2.73214294820292e-06,
	"loss": 1.2928,
	"step": 588
	},
	{
	"epoch": 0.4712,
	"grad_norm": 1.4617540836334229,
	"learning_rate": 2.725886183199839e-06,
	"loss": 3.626,
	"step": 589
	},
	{
	"epoch": 0.472,
	"grad_norm": 3.5914876461029053,
	"learning_rate": 2.7196279913768587e-06,
	"loss": 1.3148,
	"step": 590
	},
	{
	"epoch": 0.4728,
	"grad_norm": 1.4136903285980225,
	"learning_rate": 2.713368412264118e-06,
	"loss": 3.5289,
	"step": 591
	},
	{
	"epoch": 0.4736,
	"grad_norm": 3.7139124870300293,
	"learning_rate": 2.7071074854005206e-06,
	"loss": 1.3292,
	"step": 592
	},
	{
	"epoch": 0.4744,
	"grad_norm": 1.2121789455413818,
	"learning_rate": 2.700845250333486e-06,
	"loss": 3.6458,
	"step": 593
	},
	{
	"epoch": 0.4752,
	"grad_norm": 4.53924036026001,
	"learning_rate": 2.694581746618691e-06,
	"loss": 1.3469,
	"step": 594
	},
	{
	"epoch": 0.476,
	"grad_norm": 1.2464954853057861,
	"learning_rate": 2.688317013819832e-06,
	"loss": 3.5712,
	"step": 595
	},
	{
	"epoch": 0.4768,
	"grad_norm": 3.8551762104034424,
	"learning_rate": 2.682051091508365e-06,
	"loss": 1.3476,
	"step": 596
	},
	{
	"epoch": 0.4776,
	"grad_norm": 1.2209997177124023,
	"learning_rate": 2.67578401926326e-06,
	"loss": 3.6444,
	"step": 597
	},
	{
	"epoch": 0.4784,
	"grad_norm": 4.334421634674072,
	"learning_rate": 2.6695158366707526e-06,
	"loss": 1.4771,
	"step": 598
	},
	{
	"epoch": 0.4792,
	"grad_norm": 1.5928137302398682,
	"learning_rate": 2.6632465833240895e-06,
	"loss": 3.4254,
	"step": 599
	},
	{
	"epoch": 0.48,
	"grad_norm": 3.963142156600952,
	"learning_rate": 2.6569762988232838e-06,
	"loss": 1.3901,
	"step": 600
	},
	{
	"epoch": 0.4808,
	"grad_norm": 1.2593353986740112,
	"learning_rate": 2.6507050227748595e-06,
	"loss": 3.5619,
	"step": 601
	},
	{
	"epoch": 0.4816,
	"grad_norm": 4.629072189331055,
	"learning_rate": 2.6444327947916037e-06,
	"loss": 1.5413,
	"step": 602
	},
	{
	"epoch": 0.4824,
	"grad_norm": 1.2204415798187256,
	"learning_rate": 2.6381596544923184e-06,
	"loss": 3.6041,
	"step": 603
	},
	{
	"epoch": 0.4832,
	"grad_norm": 4.39404821395874,
	"learning_rate": 2.6318856415015664e-06,
	"loss": 1.1507,
	"step": 604
	},
	{
	"epoch": 0.484,
	"grad_norm": 1.2167773246765137,
	"learning_rate": 2.625610795449424e-06,
	"loss": 3.5377,
	"step": 605
	},
	{
	"epoch": 0.4848,
	"grad_norm": 4.067314624786377,
	"learning_rate": 2.6193351559712294e-06,
	"loss": 1.3543,
	"step": 606
	},
	{
	"epoch": 0.4856,
	"grad_norm": 1.054069995880127,
	"learning_rate": 2.6130587627073315e-06,
	"loss": 3.678,
	"step": 607
	},
	{
	"epoch": 0.4864,
	"grad_norm": 4.561433792114258,
	"learning_rate": 2.606781655302843e-06,
	"loss": 1.5264,
	"step": 608
	},
	{
	"epoch": 0.4872,
	"grad_norm": 1.6582963466644287,
	"learning_rate": 2.6005038734073833e-06,
	"loss": 3.4737,
	"step": 609
	},
	{
	"epoch": 0.488,
	"grad_norm": 4.4807233810424805,
	"learning_rate": 2.594225456674837e-06,
	"loss": 1.5468,
	"step": 610
	},
	{
	"epoch": 0.4888,
	"grad_norm": 1.4780353307724,
	"learning_rate": 2.5879464447630947e-06,
	"loss": 3.6692,
	"step": 611
	},
	{
	"epoch": 0.4896,
	"grad_norm": 4.209949493408203,
	"learning_rate": 2.58166687733381e-06,
	"loss": 1.2275,
	"step": 612
	},
	{
	"epoch": 0.4904,
	"grad_norm": 1.4267958402633667,
	"learning_rate": 2.575386794052142e-06,
	"loss": 3.4531,
	"step": 613
	},
	{
	"epoch": 0.4912,
	"grad_norm": 3.8919217586517334,
	"learning_rate": 2.569106234586511e-06,
	"loss": 1.3178,
	"step": 614
	},
	{
	"epoch": 0.492,
	"grad_norm": 1.4168897867202759,
	"learning_rate": 2.5628252386083443e-06,
	"loss": 3.4955,
	"step": 615
	},
	{
	"epoch": 0.4928,
	"grad_norm": 3.9594831466674805,
	"learning_rate": 2.5565438457918247e-06,
	"loss": 1.3968,
	"step": 616
	},
	{
	"epoch": 0.4936,
	"grad_norm": 1.1420923471450806,
	"learning_rate": 2.5502620958136444e-06,
	"loss": 3.6264,
	"step": 617
	},
	{
	"epoch": 0.4944,
	"grad_norm": 4.060093402862549,
	"learning_rate": 2.5439800283527495e-06,
	"loss": 1.3898,
	"step": 618
	},
	{
	"epoch": 0.4952,
	"grad_norm": 1.4885039329528809,
	"learning_rate": 2.537697683090093e-06,
	"loss": 3.492,
	"step": 619
	},
	{
	"epoch": 0.496,
	"grad_norm": 4.163914203643799,
	"learning_rate": 2.531415099708382e-06,
	"loss": 1.1859,
	"step": 620
	},
	{
	"epoch": 0.4968,
	"grad_norm": 1.1269545555114746,
	"learning_rate": 2.525132317891827e-06,
	"loss": 3.5954,
	"step": 621
	},
	{
	"epoch": 0.4976,
	"grad_norm": 4.090238571166992,
	"learning_rate": 2.518849377325893e-06,
	"loss": 1.3966,
	"step": 622
	},
	{
	"epoch": 0.4984,
	"grad_norm": 1.5226904153823853,
	"learning_rate": 2.5125663176970475e-06,
	"loss": 3.6323,
	"step": 623
	},
	{
	"epoch": 0.4992,
	"grad_norm": 3.7972140312194824,
	"learning_rate": 2.5062831786925102e-06,
	"loss": 1.39,
	"step": 624
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.4045028686523438,
	"learning_rate": 2.5e-06,
	"loss": 3.5625,
	"step": 625
	},
	{
	"epoch": 0.5008,
	"grad_norm": 3.8131749629974365,
	"learning_rate": 2.4937168213074906e-06,
	"loss": 1.2028,
	"step": 626
	},
	{
	"epoch": 0.5016,
	"grad_norm": 2.0082039833068848,
	"learning_rate": 2.487433682302953e-06,
	"loss": 3.3618,
	"step": 627
	},
	{
	"epoch": 0.5024,
	"grad_norm": 4.199687957763672,
	"learning_rate": 2.4811506226741077e-06,
	"loss": 1.2716,
	"step": 628
	},
	{
	"epoch": 0.5032,
	"grad_norm": 1.1121747493743896,
	"learning_rate": 2.474867682108174e-06,
	"loss": 3.5795,
	"step": 629
	},
	{
	"epoch": 0.504,
	"grad_norm": 3.8342783451080322,
	"learning_rate": 2.4685849002916184e-06,
	"loss": 1.2034,
	"step": 630
	},
	{
	"epoch": 0.5048,
	"grad_norm": 1.6797664165496826,
	"learning_rate": 2.4623023169099074e-06,
	"loss": 3.5073,
	"step": 631
	},
	{
	"epoch": 0.5056,
	"grad_norm": 5.292508125305176,
	"learning_rate": 2.456019971647251e-06,
	"loss": 1.3187,
	"step": 632
	},
	{
	"epoch": 0.5064,
	"grad_norm": 1.0428590774536133,
	"learning_rate": 2.449737904186357e-06,
	"loss": 3.6168,
	"step": 633
	},
	{
	"epoch": 0.5072,
	"grad_norm": 3.81816029548645,
	"learning_rate": 2.4434561542081765e-06,
	"loss": 1.3212,
	"step": 634
	},
	{
	"epoch": 0.508,
	"grad_norm": 1.0982403755187988,
	"learning_rate": 2.4371747613916566e-06,
	"loss": 3.6012,
	"step": 635
	},
	{
	"epoch": 0.5088,
	"grad_norm": 4.740167617797852,
	"learning_rate": 2.4308937654134893e-06,
	"loss": 1.3399,
	"step": 636
	},
	{
	"epoch": 0.5096,
	"grad_norm": 1.26600980758667,
	"learning_rate": 2.4246132059478582e-06,
	"loss": 3.5275,
	"step": 637
	},
	{
	"epoch": 0.5104,
	"grad_norm": 4.418180465698242,
	"learning_rate": 2.4183331226661913e-06,
	"loss": 1.4019,
	"step": 638
	},
	{
	"epoch": 0.5112,
	"grad_norm": 2.0348660945892334,
	"learning_rate": 2.4120535552369057e-06,
	"loss": 3.5616,
	"step": 639
	},
	{
	"epoch": 0.512,
	"grad_norm": 3.7417869567871094,
	"learning_rate": 2.4057745433251637e-06,
	"loss": 1.3269,
	"step": 640
	},
	{
	"epoch": 0.5128,
	"grad_norm": 1.818655252456665,
	"learning_rate": 2.3994961265926166e-06,
	"loss": 3.5734,
	"step": 641
	},
	{
	"epoch": 0.5136,
	"grad_norm": 3.8714828491210938,
	"learning_rate": 2.3932183446971584e-06,
	"loss": 1.3336,
	"step": 642
	},
	{
	"epoch": 0.5144,
	"grad_norm": 1.1985024213790894,
	"learning_rate": 2.386941237292669e-06,
	"loss": 3.5905,
	"step": 643
	},
	{
	"epoch": 0.5152,
	"grad_norm": 3.901711940765381,
	"learning_rate": 2.3806648440287715e-06,
	"loss": 1.1541,
	"step": 644
	},
	{
	"epoch": 0.516,
	"grad_norm": 1.3076053857803345,
	"learning_rate": 2.3743892045505764e-06,
	"loss": 3.6319,
	"step": 645
	},
	{
	"epoch": 0.5168,
	"grad_norm": 3.9768855571746826,
	"learning_rate": 2.368114358498434e-06,
	"loss": 1.5297,
	"step": 646
	},
	{
	"epoch": 0.5176,
	"grad_norm": 1.135161280632019,
	"learning_rate": 2.361840345507683e-06,
	"loss": 3.6021,
	"step": 647
	},
	{
	"epoch": 0.5184,
	"grad_norm": 3.6397156715393066,
	"learning_rate": 2.355567205208397e-06,
	"loss": 1.3282,
	"step": 648
	},
	{
	"epoch": 0.5192,
	"grad_norm": 1.3913445472717285,
	"learning_rate": 2.3492949772251418e-06,
	"loss": 3.4597,
	"step": 649
	},
	{
	"epoch": 0.52,
	"grad_norm": 3.9108190536499023,
	"learning_rate": 2.3430237011767166e-06,
	"loss": 1.0836,
	"step": 650
	},
	{
	"epoch": 0.5208,
	"grad_norm": 1.6176162958145142,
	"learning_rate": 2.3367534166759105e-06,
	"loss": 3.5934,
	"step": 651
	},
	{
	"epoch": 0.5216,
	"grad_norm": 3.639057159423828,
	"learning_rate": 2.3304841633292487e-06,
	"loss": 1.2418,
	"step": 652
	},
	{
	"epoch": 0.5224,
	"grad_norm": 1.5021276473999023,
	"learning_rate": 2.324215980736741e-06,
	"loss": 3.4284,
	"step": 653
	},
	{
	"epoch": 0.5232,
	"grad_norm": 5.434640407562256,
	"learning_rate": 2.317948908491636e-06,
	"loss": 1.3802,
	"step": 654
	},
	{
	"epoch": 0.524,
	"grad_norm": 1.7329832315444946,
	"learning_rate": 2.3116829861801687e-06,
	"loss": 3.4577,
	"step": 655
	},
	{
	"epoch": 0.5248,
	"grad_norm": 3.633262872695923,
	"learning_rate": 2.305418253381309e-06,
	"loss": 1.1311,
	"step": 656
	},
	{
	"epoch": 0.5256,
	"grad_norm": 1.2898222208023071,
	"learning_rate": 2.299154749666515e-06,
	"loss": 3.5833,
	"step": 657
	},
	{
	"epoch": 0.5264,
	"grad_norm": 3.3343076705932617,
	"learning_rate": 2.2928925145994798e-06,
	"loss": 1.2565,
	"step": 658
	},
	{
	"epoch": 0.5272,
	"grad_norm": 1.1492732763290405,
	"learning_rate": 2.286631587735883e-06,
	"loss": 3.6572,
	"step": 659
	},
	{
	"epoch": 0.528,
	"grad_norm": 4.284005165100098,
	"learning_rate": 2.280372008623142e-06,
	"loss": 1.4464,
	"step": 660
	},
	{
	"epoch": 0.5288,
	"grad_norm": 1.7030223608016968,
	"learning_rate": 2.274113816800161e-06,
	"loss": 3.4687,
	"step": 661
	},
	{
	"epoch": 0.5296,
	"grad_norm": 4.307010650634766,
	"learning_rate": 2.267857051797081e-06,
	"loss": 1.3294,
	"step": 662
	},
	{
	"epoch": 0.5304,
	"grad_norm": 1.5467772483825684,
	"learning_rate": 2.261601753135029e-06,
	"loss": 3.5568,
	"step": 663
	},
	{
	"epoch": 0.5312,
	"grad_norm": 3.650076150894165,
	"learning_rate": 2.255347960325871e-06,
	"loss": 1.3358,
	"step": 664
	},
	{
	"epoch": 0.532,
	"grad_norm": 1.5734375715255737,
	"learning_rate": 2.2490957128719627e-06,
	"loss": 3.4565,
	"step": 665
	},
	{
	"epoch": 0.5328,
	"grad_norm": 3.6878743171691895,
	"learning_rate": 2.2428450502658964e-06,
	"loss": 1.1379,
	"step": 666
	},
	{
	"epoch": 0.5336,
	"grad_norm": 1.115048885345459,
	"learning_rate": 2.2365960119902543e-06,
	"loss": 3.6159,
	"step": 667
	},
	{
	"epoch": 0.5344,
	"grad_norm": 4.451643943786621,
	"learning_rate": 2.2303486375173586e-06,
	"loss": 1.3798,
	"step": 668
	},
	{
	"epoch": 0.5352,
	"grad_norm": 1.2209587097167969,
	"learning_rate": 2.224102966309021e-06,
	"loss": 3.5913,
	"step": 669
	},
	{
	"epoch": 0.536,
	"grad_norm": 3.687743663787842,
	"learning_rate": 2.2178590378162957e-06,
	"loss": 1.2116,
	"step": 670
	},
	{
	"epoch": 0.5368,
	"grad_norm": 1.4728742837905884,
	"learning_rate": 2.2116168914792293e-06,
	"loss": 3.5415,
	"step": 671
	},
	{
	"epoch": 0.5376,
	"grad_norm": 3.96630859375,
	"learning_rate": 2.205376566726611e-06,
	"loss": 1.3889,
	"step": 672
	},
	{
	"epoch": 0.5384,
	"grad_norm": 1.215154767036438,
	"learning_rate": 2.1991381029757216e-06,
	"loss": 3.5867,
	"step": 673
	},
	{
	"epoch": 0.5392,
	"grad_norm": 3.8956687450408936,
	"learning_rate": 2.19290153963209e-06,
	"loss": 1.5616,
	"step": 674
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.183532476425171,
	"learning_rate": 2.186666916089239e-06,
	"loss": 3.5136,
	"step": 675
	},
	{
	"epoch": 0.5408,
	"grad_norm": 3.5824153423309326,
	"learning_rate": 2.1804342717284414e-06,
	"loss": 1.2544,
	"step": 676
	},
	{
	"epoch": 0.5416,
	"grad_norm": 1.325810432434082,
	"learning_rate": 2.174203645918464e-06,
	"loss": 3.5406,
	"step": 677
	},
	{
	"epoch": 0.5424,
	"grad_norm": 3.4541144371032715,
	"learning_rate": 2.1679750780153265e-06,
	"loss": 1.3576,
	"step": 678
	},
	{
	"epoch": 0.5432,
	"grad_norm": 1.5813454389572144,
	"learning_rate": 2.1617486073620496e-06,
	"loss": 3.4813,
	"step": 679
	},
	{
	"epoch": 0.544,
	"grad_norm": 3.9602949619293213,
	"learning_rate": 2.155524273288405e-06,
	"loss": 1.426,
	"step": 680
	},
	{
	"epoch": 0.5448,
	"grad_norm": 1.4534196853637695,
	"learning_rate": 2.1493021151106704e-06,
	"loss": 3.5585,
	"step": 681
	},
	{
	"epoch": 0.5456,
	"grad_norm": 3.9135422706604004,
	"learning_rate": 2.143082172131378e-06,
	"loss": 1.3641,
	"step": 682
	},
	{
	"epoch": 0.5464,
	"grad_norm": 1.6020511388778687,
	"learning_rate": 2.1368644836390684e-06,
	"loss": 3.5024,
	"step": 683
	},
	{
	"epoch": 0.5472,
	"grad_norm": 4.677028179168701,
	"learning_rate": 2.130649088908041e-06,
	"loss": 1.366,
	"step": 684
	},
	{
	"epoch": 0.548,
	"grad_norm": 1.4928466081619263,
	"learning_rate": 2.1244360271981073e-06,
	"loss": 3.5495,
	"step": 685
	},
	{
	"epoch": 0.5488,
	"grad_norm": 4.278928279876709,
	"learning_rate": 2.1182253377543428e-06,
	"loss": 1.3534,
	"step": 686
	},
	{
	"epoch": 0.5496,
	"grad_norm": 1.3462296724319458,
	"learning_rate": 2.1120170598068353e-06,
	"loss": 3.6396,
	"step": 687
	},
	{
	"epoch": 0.5504,
	"grad_norm": 5.2212653160095215,
	"learning_rate": 2.1058112325704436e-06,
	"loss": 1.3357,
	"step": 688
	},
	{
	"epoch": 0.5512,
	"grad_norm": 1.1819498538970947,
	"learning_rate": 2.0996078952445453e-06,
	"loss": 3.6596,
	"step": 689
	},
	{
	"epoch": 0.552,
	"grad_norm": 3.7068729400634766,
	"learning_rate": 2.093407087012791e-06,
	"loss": 1.3518,
	"step": 690
	},
	{
	"epoch": 0.5528,
	"grad_norm": 1.0458273887634277,
	"learning_rate": 2.0872088470428553e-06,
	"loss": 3.607,
	"step": 691
	},
	{
	"epoch": 0.5536,
	"grad_norm": 4.25509786605835,
	"learning_rate": 2.08101321448619e-06,
	"loss": 1.4629,
	"step": 692
	},
	{
	"epoch": 0.5544,
	"grad_norm": 1.1481705904006958,
	"learning_rate": 2.0748202284777775e-06,
	"loss": 3.6161,
	"step": 693
	},
	{
	"epoch": 0.5552,
	"grad_norm": 3.934365749359131,
	"learning_rate": 2.0686299281358837e-06,
	"loss": 1.4318,
	"step": 694
	},
	{
	"epoch": 0.556,
	"grad_norm": 1.4977188110351562,
	"learning_rate": 2.0624423525618097e-06,
	"loss": 3.6224,
	"step": 695
	},
	{
	"epoch": 0.5568,
	"grad_norm": 3.6773321628570557,
	"learning_rate": 2.0562575408396475e-06,
	"loss": 1.1651,
	"step": 696
	},
	{
	"epoch": 0.5576,
	"grad_norm": 1.449863314628601,
	"learning_rate": 2.0500755320360263e-06,
	"loss": 3.6073,
	"step": 697
	},
	{
	"epoch": 0.5584,
	"grad_norm": 3.81058406829834,
	"learning_rate": 2.0438963651998747e-06,
	"loss": 1.2255,
	"step": 698
	},
	{
	"epoch": 0.5592,
	"grad_norm": 1.1542376279830933,
	"learning_rate": 2.0377200793621694e-06,
	"loss": 3.6066,
	"step": 699
	},
	{
	"epoch": 0.56,
	"grad_norm": 4.023213863372803,
	"learning_rate": 2.031546713535688e-06,
	"loss": 1.3477,
	"step": 700
	},
	{
	"epoch": 0.5608,
	"grad_norm": 1.3673769235610962,
	"learning_rate": 2.0253763067147657e-06,
	"loss": 3.5453,
	"step": 701
	},
	{
	"epoch": 0.5616,
	"grad_norm": 4.080592155456543,
	"learning_rate": 2.019208897875043e-06,
	"loss": 1.4669,
	"step": 702
	},
	{
	"epoch": 0.5624,
	"grad_norm": 1.4954679012298584,
	"learning_rate": 2.0130445259732282e-06,
	"loss": 3.4227,
	"step": 703
	},
	{
	"epoch": 0.5632,
	"grad_norm": 4.1900248527526855,
	"learning_rate": 2.006883229946843e-06,
	"loss": 1.4427,
	"step": 704
	},
	{
	"epoch": 0.564,
	"grad_norm": 1.4168885946273804,
	"learning_rate": 2.0007250487139827e-06,
	"loss": 3.6209,
	"step": 705
	},
	{
	"epoch": 0.5648,
	"grad_norm": 3.834075450897217,
	"learning_rate": 1.994570021173067e-06,
	"loss": 1.2146,
	"step": 706
	},
	{
	"epoch": 0.5656,
	"grad_norm": 1.18809974193573,
	"learning_rate": 1.9884181862025938e-06,
	"loss": 3.5612,
	"step": 707
	},
	{
	"epoch": 0.5664,
	"grad_norm": 3.8719165325164795,
	"learning_rate": 1.9822695826608975e-06,
	"loss": 1.4709,
	"step": 708
	},
	{
	"epoch": 0.5672,
	"grad_norm": 1.2471320629119873,
	"learning_rate": 1.9761242493858987e-06,
	"loss": 3.5347,
	"step": 709
	},
	{
	"epoch": 0.568,
	"grad_norm": 3.889285087585449,
	"learning_rate": 1.969982225194864e-06,
	"loss": 1.1893,
	"step": 710
	},
	{
	"epoch": 0.5688,
	"grad_norm": 1.6830719709396362,
	"learning_rate": 1.9638435488841543e-06,
	"loss": 3.3654,
	"step": 711
	},
	{
	"epoch": 0.5696,
	"grad_norm": 3.806553363800049,
	"learning_rate": 1.957708259228987e-06,
	"loss": 1.179,
	"step": 712
	},
	{
	"epoch": 0.5704,
	"grad_norm": 1.273412823677063,
	"learning_rate": 1.9515763949831852e-06,
	"loss": 3.5977,
	"step": 713
	},
	{
	"epoch": 0.5712,
	"grad_norm": 3.846447229385376,
	"learning_rate": 1.945447994878937e-06,
	"loss": 1.559,
	"step": 714
	},
	{
	"epoch": 0.572,
	"grad_norm": 1.3436466455459595,
	"learning_rate": 1.9393230976265478e-06,
	"loss": 3.6578,
	"step": 715
	},
	{
	"epoch": 0.5728,
	"grad_norm": 3.7785065174102783,
	"learning_rate": 1.933201741914196e-06,
	"loss": 1.4349,
	"step": 716
	},
	{
	"epoch": 0.5736,
	"grad_norm": 1.8797110319137573,
	"learning_rate": 1.9270839664076937e-06,
	"loss": 3.545,
	"step": 717
	},
	{
	"epoch": 0.5744,
	"grad_norm": 4.088225841522217,
	"learning_rate": 1.920969809750234e-06,
	"loss": 1.31,
	"step": 718
	},
	{
	"epoch": 0.5752,
	"grad_norm": 1.348626732826233,
	"learning_rate": 1.9148593105621542e-06,
	"loss": 3.5437,
	"step": 719
	},
	{
	"epoch": 0.576,
	"grad_norm": 3.5283923149108887,
	"learning_rate": 1.908752507440689e-06,
	"loss": 1.179,
	"step": 720
	},
	{
	"epoch": 0.5768,
	"grad_norm": 1.4678329229354858,
	"learning_rate": 1.9026494389597239e-06,
	"loss": 3.5683,
	"step": 721
	},
	{
	"epoch": 0.5776,
	"grad_norm": 4.486749172210693,
	"learning_rate": 1.8965501436695578e-06,
	"loss": 1.2648,
	"step": 722
	},
	{
	"epoch": 0.5784,
	"grad_norm": 1.4773081541061401,
	"learning_rate": 1.8904546600966539e-06,
	"loss": 3.5973,
	"step": 723
	},
	{
	"epoch": 0.5792,
	"grad_norm": 4.043974876403809,
	"learning_rate": 1.8843630267434e-06,
	"loss": 1.425,
	"step": 724
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.2826696634292603,
	"learning_rate": 1.8782752820878636e-06,
	"loss": 3.5147,
	"step": 725
	},
	{
	"epoch": 0.5808,
	"grad_norm": 3.6155593395233154,
	"learning_rate": 1.872191464583547e-06,
	"loss": 1.4485,
	"step": 726
	},
	{
	"epoch": 0.5816,
	"grad_norm": 1.2381564378738403,
	"learning_rate": 1.8661116126591492e-06,
	"loss": 3.64,
	"step": 727
	},
	{
	"epoch": 0.5824,
	"grad_norm": 4.1232380867004395,
	"learning_rate": 1.8600357647183188e-06,
	"loss": 1.3699,
	"step": 728
	},
	{
	"epoch": 0.5832,
	"grad_norm": 1.070135474205017,
	"learning_rate": 1.8539639591394131e-06,
	"loss": 3.5735,
	"step": 729
	},
	{
	"epoch": 0.584,
	"grad_norm": 3.9993014335632324,
	"learning_rate": 1.8478962342752584e-06,
	"loss": 1.46,
	"step": 730
	},
	{
	"epoch": 0.5848,
	"grad_norm": 1.5479552745819092,
	"learning_rate": 1.8418326284528997e-06,
	"loss": 3.431,
	"step": 731
	},
	{
	"epoch": 0.5856,
	"grad_norm": 4.261895656585693,
	"learning_rate": 1.8357731799733686e-06,
	"loss": 1.5391,
	"step": 732
	},
	{
	"epoch": 0.5864,
	"grad_norm": 0.9864424467086792,
	"learning_rate": 1.8297179271114345e-06,
	"loss": 3.6108,
	"step": 733
	},
	{
	"epoch": 0.5872,
	"grad_norm": 4.133561134338379,
	"learning_rate": 1.8236669081153657e-06,
	"loss": 1.3051,
	"step": 734
	},
	{
	"epoch": 0.588,
	"grad_norm": 1.7257312536239624,
	"learning_rate": 1.8176201612066874e-06,
	"loss": 3.5698,
	"step": 735
	},
	{
	"epoch": 0.5888,
	"grad_norm": 3.8284997940063477,
	"learning_rate": 1.8115777245799383e-06,
	"loss": 1.1011,
	"step": 736
	},
	{
	"epoch": 0.5896,
	"grad_norm": 1.4894834756851196,
	"learning_rate": 1.8055396364024318e-06,
	"loss": 3.5975,
	"step": 737
	},
	{
	"epoch": 0.5904,
	"grad_norm": 4.291233539581299,
	"learning_rate": 1.7995059348140165e-06,
	"loss": 1.4558,
	"step": 738
	},
	{
	"epoch": 0.5912,
	"grad_norm": 1.2095164060592651,
	"learning_rate": 1.7934766579268292e-06,
	"loss": 3.5745,
	"step": 739
	},
	{
	"epoch": 0.592,
	"grad_norm": 4.15226936340332,
	"learning_rate": 1.7874518438250598e-06,
	"loss": 1.4725,
	"step": 740
	},
	{
	"epoch": 0.5928,
	"grad_norm": 1.2965120077133179,
	"learning_rate": 1.7814315305647095e-06,
	"loss": 3.5479,
	"step": 741
	},
	{
	"epoch": 0.5936,
	"grad_norm": 3.704596519470215,
	"learning_rate": 1.7754157561733476e-06,
	"loss": 1.2924,
	"step": 742
	},
	{
	"epoch": 0.5944,
	"grad_norm": 1.8090176582336426,
	"learning_rate": 1.7694045586498754e-06,
	"loss": 3.418,
	"step": 743
	},
	{
	"epoch": 0.5952,
	"grad_norm": 3.9790186882019043,
	"learning_rate": 1.7633979759642844e-06,
	"loss": 1.4173,
	"step": 744
	},
	{
	"epoch": 0.596,
	"grad_norm": 1.8232885599136353,
	"learning_rate": 1.7573960460574133e-06,
	"loss": 3.5081,
	"step": 745
	},
	{
	"epoch": 0.5968,
	"grad_norm": 3.6959445476531982,
	"learning_rate": 1.7513988068407145e-06,
	"loss": 1.2422,
	"step": 746
	},
	{
	"epoch": 0.5976,
	"grad_norm": 1.4322175979614258,
	"learning_rate": 1.7454062961960102e-06,
	"loss": 3.5851,
	"step": 747
	},
	{
	"epoch": 0.5984,
	"grad_norm": 3.444291591644287,
	"learning_rate": 1.7394185519752546e-06,
	"loss": 1.2407,
	"step": 748
	},
	{
	"epoch": 0.5992,
	"grad_norm": 1.024861454963684,
	"learning_rate": 1.7334356120002956e-06,
	"loss": 3.6587,
	"step": 749
	},
	{
	"epoch": 0.6,
	"grad_norm": 4.007371425628662,
	"learning_rate": 1.7274575140626318e-06,
	"loss": 1.3341,
	"step": 750
	},
	{
	"epoch": 0.6008,
	"grad_norm": 1.387477159500122,
	"learning_rate": 1.7214842959231796e-06,
	"loss": 3.5696,
	"step": 751
	},
	{
	"epoch": 0.6016,
	"grad_norm": 3.6198816299438477,
	"learning_rate": 1.7155159953120315e-06,
	"loss": 1.1709,
	"step": 752
	},
	{
	"epoch": 0.6024,
	"grad_norm": 1.5271052122116089,
	"learning_rate": 1.7095526499282172e-06,
	"loss": 3.5466,
	"step": 753
	},
	{
	"epoch": 0.6032,
	"grad_norm": 4.3780317306518555,
	"learning_rate": 1.703594297439469e-06,
	"loss": 1.4056,
	"step": 754
	},
	{
	"epoch": 0.604,
	"grad_norm": 1.0889999866485596,
	"learning_rate": 1.6976409754819767e-06,
	"loss": 3.6382,
	"step": 755
	},
	{
	"epoch": 0.6048,
	"grad_norm": 4.148120403289795,
	"learning_rate": 1.6916927216601593e-06,
	"loss": 1.3061,
	"step": 756
	},
	{
	"epoch": 0.6056,
	"grad_norm": 1.0028917789459229,
	"learning_rate": 1.6857495735464196e-06,
	"loss": 3.6111,
	"step": 757
	},
	{
	"epoch": 0.6064,
	"grad_norm": 3.956118583679199,
	"learning_rate": 1.6798115686809125e-06,
	"loss": 1.4431,
	"step": 758
	},
	{
	"epoch": 0.6072,
	"grad_norm": 1.1292115449905396,
	"learning_rate": 1.673878744571304e-06,
	"loss": 3.6654,
	"step": 759
	},
	{
	"epoch": 0.608,
	"grad_norm": 3.675584554672241,
	"learning_rate": 1.6679511386925337e-06,
	"loss": 1.2957,
	"step": 760
	},
	{
	"epoch": 0.6088,
	"grad_norm": 1.6884305477142334,
	"learning_rate": 1.6620287884865831e-06,
	"loss": 3.471,
	"step": 761
	},
	{
	"epoch": 0.6096,
	"grad_norm": 3.8323042392730713,
	"learning_rate": 1.656111731362236e-06,
	"loss": 1.1559,
	"step": 762
	},
	{
	"epoch": 0.6104,
	"grad_norm": 1.2776001691818237,
	"learning_rate": 1.650200004694839e-06,
	"loss": 3.5601,
	"step": 763
	},
	{
	"epoch": 0.6112,
	"grad_norm": 3.951807737350464,
	"learning_rate": 1.6442936458260723e-06,
	"loss": 1.2963,
	"step": 764
	},
	{
	"epoch": 0.612,
	"grad_norm": 1.0104762315750122,
	"learning_rate": 1.6383926920637077e-06,
	"loss": 3.6454,
	"step": 765
	},
	{
	"epoch": 0.6128,
	"grad_norm": 3.8364481925964355,
	"learning_rate": 1.6324971806813766e-06,
	"loss": 1.2477,
	"step": 766
	},
	{
	"epoch": 0.6136,
	"grad_norm": 1.404075264930725,
	"learning_rate": 1.6266071489183327e-06,
	"loss": 3.5319,
	"step": 767
	},
	{
	"epoch": 0.6144,
	"grad_norm": 3.647761583328247,
	"learning_rate": 1.620722633979219e-06,
	"loss": 1.3192,
	"step": 768
	},
	{
	"epoch": 0.6152,
	"grad_norm": 1.2602980136871338,
	"learning_rate": 1.6148436730338279e-06,
	"loss": 3.5468,
	"step": 769
	},
	{
	"epoch": 0.616,
	"grad_norm": 4.292653560638428,
	"learning_rate": 1.6089703032168736e-06,
	"loss": 1.1626,
	"step": 770
	},
	{
	"epoch": 0.6168,
	"grad_norm": 1.8109797239303589,
	"learning_rate": 1.6031025616277512e-06,
	"loss": 3.5154,
	"step": 771
	},
	{
	"epoch": 0.6176,
	"grad_norm": 4.427074909210205,
	"learning_rate": 1.5972404853303061e-06,
	"loss": 1.1841,
	"step": 772
	},
	{
	"epoch": 0.6184,
	"grad_norm": 1.114534854888916,
	"learning_rate": 1.591384111352599e-06,
	"loss": 3.5374,
	"step": 773
	},
	{
	"epoch": 0.6192,
	"grad_norm": 3.930265426635742,
	"learning_rate": 1.585533476686669e-06,
	"loss": 1.203,
	"step": 774
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.7864525318145752,
	"learning_rate": 1.5796886182883053e-06,
	"loss": 3.4942,
	"step": 775
	},
	{
	"epoch": 0.6208,
	"grad_norm": 4.248049259185791,
	"learning_rate": 1.5738495730768104e-06,
	"loss": 1.5361,
	"step": 776
	},
	{
	"epoch": 0.6216,
	"grad_norm": 1.1578404903411865,
	"learning_rate": 1.5680163779347668e-06,
	"loss": 3.5659,
	"step": 777
	},
	{
	"epoch": 0.6224,
	"grad_norm": 4.111908435821533,
	"learning_rate": 1.5621890697078069e-06,
	"loss": 1.582,
	"step": 778
	},
	{
	"epoch": 0.6232,
	"grad_norm": 1.2350143194198608,
	"learning_rate": 1.5563676852043738e-06,
	"loss": 3.5397,
	"step": 779
	},
	{
	"epoch": 0.624,
	"grad_norm": 4.6647562980651855,
	"learning_rate": 1.5505522611954977e-06,
	"loss": 1.5677,
	"step": 780
	},
	{
	"epoch": 0.6248,
	"grad_norm": 1.5898746252059937,
	"learning_rate": 1.5447428344145565e-06,
	"loss": 3.4637,
	"step": 781
	},
	{
	"epoch": 0.6256,
	"grad_norm": 4.031108856201172,
	"learning_rate": 1.538939441557048e-06,
	"loss": 1.5085,
	"step": 782
	},
	{
	"epoch": 0.6264,
	"grad_norm": 1.1129035949707031,
	"learning_rate": 1.5331421192803565e-06,
	"loss": 3.7525,
	"step": 783
	},
	{
	"epoch": 0.6272,
	"grad_norm": 3.7480621337890625,
	"learning_rate": 1.5273509042035172e-06,
	"loss": 1.3526,
	"step": 784
	},
	{
	"epoch": 0.628,
	"grad_norm": 1.4506335258483887,
	"learning_rate": 1.521565832906994e-06,
	"loss": 3.4543,
	"step": 785
	},
	{
	"epoch": 0.6288,
	"grad_norm": 4.091665267944336,
	"learning_rate": 1.515786941932441e-06,
	"loss": 1.3925,
	"step": 786
	},
	{
	"epoch": 0.6296,
	"grad_norm": 1.7259176969528198,
	"learning_rate": 1.5100142677824752e-06,
	"loss": 3.5212,
	"step": 787
	},
	{
	"epoch": 0.6304,
	"grad_norm": 3.6364309787750244,
	"learning_rate": 1.5042478469204437e-06,
	"loss": 1.486,
	"step": 788
	},
	{
	"epoch": 0.6312,
	"grad_norm": 1.0510691404342651,
	"learning_rate": 1.4984877157701932e-06,
	"loss": 3.5759,
	"step": 789
	},
	{
	"epoch": 0.632,
	"grad_norm": 3.974539041519165,
	"learning_rate": 1.4927339107158437e-06,
	"loss": 1.3787,
	"step": 790
	},
	{
	"epoch": 0.6328,
	"grad_norm": 1.5087684392929077,
	"learning_rate": 1.486986468101555e-06,
	"loss": 3.547,
	"step": 791
	},
	{
	"epoch": 0.6336,
	"grad_norm": 3.6339049339294434,
	"learning_rate": 1.481245424231298e-06,
	"loss": 1.321,
	"step": 792
	},
	{
	"epoch": 0.6344,
	"grad_norm": 1.1450809240341187,
	"learning_rate": 1.4755108153686275e-06,
	"loss": 3.6239,
	"step": 793
	},
	{
	"epoch": 0.6352,
	"grad_norm": 3.5662426948547363,
	"learning_rate": 1.4697826777364478e-06,
	"loss": 1.2403,
	"step": 794
	},
	{
	"epoch": 0.636,
	"grad_norm": 1.2532669305801392,
	"learning_rate": 1.46406104751679e-06,
	"loss": 3.5814,
	"step": 795
	},
	{
	"epoch": 0.6368,
	"grad_norm": 3.5871071815490723,
	"learning_rate": 1.45834596085058e-06,
	"loss": 1.2413,
	"step": 796
	},
	{
	"epoch": 0.6376,
	"grad_norm": 1.7455424070358276,
	"learning_rate": 1.4526374538374133e-06,
	"loss": 3.5806,
	"step": 797
	},
	{
	"epoch": 0.6384,
	"grad_norm": 4.081576824188232,
	"learning_rate": 1.4469355625353199e-06,
	"loss": 1.314,
	"step": 798
	},
	{
	"epoch": 0.6392,
	"grad_norm": 1.2774088382720947,
	"learning_rate": 1.4412403229605453e-06,
	"loss": 3.5766,
	"step": 799
	},
	{
	"epoch": 0.64,
	"grad_norm": 4.024228572845459,
	"learning_rate": 1.4355517710873184e-06,
	"loss": 1.3179,
	"step": 800
	},
	{
	"epoch": 0.6408,
	"grad_norm": 1.5069676637649536,
	"learning_rate": 1.4298699428476236e-06,
	"loss": 3.4628,
	"step": 801
	},
	{
	"epoch": 0.6416,
	"grad_norm": 3.8722047805786133,
	"learning_rate": 1.4241948741309783e-06,
	"loss": 1.2991,
	"step": 802
	},
	{
	"epoch": 0.6424,
	"grad_norm": 1.4869807958602905,
	"learning_rate": 1.418526600784198e-06,
	"loss": 3.5303,
	"step": 803
	},
	{
	"epoch": 0.6432,
	"grad_norm": 4.096463680267334,
	"learning_rate": 1.412865158611179e-06,
	"loss": 1.4464,
	"step": 804
	},
	{
	"epoch": 0.644,
	"grad_norm": 1.3232511281967163,
	"learning_rate": 1.4072105833726685e-06,
	"loss": 3.5599,
	"step": 805
	},
	{
	"epoch": 0.6448,
	"grad_norm": 3.500465154647827,
	"learning_rate": 1.401562910786034e-06,
	"loss": 1.3568,
	"step": 806
	},
	{
	"epoch": 0.6456,
	"grad_norm": 1.6436785459518433,
	"learning_rate": 1.395922176525047e-06,
	"loss": 3.5835,
	"step": 807
	},
	{
	"epoch": 0.6464,
	"grad_norm": 3.5307986736297607,
	"learning_rate": 1.3902884162196509e-06,
	"loss": 1.3578,
	"step": 808
	},
	{
	"epoch": 0.6472,
	"grad_norm": 1.2310173511505127,
	"learning_rate": 1.384661665455736e-06,
	"loss": 3.626,
	"step": 809
	},
	{
	"epoch": 0.648,
	"grad_norm": 5.397148132324219,
	"learning_rate": 1.3790419597749198e-06,
	"loss": 1.3758,
	"step": 810
	},
	{
	"epoch": 0.6488,
	"grad_norm": 1.2223182916641235,
	"learning_rate": 1.373429334674317e-06,
	"loss": 3.5392,
	"step": 811
	},
	{
	"epoch": 0.6496,
	"grad_norm": 5.135192394256592,
	"learning_rate": 1.3678238256063193e-06,
	"loss": 1.27,
	"step": 812
	},
	{
	"epoch": 0.6504,
	"grad_norm": 1.457159161567688,
	"learning_rate": 1.3622254679783665e-06,
	"loss": 3.5182,
	"step": 813
	},
	{
	"epoch": 0.6512,
	"grad_norm": 3.729689359664917,
	"learning_rate": 1.356634297152729e-06,
	"loss": 1.219,
	"step": 814
	},
	{
	"epoch": 0.652,
	"grad_norm": 1.7926121950149536,
	"learning_rate": 1.3510503484462807e-06,
	"loss": 3.4169,
	"step": 815
	},
	{
	"epoch": 0.6528,
	"grad_norm": 3.46643328666687,
	"learning_rate": 1.3454736571302761e-06,
	"loss": 1.2486,
	"step": 816
	},
	{
	"epoch": 0.6536,
	"grad_norm": 1.3711421489715576,
	"learning_rate": 1.3399042584301298e-06,
	"loss": 3.5197,
	"step": 817
	},
	{
	"epoch": 0.6544,
	"grad_norm": 4.594119071960449,
	"learning_rate": 1.334342187525189e-06,
	"loss": 1.2484,
	"step": 818
	},
	{
	"epoch": 0.6552,
	"grad_norm": 1.1788302659988403,
	"learning_rate": 1.3287874795485168e-06,
	"loss": 3.574,
	"step": 819
	},
	{
	"epoch": 0.656,
	"grad_norm": 3.5496530532836914,
	"learning_rate": 1.3232401695866686e-06,
	"loss": 1.1791,
	"step": 820
	},
	{
	"epoch": 0.6568,
	"grad_norm": 1.140120267868042,
	"learning_rate": 1.3177002926794685e-06,
	"loss": 3.6431,
	"step": 821
	},
	{
	"epoch": 0.6576,
	"grad_norm": 4.5700554847717285,
	"learning_rate": 1.312167883819791e-06,
	"loss": 1.3331,
	"step": 822
	},
	{
	"epoch": 0.6584,
	"grad_norm": 1.6417975425720215,
	"learning_rate": 1.3066429779533352e-06,
	"loss": 3.4451,
	"step": 823
	},
	{
	"epoch": 0.6592,
	"grad_norm": 3.6675314903259277,
	"learning_rate": 1.3011256099784103e-06,
	"loss": 1.1985,
	"step": 824
	},
	{
	"epoch": 0.66,
	"grad_norm": 0.9253246784210205,
	"learning_rate": 1.2956158147457116e-06,
	"loss": 3.6082,
	"step": 825
	},
	{
	"epoch": 0.6608,
	"grad_norm": 4.173038482666016,
	"learning_rate": 1.2901136270580994e-06,
	"loss": 1.2908,
	"step": 826
	},
	{
	"epoch": 0.6616,
	"grad_norm": 1.7744218111038208,
	"learning_rate": 1.2846190816703836e-06,
	"loss": 3.4493,
	"step": 827
	},
	{
	"epoch": 0.6624,
	"grad_norm": 3.8822882175445557,
	"learning_rate": 1.279132213289096e-06,
	"loss": 1.5025,
	"step": 828
	},
	{
	"epoch": 0.6632,
	"grad_norm": 1.4533785581588745,
	"learning_rate": 1.273653056572282e-06,
	"loss": 3.5351,
	"step": 829
	},
	{
	"epoch": 0.664,
	"grad_norm": 3.9480459690093994,
	"learning_rate": 1.2681816461292715e-06,
	"loss": 1.3216,
	"step": 830
	},
	{
	"epoch": 0.6648,
	"grad_norm": 1.3655693531036377,
	"learning_rate": 1.2627180165204671e-06,
	"loss": 3.5135,
	"step": 831
	},
	{
	"epoch": 0.6656,
	"grad_norm": 3.7476413249969482,
	"learning_rate": 1.257262202257124e-06,
	"loss": 1.4918,
	"step": 832
	},
	{
	"epoch": 0.6664,
	"grad_norm": 1.7849209308624268,
	"learning_rate": 1.251814237801128e-06,
	"loss": 3.4437,
	"step": 833
	},
	{
	"epoch": 0.6672,
	"grad_norm": 4.042788982391357,
	"learning_rate": 1.246374157564785e-06,
	"loss": 1.1764,
	"step": 834
	},
	{
	"epoch": 0.668,
	"grad_norm": 1.2156387567520142,
	"learning_rate": 1.2409419959105981e-06,
	"loss": 3.565,
	"step": 835
	},
	{
	"epoch": 0.6688,
	"grad_norm": 3.900473117828369,
	"learning_rate": 1.2355177871510538e-06,
	"loss": 1.2951,
	"step": 836
	},
	{
	"epoch": 0.6696,
	"grad_norm": 1.0474777221679688,
	"learning_rate": 1.2301015655484006e-06,
	"loss": 3.6051,
	"step": 837
	},
	{
	"epoch": 0.6704,
	"grad_norm": 3.8230295181274414,
	"learning_rate": 1.2246933653144386e-06,
	"loss": 1.4542,
	"step": 838
	},
	{
	"epoch": 0.6712,
	"grad_norm": 1.6013360023498535,
	"learning_rate": 1.2192932206103e-06,
	"loss": 3.4223,
	"step": 839
	},
	{
	"epoch": 0.672,
	"grad_norm": 3.603398084640503,
	"learning_rate": 1.2139011655462338e-06,
	"loss": 1.1428,
	"step": 840
	},
	{
	"epoch": 0.6728,
	"grad_norm": 0.9630873203277588,
	"learning_rate": 1.208517234181391e-06,
	"loss": 3.63,
	"step": 841
	},
	{
	"epoch": 0.6736,
	"grad_norm": 3.746964931488037,
	"learning_rate": 1.2031414605236066e-06,
	"loss": 1.2324,
	"step": 842
	},
	{
	"epoch": 0.6744,
	"grad_norm": 1.1261411905288696,
	"learning_rate": 1.1977738785291894e-06,
	"loss": 3.5977,
	"step": 843
	},
	{
	"epoch": 0.6752,
	"grad_norm": 3.895467519760132,
	"learning_rate": 1.1924145221027048e-06,
	"loss": 1.1571,
	"step": 844
	},
	{
	"epoch": 0.676,
	"grad_norm": 1.2304555177688599,
	"learning_rate": 1.1870634250967606e-06,
	"loss": 3.613,
	"step": 845
	},
	{
	"epoch": 0.6768,
	"grad_norm": 3.7354040145874023,
	"learning_rate": 1.1817206213117943e-06,
	"loss": 1.4115,
	"step": 846
	},
	{
	"epoch": 0.6776,
	"grad_norm": 1.3557534217834473,
	"learning_rate": 1.1763861444958573e-06,
	"loss": 3.5227,
	"step": 847
	},
	{
	"epoch": 0.6784,
	"grad_norm": 8.678403854370117,
	"learning_rate": 1.1710600283444048e-06,
	"loss": 1.3812,
	"step": 848
	},
	{
	"epoch": 0.6792,
	"grad_norm": 1.2234259843826294,
	"learning_rate": 1.1657423065000811e-06,
	"loss": 3.5525,
	"step": 849
	},
	{
	"epoch": 0.68,
	"grad_norm": 4.474430084228516,
	"learning_rate": 1.160433012552508e-06,
	"loss": 1.5074,
	"step": 850
	},
	{
	"epoch": 0.6808,
	"grad_norm": 1.9095535278320312,
	"learning_rate": 1.1551321800380722e-06,
	"loss": 3.3455,
	"step": 851
	},
	{
	"epoch": 0.6816,
	"grad_norm": 4.141076564788818,
	"learning_rate": 1.1498398424397106e-06,
	"loss": 1.2947,
	"step": 852
	},
	{
	"epoch": 0.6824,
	"grad_norm": 1.9714593887329102,
	"learning_rate": 1.1445560331867054e-06,
	"loss": 3.455,
	"step": 853
	},
	{
	"epoch": 0.6832,
	"grad_norm": 4.287348747253418,
	"learning_rate": 1.1392807856544682e-06,
	"loss": 1.3707,
	"step": 854
	},
	{
	"epoch": 0.684,
	"grad_norm": 1.3626141548156738,
	"learning_rate": 1.1340141331643276e-06,
	"loss": 3.4847,
	"step": 855
	},
	{
	"epoch": 0.6848,
	"grad_norm": 4.172240734100342,
	"learning_rate": 1.128756108983325e-06,
	"loss": 1.1837,
	"step": 856
	},
	{
	"epoch": 0.6856,
	"grad_norm": 1.6149402856826782,
	"learning_rate": 1.123506746323997e-06,
	"loss": 3.3876,
	"step": 857
	},
	{
	"epoch": 0.6864,
	"grad_norm": 4.046041011810303,
	"learning_rate": 1.1182660783441719e-06,
	"loss": 1.199,
	"step": 858
	},
	{
	"epoch": 0.6872,
	"grad_norm": 1.2951021194458008,
	"learning_rate": 1.1130341381467569e-06,
	"loss": 3.546,
	"step": 859
	},
	{
	"epoch": 0.688,
	"grad_norm": 3.817901611328125,
	"learning_rate": 1.1078109587795311e-06,
	"loss": 1.2792,
	"step": 860
	},
	{
	"epoch": 0.6888,
	"grad_norm": 1.45967435836792,
	"learning_rate": 1.1025965732349318e-06,
	"loss": 3.5619,
	"step": 861
	},
	{
	"epoch": 0.6896,
	"grad_norm": 3.8560800552368164,
	"learning_rate": 1.0973910144498534e-06,
	"loss": 1.3367,
	"step": 862
	},
	{
	"epoch": 0.6904,
	"grad_norm": 1.186650037765503,
	"learning_rate": 1.0921943153054343e-06,
	"loss": 3.5638,
	"step": 863
	},
	{
	"epoch": 0.6912,
	"grad_norm": 3.8473381996154785,
	"learning_rate": 1.0870065086268506e-06,
	"loss": 1.3076,
	"step": 864
	},
	{
	"epoch": 0.692,
	"grad_norm": 1.6394022703170776,
	"learning_rate": 1.0818276271831094e-06,
	"loss": 3.5127,
	"step": 865
	},
	{
	"epoch": 0.6928,
	"grad_norm": 4.1624016761779785,
	"learning_rate": 1.0766577036868395e-06,
	"loss": 1.3827,
	"step": 866
	},
	{
	"epoch": 0.6936,
	"grad_norm": 1.134089469909668,
	"learning_rate": 1.0714967707940876e-06,
	"loss": 3.5572,
	"step": 867
	},
	{
	"epoch": 0.6944,
	"grad_norm": 4.057480335235596,
	"learning_rate": 1.0663448611041114e-06,
	"loss": 1.4129,
	"step": 868
	},
	{
	"epoch": 0.6952,
	"grad_norm": 1.2894881963729858,
	"learning_rate": 1.0612020071591722e-06,
	"loss": 3.5994,
	"step": 869
	},
	{
	"epoch": 0.696,
	"grad_norm": 3.5933890342712402,
	"learning_rate": 1.0560682414443315e-06,
	"loss": 1.1426,
	"step": 870
	},
	{
	"epoch": 0.6968,
	"grad_norm": 1.4715263843536377,
	"learning_rate": 1.0509435963872422e-06,
	"loss": 3.5776,
	"step": 871
	},
	{
	"epoch": 0.6976,
	"grad_norm": 3.6835391521453857,
	"learning_rate": 1.0458281043579482e-06,
	"loss": 1.3991,
	"step": 872
	},
	{
	"epoch": 0.6984,
	"grad_norm": 1.2193199396133423,
	"learning_rate": 1.0407217976686777e-06,
	"loss": 3.5754,
	"step": 873
	},
	{
	"epoch": 0.6992,
	"grad_norm": 3.6208441257476807,
	"learning_rate": 1.0356247085736388e-06,
	"loss": 1.2799,
	"step": 874
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.3012170791625977,
	"learning_rate": 1.0305368692688175e-06,
	"loss": 3.5576,
	"step": 875
	},
	{
	"epoch": 0.7008,
	"grad_norm": 3.988499879837036,
	"learning_rate": 1.0254583118917699e-06,
	"loss": 1.4413,
	"step": 876
	},
	{
	"epoch": 0.7016,
	"grad_norm": 1.3237192630767822,
	"learning_rate": 1.020389068521426e-06,
	"loss": 3.5586,
	"step": 877
	},
	{
	"epoch": 0.7024,
	"grad_norm": 4.113298416137695,
	"learning_rate": 1.0153291711778825e-06,
	"loss": 1.4436,
	"step": 878
	},
	{
	"epoch": 0.7032,
	"grad_norm": 1.1641186475753784,
	"learning_rate": 1.0102786518221997e-06,
	"loss": 3.5658,
	"step": 879
	},
	{
	"epoch": 0.704,
	"grad_norm": 4.27529239654541,
	"learning_rate": 1.0052375423562038e-06,
	"loss": 1.3145,
	"step": 880
	},
	{
	"epoch": 0.7048,
	"grad_norm": 1.370846152305603,
	"learning_rate": 1.0002058746222807e-06,
	"loss": 3.5536,
	"step": 881
	},
	{
	"epoch": 0.7056,
	"grad_norm": 4.043067932128906,
	"learning_rate": 9.951836804031795e-07,
	"loss": 1.2685,
	"step": 882
	},
	{
	"epoch": 0.7064,
	"grad_norm": 1.643572211265564,
	"learning_rate": 9.90170991421808e-07,
	"loss": 3.5677,
	"step": 883
	},
	{
	"epoch": 0.7072,
	"grad_norm": 4.03674840927124,
	"learning_rate": 9.851678393410343e-07,
	"loss": 1.3122,
	"step": 884
	},
	{
	"epoch": 0.708,
	"grad_norm": 1.0866400003433228,
	"learning_rate": 9.801742557634872e-07,
	"loss": 3.5932,
	"step": 885
	},
	{
	"epoch": 0.7088,
	"grad_norm": 3.896414279937744,
	"learning_rate": 9.751902722313527e-07,
	"loss": 1.2974,
	"step": 886
	},
	{
	"epoch": 0.7096,
	"grad_norm": 1.1581923961639404,
	"learning_rate": 9.702159202261802e-07,
	"loss": 3.5641,
	"step": 887
	},
	{
	"epoch": 0.7104,
	"grad_norm": 3.8378193378448486,
	"learning_rate": 9.65251231168681e-07,
	"loss": 1.2477,
	"step": 888
	},
	{
	"epoch": 0.7112,
	"grad_norm": 1.1178447008132935,
	"learning_rate": 9.602962364185286e-07,
	"loss": 3.5832,
	"step": 889
	},
	{
	"epoch": 0.712,
	"grad_norm": 3.76153302192688,
	"learning_rate": 9.553509672741646e-07,
	"loss": 1.5284,
	"step": 890
	},
	{
	"epoch": 0.7128,
	"grad_norm": 1.6611312627792358,
	"learning_rate": 9.504154549725944e-07,
	"loss": 3.4278,
	"step": 891
	},
	{
	"epoch": 0.7136,
	"grad_norm": 3.821173906326294,
	"learning_rate": 9.454897306891972e-07,
	"loss": 1.3952,
	"step": 892
	},
	{
	"epoch": 0.7144,
	"grad_norm": 0.9451780915260315,
	"learning_rate": 9.405738255375243e-07,
	"loss": 3.5839,
	"step": 893
	},
	{
	"epoch": 0.7152,
	"grad_norm": 5.367844104766846,
	"learning_rate": 9.356677705691058e-07,
	"loss": 1.3163,
	"step": 894
	},
	{
	"epoch": 0.716,
	"grad_norm": 1.4917246103286743,
	"learning_rate": 9.307715967732492e-07,
	"loss": 3.3808,
	"step": 895
	},
	{
	"epoch": 0.7168,
	"grad_norm": 4.245250225067139,
	"learning_rate": 9.258853350768499e-07,
	"loss": 1.3849,
	"step": 896
	},
	{
	"epoch": 0.7176,
	"grad_norm": 1.8379777669906616,
	"learning_rate": 9.210090163441928e-07,
	"loss": 3.5479,
	"step": 897
	},
	{
	"epoch": 0.7184,
	"grad_norm": 3.840579032897949,
	"learning_rate": 9.161426713767574e-07,
	"loss": 1.3287,
	"step": 898
	},
	{
	"epoch": 0.7192,
	"grad_norm": 1.2158552408218384,
	"learning_rate": 9.112863309130235e-07,
	"loss": 3.5524,
	"step": 899
	},
	{
	"epoch": 0.72,
	"grad_norm": 4.019105434417725,
	"learning_rate": 9.064400256282757e-07,
	"loss": 1.2645,
	"step": 900
	},
	{
	"epoch": 0.7208,
	"grad_norm": 1.4201416969299316,
	"learning_rate": 9.01603786134413e-07,
	"loss": 3.5722,
	"step": 901
	},
	{
	"epoch": 0.7216,
	"grad_norm": 3.683457851409912,
	"learning_rate": 8.967776429797529e-07,
	"loss": 1.2652,
	"step": 902
	},
	{
	"epoch": 0.7224,
	"grad_norm": 1.3120098114013672,
	"learning_rate": 8.919616266488373e-07,
	"loss": 3.5835,
	"step": 903
	},
	{
	"epoch": 0.7232,
	"grad_norm": 3.85827898979187,
	"learning_rate": 8.871557675622442e-07,
	"loss": 1.407,
	"step": 904
	},
	{
	"epoch": 0.724,
	"grad_norm": 1.2667253017425537,
	"learning_rate": 8.823600960763901e-07,
	"loss": 3.5396,
	"step": 905
	},
	{
	"epoch": 0.7248,
	"grad_norm": 3.5598056316375732,
	"learning_rate": 8.775746424833428e-07,
	"loss": 1.1467,
	"step": 906
	},
	{
	"epoch": 0.7256,
	"grad_norm": 1.2805604934692383,
	"learning_rate": 8.727994370106288e-07,
	"loss": 3.5316,
	"step": 907
	},
	{
	"epoch": 0.7264,
	"grad_norm": 4.258754253387451,
	"learning_rate": 8.680345098210408e-07,
	"loss": 1.312,
	"step": 908
	},
	{
	"epoch": 0.7272,
	"grad_norm": 1.3038127422332764,
	"learning_rate": 8.632798910124493e-07,
	"loss": 3.5995,
	"step": 909
	},
	{
	"epoch": 0.728,
	"grad_norm": 3.3651838302612305,
	"learning_rate": 8.585356106176093e-07,
	"loss": 1.12,
	"step": 910
	},
	{
	"epoch": 0.7288,
	"grad_norm": 1.9212744235992432,
	"learning_rate": 8.538016986039751e-07,
	"loss": 3.5292,
	"step": 911
	},
	{
	"epoch": 0.7296,
	"grad_norm": 4.390267848968506,
	"learning_rate": 8.49078184873508e-07,
	"loss": 1.2082,
	"step": 912
	},
	{
	"epoch": 0.7304,
	"grad_norm": 1.133646845817566,
	"learning_rate": 8.443650992624877e-07,
	"loss": 3.6091,
	"step": 913
	},
	{
	"epoch": 0.7312,
	"grad_norm": 3.671508550643921,
	"learning_rate": 8.396624715413251e-07,
	"loss": 1.2595,
	"step": 914
	},
	{
	"epoch": 0.732,
	"grad_norm": 1.238884687423706,
	"learning_rate": 8.349703314143712e-07,
	"loss": 3.516,
	"step": 915
	},
	{
	"epoch": 0.7328,
	"grad_norm": 4.374630451202393,
	"learning_rate": 8.302887085197342e-07,
	"loss": 1.2724,
	"step": 916
	},
	{
	"epoch": 0.7336,
	"grad_norm": 1.0681443214416504,
	"learning_rate": 8.256176324290885e-07,
	"loss": 3.5777,
	"step": 917
	},
	{
	"epoch": 0.7344,
	"grad_norm": 4.399445056915283,
	"learning_rate": 8.209571326474897e-07,
	"loss": 1.5055,
	"step": 918
	},
	{
	"epoch": 0.7352,
	"grad_norm": 1.302098035812378,
	"learning_rate": 8.163072386131876e-07,
	"loss": 3.5391,
	"step": 919
	},
	{
	"epoch": 0.736,
	"grad_norm": 4.033039093017578,
	"learning_rate": 8.116679796974389e-07,
	"loss": 1.4171,
	"step": 920
	},
	{
	"epoch": 0.7368,
	"grad_norm": 1.2380177974700928,
	"learning_rate": 8.070393852043251e-07,
	"loss": 3.5787,
	"step": 921
	},
	{
	"epoch": 0.7376,
	"grad_norm": 4.127280235290527,
	"learning_rate": 8.024214843705647e-07,
	"loss": 1.4362,
	"step": 922
	},
	{
	"epoch": 0.7384,
	"grad_norm": 1.448819875717163,
	"learning_rate": 7.978143063653296e-07,
	"loss": 3.5109,
	"step": 923
	},
	{
	"epoch": 0.7392,
	"grad_norm": 4.252338886260986,
	"learning_rate": 7.93217880290059e-07,
	"loss": 1.2241,
	"step": 924
	},
	{
	"epoch": 0.74,
	"grad_norm": 1.3917127847671509,
	"learning_rate": 7.886322351782782e-07,
	"loss": 3.5236,
	"step": 925
	},
	{
	"epoch": 0.7408,
	"grad_norm": 3.9095723628997803,
	"learning_rate": 7.840573999954154e-07,
	"loss": 1.3039,
	"step": 926
	},
	{
	"epoch": 0.7416,
	"grad_norm": 1.6759053468704224,
	"learning_rate": 7.794934036386139e-07,
	"loss": 3.5408,
	"step": 927
	},
	{
	"epoch": 0.7424,
	"grad_norm": 3.9729490280151367,
	"learning_rate": 7.749402749365573e-07,
	"loss": 1.2951,
	"step": 928
	},
	{
	"epoch": 0.7432,
	"grad_norm": 1.7310004234313965,
	"learning_rate": 7.703980426492791e-07,
	"loss": 3.4605,
	"step": 929
	},
	{
	"epoch": 0.744,
	"grad_norm": 4.3605523109436035,
	"learning_rate": 7.65866735467988e-07,
	"loss": 1.2495,
	"step": 930
	},
	{
	"epoch": 0.7448,
	"grad_norm": 1.055009365081787,
	"learning_rate": 7.613463820148831e-07,
	"loss": 3.5749,
	"step": 931
	},
	{
	"epoch": 0.7456,
	"grad_norm": 4.379756450653076,
	"learning_rate": 7.568370108429732e-07,
	"loss": 1.3678,
	"step": 932
	},
	{
	"epoch": 0.7464,
	"grad_norm": 1.133419156074524,
	"learning_rate": 7.523386504358984e-07,
	"loss": 3.6624,
	"step": 933
	},
	{
	"epoch": 0.7472,
	"grad_norm": 3.2285141944885254,
	"learning_rate": 7.478513292077463e-07,
	"loss": 1.2785,
	"step": 934
	},
	{
	"epoch": 0.748,
	"grad_norm": 1.2085245847702026,
	"learning_rate": 7.433750755028774e-07,
	"loss": 3.6372,
	"step": 935
	},
	{
	"epoch": 0.7488,
	"grad_norm": 3.985098123550415,
	"learning_rate": 7.389099175957426e-07,
	"loss": 1.3853,
	"step": 936
	},
	{
	"epoch": 0.7496,
	"grad_norm": 1.3521220684051514,
	"learning_rate": 7.344558836907067e-07,
	"loss": 3.4587,
	"step": 937
	},
	{
	"epoch": 0.7504,
	"grad_norm": 3.7972023487091064,
	"learning_rate": 7.300130019218688e-07,
	"loss": 1.4041,
	"step": 938
	},
	{
	"epoch": 0.7512,
	"grad_norm": 1.1607991456985474,
	"learning_rate": 7.255813003528834e-07,
	"loss": 3.5921,
	"step": 939
	},
	{
	"epoch": 0.752,
	"grad_norm": 4.701716423034668,
	"learning_rate": 7.211608069767867e-07,
	"loss": 1.1838,
	"step": 940
	},
	{
	"epoch": 0.7528,
	"grad_norm": 1.6962052583694458,
	"learning_rate": 7.167515497158179e-07,
	"loss": 3.4455,
	"step": 941
	},
	{
	"epoch": 0.7536,
	"grad_norm": 3.769155502319336,
	"learning_rate": 7.123535564212419e-07,
	"loss": 1.417,
	"step": 942
	},
	{
	"epoch": 0.7544,
	"grad_norm": 1.5282889604568481,
	"learning_rate": 7.079668548731757e-07,
	"loss": 3.4607,
	"step": 943
	},
	{
	"epoch": 0.7552,
	"grad_norm": 4.213266372680664,
	"learning_rate": 7.035914727804085e-07,
	"loss": 1.1793,
	"step": 944
	},
	{
	"epoch": 0.756,
	"grad_norm": 1.5362334251403809,
	"learning_rate": 6.992274377802328e-07,
	"loss": 3.5102,
	"step": 945
	},
	{
	"epoch": 0.7568,
	"grad_norm": 3.7498528957366943,
	"learning_rate": 6.94874777438265e-07,
	"loss": 1.2506,
	"step": 946
	},
	{
	"epoch": 0.7576,
	"grad_norm": 1.2717052698135376,
	"learning_rate": 6.905335192482734e-07,
	"loss": 3.5799,
	"step": 947
	},
	{
	"epoch": 0.7584,
	"grad_norm": 4.157364368438721,
	"learning_rate": 6.862036906320055e-07,
	"loss": 1.3018,
	"step": 948
	},
	{
	"epoch": 0.7592,
	"grad_norm": 1.7433124780654907,
	"learning_rate": 6.818853189390104e-07,
	"loss": 3.4984,
	"step": 949
	},
	{
	"epoch": 0.76,
	"grad_norm": 4.441183567047119,
	"learning_rate": 6.775784314464717e-07,
	"loss": 1.4515,
	"step": 950
	},
	{
	"epoch": 0.7608,
	"grad_norm": 1.48224675655365,
	"learning_rate": 6.732830553590305e-07,
	"loss": 3.5688,
	"step": 951
	},
	{
	"epoch": 0.7616,
	"grad_norm": 3.9499704837799072,
	"learning_rate": 6.689992178086174e-07,
	"loss": 1.2271,
	"step": 952
	},
	{
	"epoch": 0.7624,
	"grad_norm": 1.458235263824463,
	"learning_rate": 6.647269458542793e-07,
	"loss": 3.5244,
	"step": 953
	},
	{
	"epoch": 0.7632,
	"grad_norm": 3.810727596282959,
	"learning_rate": 6.604662664820063e-07,
	"loss": 1.2276,
	"step": 954
	},
	{
	"epoch": 0.764,
	"grad_norm": 1.6759514808654785,
	"learning_rate": 6.562172066045655e-07,
	"loss": 3.4945,
	"step": 955
	},
	{
	"epoch": 0.7648,
	"grad_norm": 4.024814128875732,
	"learning_rate": 6.519797930613289e-07,
	"loss": 1.3065,
	"step": 956
	},
	{
	"epoch": 0.7656,
	"grad_norm": 1.238553524017334,
	"learning_rate": 6.477540526181036e-07,
	"loss": 3.5006,
	"step": 957
	},
	{
	"epoch": 0.7664,
	"grad_norm": 3.444575786590576,
	"learning_rate": 6.435400119669618e-07,
	"loss": 1.3996,
	"step": 958
	},
	{
	"epoch": 0.7672,
	"grad_norm": 1.3021897077560425,
	"learning_rate": 6.393376977260754e-07,
	"loss": 3.5961,
	"step": 959
	},
	{
	"epoch": 0.768,
	"grad_norm": 4.322812080383301,
	"learning_rate": 6.351471364395448e-07,
	"loss": 1.5874,
	"step": 960
	},
	{
	"epoch": 0.7688,
	"grad_norm": 1.3130619525909424,
	"learning_rate": 6.309683545772327e-07,
	"loss": 3.5893,
	"step": 961
	},
	{
	"epoch": 0.7696,
	"grad_norm": 4.154742240905762,
	"learning_rate": 6.268013785345969e-07,
	"loss": 1.5529,
	"step": 962
	},
	{
	"epoch": 0.7704,
	"grad_norm": 1.2372699975967407,
	"learning_rate": 6.226462346325221e-07,
	"loss": 3.5887,
	"step": 963
	},
	{
	"epoch": 0.7712,
	"grad_norm": 3.7366716861724854,
	"learning_rate": 6.185029491171554e-07,
	"loss": 1.3078,
	"step": 964
	},
	{
	"epoch": 0.772,
	"grad_norm": 1.2591793537139893,
	"learning_rate": 6.143715481597404e-07,
	"loss": 3.5405,
	"step": 965
	},
	{
	"epoch": 0.7728,
	"grad_norm": 3.966529369354248,
	"learning_rate": 6.102520578564508e-07,
	"loss": 1.2979,
	"step": 966
	},
	{
	"epoch": 0.7736,
	"grad_norm": 1.7405962944030762,
	"learning_rate": 6.061445042282271e-07,
	"loss": 3.4681,
	"step": 967
	},
	{
	"epoch": 0.7744,
	"grad_norm": 4.989678859710693,
	"learning_rate": 6.02048913220609e-07,
	"loss": 1.6273,
	"step": 968
	},
	{
	"epoch": 0.7752,
	"grad_norm": 1.1819043159484863,
	"learning_rate": 5.979653107035754e-07,
	"loss": 3.5553,
	"step": 969
	},
	{
	"epoch": 0.776,
	"grad_norm": 4.24968957901001,
	"learning_rate": 5.9389372247138e-07,
	"loss": 1.7848,
	"step": 970
	},
	{
	"epoch": 0.7768,
	"grad_norm": 1.146349549293518,
	"learning_rate": 5.898341742423866e-07,
	"loss": 3.5557,
	"step": 971
	},
	{
	"epoch": 0.7776,
	"grad_norm": 3.359968423843384,
	"learning_rate": 5.857866916589089e-07,
	"loss": 1.1097,
	"step": 972
	},
	{
	"epoch": 0.7784,
	"grad_norm": 1.3294552564620972,
	"learning_rate": 5.817513002870451e-07,
	"loss": 3.5291,
	"step": 973
	},
	{
	"epoch": 0.7792,
	"grad_norm": 3.7747585773468018,
	"learning_rate": 5.777280256165218e-07,
	"loss": 1.1422,
	"step": 974
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.3020869493484497,
	"learning_rate": 5.737168930605272e-07,
	"loss": 3.5797,
	"step": 975
	},
	{
	"epoch": 0.7808,
	"grad_norm": 4.284913063049316,
	"learning_rate": 5.697179279555551e-07,
	"loss": 1.2182,
	"step": 976
	},
	{
	"epoch": 0.7816,
	"grad_norm": 1.17784583568573,
	"learning_rate": 5.657311555612433e-07,
	"loss": 3.5849,
	"step": 977
	},
	{
	"epoch": 0.7824,
	"grad_norm": 3.8503072261810303,
	"learning_rate": 5.617566010602113e-07,
	"loss": 1.1606,
	"step": 978
	},
	{
	"epoch": 0.7832,
	"grad_norm": 1.4357177019119263,
	"learning_rate": 5.577942895579064e-07,
	"loss": 3.4606,
	"step": 979
	},
	{
	"epoch": 0.784,
	"grad_norm": 4.020089626312256,
	"learning_rate": 5.538442460824417e-07,
	"loss": 1.2557,
	"step": 980
	},
	{
	"epoch": 0.7848,
	"grad_norm": 1.3439040184020996,
	"learning_rate": 5.499064955844383e-07,
	"loss": 3.5545,
	"step": 981
	},
	{
	"epoch": 0.7856,
	"grad_norm": 3.5121538639068604,
	"learning_rate": 5.459810629368692e-07,
	"loss": 1.1383,
	"step": 982
	},
	{
	"epoch": 0.7864,
	"grad_norm": 1.4466603994369507,
	"learning_rate": 5.420679729348993e-07,
	"loss": 3.4426,
	"step": 983
	},
	{
	"epoch": 0.7872,
	"grad_norm": 4.1092047691345215,
	"learning_rate": 5.381672502957324e-07,
	"loss": 1.3047,
	"step": 984
	},
	{
	"epoch": 0.788,
	"grad_norm": 1.4652632474899292,
	"learning_rate": 5.342789196584527e-07,
	"loss": 3.4522,
	"step": 985
	},
	{
	"epoch": 0.7888,
	"grad_norm": 4.341894626617432,
	"learning_rate": 5.304030055838704e-07,
	"loss": 1.5886,
	"step": 986
	},
	{
	"epoch": 0.7896,
	"grad_norm": 1.5312821865081787,
	"learning_rate": 5.26539532554364e-07,
	"loss": 3.4746,
	"step": 987
	},
	{
	"epoch": 0.7904,
	"grad_norm": 3.956395149230957,
	"learning_rate": 5.226885249737292e-07,
	"loss": 1.3278,
	"step": 988
	},
	{
	"epoch": 0.7912,
	"grad_norm": 1.5505242347717285,
	"learning_rate": 5.188500071670235e-07,
	"loss": 3.4367,
	"step": 989
	},
	{
	"epoch": 0.792,
	"grad_norm": 3.910429000854492,
	"learning_rate": 5.150240033804116e-07,
	"loss": 1.0932,
	"step": 990
	},
	{
	"epoch": 0.7928,
	"grad_norm": 1.518563985824585,
	"learning_rate": 5.112105377810128e-07,
	"loss": 3.412,
	"step": 991
	},
	{
	"epoch": 0.7936,
	"grad_norm": 3.3202965259552,
	"learning_rate": 5.074096344567475e-07,
	"loss": 1.1174,
	"step": 992
	},
	{
	"epoch": 0.7944,
	"grad_norm": 1.5806505680084229,
	"learning_rate": 5.036213174161877e-07,
	"loss": 3.47,
	"step": 993
	},
	{
	"epoch": 0.7952,
	"grad_norm": 6.9575324058532715,
	"learning_rate": 4.998456105884025e-07,
	"loss": 1.5321,
	"step": 994
	},
	{
	"epoch": 0.796,
	"grad_norm": 1.1276708841323853,
	"learning_rate": 4.960825378228082e-07,
	"loss": 3.6015,
	"step": 995
	},
	{
	"epoch": 0.7968,
	"grad_norm": 3.954547166824341,
	"learning_rate": 4.923321228890184e-07,
	"loss": 1.1861,
	"step": 996
	},
	{
	"epoch": 0.7976,
	"grad_norm": 1.08054780960083,
	"learning_rate": 4.885943894766909e-07,
	"loss": 3.5029,
	"step": 997
	},
	{
	"epoch": 0.7984,
	"grad_norm": 3.6978795528411865,
	"learning_rate": 4.848693611953825e-07,
	"loss": 1.3936,
	"step": 998
	},
	{
	"epoch": 0.7992,
	"grad_norm": 1.0338634252548218,
	"learning_rate": 4.811570615743952e-07,
	"loss": 3.6014,
	"step": 999
	},
	{
	"epoch": 0.8,
	"grad_norm": 4.1188507080078125,
	"learning_rate": 4.774575140626317e-07,
	"loss": 1.2529,
	"step": 1000
	},
	{
	"epoch": 0.8008,
	"grad_norm": 1.9042516946792603,
	"learning_rate": 4.7377074202844514e-07,
	"loss": 3.4267,
	"step": 1001
	},
	{
	"epoch": 0.8016,
	"grad_norm": 4.330513954162598,
	"learning_rate": 4.700967687594901e-07,
	"loss": 1.369,
	"step": 1002
	},
	{
	"epoch": 0.8024,
	"grad_norm": 1.0320863723754883,
	"learning_rate": 4.664356174625795e-07,
	"loss": 3.5636,
	"step": 1003
	},
	{
	"epoch": 0.8032,
	"grad_norm": 4.5047287940979,
	"learning_rate": 4.6278731126353447e-07,
	"loss": 1.3017,
	"step": 1004
	},
	{
	"epoch": 0.804,
	"grad_norm": 1.59553062915802,
	"learning_rate": 4.591518732070402e-07,
	"loss": 3.5466,
	"step": 1005
	},
	{
	"epoch": 0.8048,
	"grad_norm": 3.6305763721466064,
	"learning_rate": 4.555293262564994e-07,
	"loss": 1.3101,
	"step": 1006
	},
	{
	"epoch": 0.8056,
	"grad_norm": 1.155205488204956,
	"learning_rate": 4.5191969329388627e-07,
	"loss": 3.5494,
	"step": 1007
	},
	{
	"epoch": 0.8064,
	"grad_norm": 4.001699924468994,
	"learning_rate": 4.483229971196054e-07,
	"loss": 1.1268,
	"step": 1008
	},
	{
	"epoch": 0.8072,
	"grad_norm": 1.1981041431427002,
	"learning_rate": 4.447392604523443e-07,
	"loss": 3.5732,
	"step": 1009
	},
	{
	"epoch": 0.808,
	"grad_norm": 3.6024370193481445,
	"learning_rate": 4.411685059289314e-07,
	"loss": 1.1444,
	"step": 1010
	},
	{
	"epoch": 0.8088,
	"grad_norm": 1.3383228778839111,
	"learning_rate": 4.376107561041937e-07,
	"loss": 3.5367,
	"step": 1011
	},
	{
	"epoch": 0.8096,
	"grad_norm": 3.9421496391296387,
	"learning_rate": 4.340660334508115e-07,
	"loss": 1.3883,
	"step": 1012
	},
	{
	"epoch": 0.8104,
	"grad_norm": 1.0924482345581055,
	"learning_rate": 4.305343603591802e-07,
	"loss": 3.5681,
	"step": 1013
	},
	{
	"epoch": 0.8112,
	"grad_norm": 3.4752144813537598,
	"learning_rate": 4.2701575913726644e-07,
	"loss": 1.059,
	"step": 1014
	},
	{
	"epoch": 0.812,
	"grad_norm": 1.952444314956665,
	"learning_rate": 4.235102520104681e-07,
	"loss": 3.5588,
	"step": 1015
	},
	{
	"epoch": 0.8128,
	"grad_norm": 4.0423688888549805,
	"learning_rate": 4.200178611214736e-07,
	"loss": 1.1042,
	"step": 1016
	},
	{
	"epoch": 0.8136,
	"grad_norm": 1.218482494354248,
	"learning_rate": 4.165386085301212e-07,
	"loss": 3.5486,
	"step": 1017
	},
	{
	"epoch": 0.8144,
	"grad_norm": 4.175278663635254,
	"learning_rate": 4.1307251621326124e-07,
	"loss": 1.4889,
	"step": 1018
	},
	{
	"epoch": 0.8152,
	"grad_norm": 2.6647427082061768,
	"learning_rate": 4.096196060646168e-07,
	"loss": 3.5716,
	"step": 1019
	},
	{
	"epoch": 0.816,
	"grad_norm": 4.009509563446045,
	"learning_rate": 4.061798998946459e-07,
	"loss": 1.2765,
	"step": 1020
	},
	{
	"epoch": 0.8168,
	"grad_norm": 1.1483063697814941,
	"learning_rate": 4.0275341943040057e-07,
	"loss": 3.6826,
	"step": 1021
	},
	{
	"epoch": 0.8176,
	"grad_norm": 3.944807291030884,
	"learning_rate": 3.9934018631539506e-07,
	"loss": 1.2861,
	"step": 1022
	},
	{
	"epoch": 0.8184,
	"grad_norm": 1.6391054391860962,
	"learning_rate": 3.9594022210946355e-07,
	"loss": 3.3965,
	"step": 1023
	},
	{
	"epoch": 0.8192,
	"grad_norm": 3.9761102199554443,
	"learning_rate": 3.925535482886286e-07,
	"loss": 1.2771,
	"step": 1024
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.8166158199310303,
	"learning_rate": 3.891801862449629e-07,
	"loss": 3.481,
	"step": 1025
	},
	{
	"epoch": 0.8208,
	"grad_norm": 3.909714460372925,
	"learning_rate": 3.8582015728645366e-07,
	"loss": 1.3296,
	"step": 1026
	},
	{
	"epoch": 0.8216,
	"grad_norm": 1.1448289155960083,
	"learning_rate": 3.8247348263687035e-07,
	"loss": 3.5438,
	"step": 1027
	},
	{
	"epoch": 0.8224,
	"grad_norm": 3.7021570205688477,
	"learning_rate": 3.7914018343562896e-07,
	"loss": 1.3568,
	"step": 1028
	},
	{
	"epoch": 0.8232,
	"grad_norm": 1.1746755838394165,
	"learning_rate": 3.75820280737659e-07,
	"loss": 3.631,
	"step": 1029
	},
	{
	"epoch": 0.824,
	"grad_norm": 4.372186660766602,
	"learning_rate": 3.725137955132707e-07,
	"loss": 1.5514,
	"step": 1030
	},
	{
	"epoch": 0.8248,
	"grad_norm": 1.2693135738372803,
	"learning_rate": 3.6922074864802095e-07,
	"loss": 3.6151,
	"step": 1031
	},
	{
	"epoch": 0.8256,
	"grad_norm": 4.060328483581543,
	"learning_rate": 3.659411609425834e-07,
	"loss": 1.2585,
	"step": 1032
	},
	{
	"epoch": 0.8264,
	"grad_norm": 1.1194394826889038,
	"learning_rate": 3.626750531126169e-07,
	"loss": 3.5576,
	"step": 1033
	},
	{
	"epoch": 0.8272,
	"grad_norm": 4.196378707885742,
	"learning_rate": 3.594224457886336e-07,
	"loss": 1.1795,
	"step": 1034
	},
	{
	"epoch": 0.828,
	"grad_norm": 1.4582164287567139,
	"learning_rate": 3.561833595158698e-07,
	"loss": 3.4901,
	"step": 1035
	},
	{
	"epoch": 0.8288,
	"grad_norm": 3.783414602279663,
	"learning_rate": 3.529578147541532e-07,
	"loss": 1.1758,
	"step": 1036
	},
	{
	"epoch": 0.8296,
	"grad_norm": 1.4051135778427124,
	"learning_rate": 3.4974583187777853e-07,
	"loss": 3.4493,
	"step": 1037
	},
	{
	"epoch": 0.8304,
	"grad_norm": 3.584596633911133,
	"learning_rate": 3.4654743117537525e-07,
	"loss": 1.2126,
	"step": 1038
	},
	{
	"epoch": 0.8312,
	"grad_norm": 1.3267326354980469,
	"learning_rate": 3.433626328497805e-07,
	"loss": 3.6435,
	"step": 1039
	},
	{
	"epoch": 0.832,
	"grad_norm": 4.257800579071045,
	"learning_rate": 3.4019145701791186e-07,
	"loss": 1.4825,
	"step": 1040
	},
	{
	"epoch": 0.8328,
	"grad_norm": 1.1711785793304443,
	"learning_rate": 3.370339237106385e-07,
	"loss": 3.5212,
	"step": 1041
	},
	{
	"epoch": 0.8336,
	"grad_norm": 4.394068717956543,
	"learning_rate": 3.3389005287265713e-07,
	"loss": 1.1283,
	"step": 1042
	},
	{
	"epoch": 0.8344,
	"grad_norm": 1.297494888305664,
	"learning_rate": 3.3075986436236494e-07,
	"loss": 3.5152,
	"step": 1043
	},
	{
	"epoch": 0.8352,
	"grad_norm": 3.9251017570495605,
	"learning_rate": 3.2764337795173433e-07,
	"loss": 1.2356,
	"step": 1044
	},
	{
	"epoch": 0.836,
	"grad_norm": 1.0191597938537598,
	"learning_rate": 3.245406133261858e-07,
	"loss": 3.6092,
	"step": 1045
	},
	{
	"epoch": 0.8368,
	"grad_norm": 4.02804708480835,
	"learning_rate": 3.214515900844681e-07,
	"loss": 1.2928,
	"step": 1046
	},
	{
	"epoch": 0.8376,
	"grad_norm": 1.1345746517181396,
	"learning_rate": 3.18376327738531e-07,
	"loss": 3.5869,
	"step": 1047
	},
	{
	"epoch": 0.8384,
	"grad_norm": 4.080638408660889,
	"learning_rate": 3.15314845713402e-07,
	"loss": 1.3423,
	"step": 1048
	},
	{
	"epoch": 0.8392,
	"grad_norm": 1.3001468181610107,
	"learning_rate": 3.122671633470664e-07,
	"loss": 3.4875,
	"step": 1049
	},
	{
	"epoch": 0.84,
	"grad_norm": 3.684081792831421,
	"learning_rate": 3.092332998903416e-07,
	"loss": 1.3089,
	"step": 1050
	},
	{
	"epoch": 0.8408,
	"grad_norm": 1.3111592531204224,
	"learning_rate": 3.0621327450675806e-07,
	"loss": 3.5502,
	"step": 1051
	},
	{
	"epoch": 0.8416,
	"grad_norm": 4.330699443817139,
	"learning_rate": 3.0320710627243815e-07,
	"loss": 1.4276,
	"step": 1052
	},
	{
	"epoch": 0.8424,
	"grad_norm": 1.4837126731872559,
	"learning_rate": 3.002148141759739e-07,
	"loss": 3.5433,
	"step": 1053
	},
	{
	"epoch": 0.8432,
	"grad_norm": 3.8255903720855713,
	"learning_rate": 2.9723641711830896e-07,
	"loss": 1.3503,
	"step": 1054
	},
	{
	"epoch": 0.844,
	"grad_norm": 1.0839451551437378,
	"learning_rate": 2.942719339126171e-07,
	"loss": 3.659,
	"step": 1055
	},
	{
	"epoch": 0.8448,
	"grad_norm": 4.035921573638916,
	"learning_rate": 2.913213832841857e-07,
	"loss": 1.3085,
	"step": 1056
	},
	{
	"epoch": 0.8456,
	"grad_norm": 1.2930865287780762,
	"learning_rate": 2.8838478387029605e-07,
	"loss": 3.4512,
	"step": 1057
	},
	{
	"epoch": 0.8464,
	"grad_norm": 3.7543997764587402,
	"learning_rate": 2.854621542201064e-07,
	"loss": 1.1318,
	"step": 1058
	},
	{
	"epoch": 0.8472,
	"grad_norm": 1.1573505401611328,
	"learning_rate": 2.8255351279453446e-07,
	"loss": 3.5605,
	"step": 1059
	},
	{
	"epoch": 0.848,
	"grad_norm": 3.8682708740234375,
	"learning_rate": 2.796588779661388e-07,
	"loss": 1.3628,
	"step": 1060
	},
	{
	"epoch": 0.8488,
	"grad_norm": 2.039510726928711,
	"learning_rate": 2.767782680190073e-07,
	"loss": 3.5517,
	"step": 1061
	},
	{
	"epoch": 0.8496,
	"grad_norm": 3.9016358852386475,
	"learning_rate": 2.739117011486378e-07,
	"loss": 1.1586,
	"step": 1062
	},
	{
	"epoch": 0.8504,
	"grad_norm": 1.1205612421035767,
	"learning_rate": 2.710591954618247e-07,
	"loss": 3.5143,
	"step": 1063
	},
	{
	"epoch": 0.8512,
	"grad_norm": 4.346203327178955,
	"learning_rate": 2.6822076897654453e-07,
	"loss": 1.3599,
	"step": 1064
	},
	{
	"epoch": 0.852,
	"grad_norm": 1.4595547914505005,
	"learning_rate": 2.653964396218406e-07,
	"loss": 3.5174,
	"step": 1065
	},
	{
	"epoch": 0.8528,
	"grad_norm": 3.893127918243408,
	"learning_rate": 2.625862252377129e-07,
	"loss": 1.1346,
	"step": 1066
	},
	{
	"epoch": 0.8536,
	"grad_norm": 1.3180551528930664,
	"learning_rate": 2.597901435750025e-07,
	"loss": 3.4543,
	"step": 1067
	},
	{
	"epoch": 0.8544,
	"grad_norm": 3.9734368324279785,
	"learning_rate": 2.5700821229528164e-07,
	"loss": 1.2548,
	"step": 1068
	},
	{
	"epoch": 0.8552,
	"grad_norm": 1.505300521850586,
	"learning_rate": 2.5424044897073895e-07,
	"loss": 3.5335,
	"step": 1069
	},
	{
	"epoch": 0.856,
	"grad_norm": 3.921257972717285,
	"learning_rate": 2.514868710840723e-07,
	"loss": 1.5256,
	"step": 1070
	},
	{
	"epoch": 0.8568,
	"grad_norm": 1.551336407661438,
	"learning_rate": 2.48747496028377e-07,
	"loss": 3.3823,
	"step": 1071
	},
	{
	"epoch": 0.8576,
	"grad_norm": 3.929121494293213,
	"learning_rate": 2.460223411070337e-07,
	"loss": 1.2628,
	"step": 1072
	},
	{
	"epoch": 0.8584,
	"grad_norm": 1.1952719688415527,
	"learning_rate": 2.4331142353360206e-07,
	"loss": 3.4138,
	"step": 1073
	},
	{
	"epoch": 0.8592,
	"grad_norm": 3.588552713394165,
	"learning_rate": 2.406147604317119e-07,
	"loss": 1.2508,
	"step": 1074
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.0674008131027222,
	"learning_rate": 2.3793236883495164e-07,
	"loss": 3.5885,
	"step": 1075
	},
	{
	"epoch": 0.8608,
	"grad_norm": 3.9291443824768066,
	"learning_rate": 2.3526426568676485e-07,
	"loss": 1.5289,
	"step": 1076
	},
	{
	"epoch": 0.8616,
	"grad_norm": 1.1263163089752197,
	"learning_rate": 2.3261046784034154e-07,
	"loss": 3.5685,
	"step": 1077
	},
	{
	"epoch": 0.8624,
	"grad_norm": 3.7272915840148926,
	"learning_rate": 2.299709920585108e-07,
	"loss": 1.0725,
	"step": 1078
	},
	{
	"epoch": 0.8632,
	"grad_norm": 1.9841383695602417,
	"learning_rate": 2.2734585501363676e-07,
	"loss": 3.4305,
	"step": 1079
	},
	{
	"epoch": 0.864,
	"grad_norm": 3.725369691848755,
	"learning_rate": 2.2473507328751086e-07,
	"loss": 1.2885,
	"step": 1080
	},
	{
	"epoch": 0.8648,
	"grad_norm": 1.2514499425888062,
	"learning_rate": 2.2213866337125022e-07,
	"loss": 3.6041,
	"step": 1081
	},
	{
	"epoch": 0.8656,
	"grad_norm": 3.798311233520508,
	"learning_rate": 2.1955664166519036e-07,
	"loss": 1.3569,
	"step": 1082
	},
	{
	"epoch": 0.8664,
	"grad_norm": 1.05547034740448,
	"learning_rate": 2.1698902447878478e-07,
	"loss": 3.6443,
	"step": 1083
	},
	{
	"epoch": 0.8672,
	"grad_norm": 4.112440586090088,
	"learning_rate": 2.1443582803049757e-07,
	"loss": 1.3431,
	"step": 1084
	},
	{
	"epoch": 0.868,
	"grad_norm": 1.1724605560302734,
	"learning_rate": 2.118970684477062e-07,
	"loss": 3.5914,
	"step": 1085
	},
	{
	"epoch": 0.8688,
	"grad_norm": 3.977243423461914,
	"learning_rate": 2.0937276176659553e-07,
	"loss": 1.4519,
	"step": 1086
	},
	{
	"epoch": 0.8696,
	"grad_norm": 1.413366436958313,
	"learning_rate": 2.068629239320588e-07,
	"loss": 3.5239,
	"step": 1087
	},
	{
	"epoch": 0.8704,
	"grad_norm": 3.696100950241089,
	"learning_rate": 2.043675707975959e-07,
	"loss": 1.5434,
	"step": 1088
	},
	{
	"epoch": 0.8712,
	"grad_norm": 1.1970295906066895,
	"learning_rate": 2.0188671812521293e-07,
	"loss": 3.4977,
	"step": 1089
	},
	{
	"epoch": 0.872,
	"grad_norm": 4.029970169067383,
	"learning_rate": 1.9942038158532407e-07,
	"loss": 1.3306,
	"step": 1090
	},
	{
	"epoch": 0.8728,
	"grad_norm": 1.2960518598556519,
	"learning_rate": 1.9696857675665122e-07,
	"loss": 3.5162,
	"step": 1091
	},
	{
	"epoch": 0.8736,
	"grad_norm": 3.725883960723877,
	"learning_rate": 1.9453131912612694e-07,
	"loss": 1.4022,
	"step": 1092
	},
	{
	"epoch": 0.8744,
	"grad_norm": 1.3842031955718994,
	"learning_rate": 1.9210862408879373e-07,
	"loss": 3.5151,
	"step": 1093
	},
	{
	"epoch": 0.8752,
	"grad_norm": 3.8603460788726807,
	"learning_rate": 1.8970050694771064e-07,
	"loss": 1.2135,
	"step": 1094
	},
	{
	"epoch": 0.876,
	"grad_norm": 1.2414811849594116,
	"learning_rate": 1.8730698291385518e-07,
	"loss": 3.5374,
	"step": 1095
	},
	{
	"epoch": 0.8768,
	"grad_norm": 4.625464916229248,
	"learning_rate": 1.8492806710602495e-07,
	"loss": 1.3096,
	"step": 1096
	},
	{
	"epoch": 0.8776,
	"grad_norm": 1.5665608644485474,
	"learning_rate": 1.8256377455074526e-07,
	"loss": 3.4397,
	"step": 1097
	},
	{
	"epoch": 0.8784,
	"grad_norm": 3.919268846511841,
	"learning_rate": 1.802141201821736e-07,
	"loss": 1.376,
	"step": 1098
	},
	{
	"epoch": 0.8792,
	"grad_norm": 1.4185221195220947,
	"learning_rate": 1.7787911884200314e-07,
	"loss": 3.6158,
	"step": 1099
	},
	{
	"epoch": 0.88,
	"grad_norm": 4.121542930603027,
	"learning_rate": 1.7555878527937164e-07,
	"loss": 1.3549,
	"step": 1100
	},
	{
	"epoch": 0.8808,
	"grad_norm": 1.706099033355713,
	"learning_rate": 1.7325313415076705e-07,
	"loss": 3.5284,
	"step": 1101
	},
	{
	"epoch": 0.8816,
	"grad_norm": 4.369479656219482,
	"learning_rate": 1.7096218001993514e-07,
	"loss": 1.5352,
	"step": 1102
	},
	{
	"epoch": 0.8824,
	"grad_norm": 1.2528761625289917,
	"learning_rate": 1.686859373577876e-07,
	"loss": 3.6018,
	"step": 1103
	},
	{
	"epoch": 0.8832,
	"grad_norm": 3.7873117923736572,
	"learning_rate": 1.6642442054230935e-07,
	"loss": 1.1694,
	"step": 1104
	},
	{
	"epoch": 0.884,
	"grad_norm": 1.2879388332366943,
	"learning_rate": 1.6417764385846996e-07,
	"loss": 3.4757,
	"step": 1105
	},
	{
	"epoch": 0.8848,
	"grad_norm": 3.334120988845825,
	"learning_rate": 1.6194562149813241e-07,
	"loss": 0.8637,
	"step": 1106
	},
	{
	"epoch": 0.8856,
	"grad_norm": 1.3120352029800415,
	"learning_rate": 1.5972836755996286e-07,
	"loss": 3.4815,
	"step": 1107
	},
	{
	"epoch": 0.8864,
	"grad_norm": 3.6376547813415527,
	"learning_rate": 1.5752589604934255e-07,
	"loss": 1.2615,
	"step": 1108
	},
	{
	"epoch": 0.8872,
	"grad_norm": 1.1396851539611816,
	"learning_rate": 1.5533822087827805e-07,
	"loss": 3.5342,
	"step": 1109
	},
	{
	"epoch": 0.888,
	"grad_norm": 3.7635209560394287,
	"learning_rate": 1.5316535586531483e-07,
	"loss": 1.1877,
	"step": 1110
	},
	{
	"epoch": 0.8888,
	"grad_norm": 1.371699571609497,
	"learning_rate": 1.5100731473544932e-07,
	"loss": 3.5637,
	"step": 1111
	},
	{
	"epoch": 0.8896,
	"grad_norm": 3.8787107467651367,
	"learning_rate": 1.4886411112004258e-07,
	"loss": 1.3821,
	"step": 1112
	},
	{
	"epoch": 0.8904,
	"grad_norm": 1.8077179193496704,
	"learning_rate": 1.4673575855673278e-07,
	"loss": 3.4341,
	"step": 1113
	},
	{
	"epoch": 0.8912,
	"grad_norm": 4.23999547958374,
	"learning_rate": 1.4462227048935185e-07,
	"loss": 1.5234,
	"step": 1114
	},
	{
	"epoch": 0.892,
	"grad_norm": 1.4485225677490234,
	"learning_rate": 1.425236602678387e-07,
	"loss": 3.4551,
	"step": 1115
	},
	{
	"epoch": 0.8928,
	"grad_norm": 3.488999128341675,
	"learning_rate": 1.4043994114815663e-07,
	"loss": 1.1846,
	"step": 1116
	},
	{
	"epoch": 0.8936,
	"grad_norm": 1.237518072128296,
	"learning_rate": 1.38371126292208e-07,
	"loss": 3.5263,
	"step": 1117
	},
	{
	"epoch": 0.8944,
	"grad_norm": 3.7093005180358887,
	"learning_rate": 1.3631722876775137e-07,
	"loss": 1.3514,
	"step": 1118
	},
	{
	"epoch": 0.8952,
	"grad_norm": 1.2599142789840698,
	"learning_rate": 1.342782615483204e-07,
	"loss": 3.528,
	"step": 1119
	},
	{
	"epoch": 0.896,
	"grad_norm": 3.7309329509735107,
	"learning_rate": 1.3225423751313942e-07,
	"loss": 1.5911,
	"step": 1120
	},
	{
	"epoch": 0.8968,
	"grad_norm": 1.202618956565857,
	"learning_rate": 1.3024516944704495e-07,
	"loss": 3.4832,
	"step": 1121
	},
	{
	"epoch": 0.8976,
	"grad_norm": 4.492614269256592,
	"learning_rate": 1.2825107004040272e-07,
	"loss": 1.2915,
	"step": 1122
	},
	{
	"epoch": 0.8984,
	"grad_norm": 1.1479798555374146,
	"learning_rate": 1.262719518890279e-07,
	"loss": 3.5571,
	"step": 1123
	},
	{
	"epoch": 0.8992,
	"grad_norm": 4.050600528717041,
	"learning_rate": 1.2430782749410676e-07,
	"loss": 1.388,
	"step": 1124
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.292321801185608,
	"learning_rate": 1.223587092621162e-07,
	"loss": 3.5855,
	"step": 1125
	},
	{
	"epoch": 0.9008,
	"grad_norm": 4.229612350463867,
	"learning_rate": 1.204246095047465e-07,
	"loss": 1.3577,
	"step": 1126
	},
	{
	"epoch": 0.9016,
	"grad_norm": 1.274814248085022,
	"learning_rate": 1.1850554043882329e-07,
	"loss": 3.5057,
	"step": 1127
	},
	{
	"epoch": 0.9024,
	"grad_norm": 3.170250654220581,
	"learning_rate": 1.1660151418622923e-07,
	"loss": 0.8845,
	"step": 1128
	},
	{
	"epoch": 0.9032,
	"grad_norm": 1.3429255485534668,
	"learning_rate": 1.1471254277382882e-07,
	"loss": 3.5239,
	"step": 1129
	},
	{
	"epoch": 0.904,
	"grad_norm": 3.8732850551605225,
	"learning_rate": 1.1283863813339263e-07,
	"loss": 1.4954,
	"step": 1130
	},
	{
	"epoch": 0.9048,
	"grad_norm": 1.0475130081176758,
	"learning_rate": 1.1097981210152042e-07,
	"loss": 3.5743,
	"step": 1131
	},
	{
	"epoch": 0.9056,
	"grad_norm": 4.163371562957764,
	"learning_rate": 1.0913607641956842e-07,
	"loss": 1.3211,
	"step": 1132
	},
	{
	"epoch": 0.9064,
	"grad_norm": 1.1388672590255737,
	"learning_rate": 1.0730744273357213e-07,
	"loss": 3.6136,
	"step": 1133
	},
	{
	"epoch": 0.9072,
	"grad_norm": 3.882986068725586,
	"learning_rate": 1.0549392259417646e-07,
	"loss": 1.1432,
	"step": 1134
	},
	{
	"epoch": 0.908,
	"grad_norm": 1.1615536212921143,
	"learning_rate": 1.0369552745656014e-07,
	"loss": 3.6521,
	"step": 1135
	},
	{
	"epoch": 0.9088,
	"grad_norm": 3.6023221015930176,
	"learning_rate": 1.0191226868036419e-07,
	"loss": 1.3323,
	"step": 1136
	},
	{
	"epoch": 0.9096,
	"grad_norm": 1.2144973278045654,
	"learning_rate": 1.0014415752962081e-07,
	"loss": 3.5626,
	"step": 1137
	},
	{
	"epoch": 0.9104,
	"grad_norm": 3.877840280532837,
	"learning_rate": 9.839120517267986e-08,
	"loss": 1.3083,
	"step": 1138
	},
	{
	"epoch": 0.9112,
	"grad_norm": 1.4756907224655151,
	"learning_rate": 9.665342268214167e-08,
	"loss": 3.4514,
	"step": 1139
	},
	{
	"epoch": 0.912,
	"grad_norm": 4.363102436065674,
	"learning_rate": 9.493082103478519e-08,
	"loss": 1.1601,
	"step": 1140
	},
	{
	"epoch": 0.9128,
	"grad_norm": 1.2879115343093872,
	"learning_rate": 9.322341111149852e-08,
	"loss": 3.4346,
	"step": 1141
	},
	{
	"epoch": 0.9136,
	"grad_norm": 4.510580539703369,
	"learning_rate": 9.153120369721047e-08,
	"loss": 1.3901,
	"step": 1142
	},
	{
	"epoch": 0.9144,
	"grad_norm": 1.3555859327316284,
	"learning_rate": 8.985420948082329e-08,
	"loss": 3.4953,
	"step": 1143
	},
	{
	"epoch": 0.9152,
	"grad_norm": 4.071751594543457,
	"learning_rate": 8.819243905514308e-08,
	"loss": 1.2933,
	"step": 1144
	},
	{
	"epoch": 0.916,
	"grad_norm": 1.0624727010726929,
	"learning_rate": 8.654590291681531e-08,
	"loss": 3.6109,
	"step": 1145
	},
	{
	"epoch": 0.9168,
	"grad_norm": 4.541050910949707,
	"learning_rate": 8.491461146625774e-08,
	"loss": 1.5013,
	"step": 1146
	},
	{
	"epoch": 0.9176,
	"grad_norm": 1.036971926689148,
	"learning_rate": 8.329857500759291e-08,
	"loss": 3.5826,
	"step": 1147
	},
	{
	"epoch": 0.9184,
	"grad_norm": 4.1964287757873535,
	"learning_rate": 8.169780374858577e-08,
	"loss": 1.4736,
	"step": 1148
	},
	{
	"epoch": 0.9192,
	"grad_norm": 1.3899742364883423,
	"learning_rate": 8.011230780057749e-08,
	"loss": 3.4604,
	"step": 1149
	},
	{
	"epoch": 0.92,
	"grad_norm": 3.7320985794067383,
	"learning_rate": 7.854209717842231e-08,
	"loss": 1.1507,
	"step": 1150
	},
	{
	"epoch": 0.9208,
	"grad_norm": 1.4710829257965088,
	"learning_rate": 7.698718180042392e-08,
	"loss": 3.5542,
	"step": 1151
	},
	{
	"epoch": 0.9216,
	"grad_norm": 3.88554048538208,
	"learning_rate": 7.544757148827297e-08,
	"loss": 1.0699,
	"step": 1152
	},
	{
	"epoch": 0.9224,
	"grad_norm": 1.352371096611023,
	"learning_rate": 7.392327596698474e-08,
	"loss": 3.5077,
	"step": 1153
	},
	{
	"epoch": 0.9232,
	"grad_norm": 3.7906062602996826,
	"learning_rate": 7.24143048648382e-08,
	"loss": 1.3162,
	"step": 1154
	},
	{
	"epoch": 0.924,
	"grad_norm": 1.3275525569915771,
	"learning_rate": 7.092066771331507e-08,
	"loss": 3.516,
	"step": 1155
	},
	{
	"epoch": 0.9248,
	"grad_norm": 3.684339761734009,
	"learning_rate": 6.944237394703985e-08,
	"loss": 1.0855,
	"step": 1156
	},
	{
	"epoch": 0.9256,
	"grad_norm": 1.6030592918395996,
	"learning_rate": 6.797943290371839e-08,
	"loss": 3.3999,
	"step": 1157
	},
	{
	"epoch": 0.9264,
	"grad_norm": 3.9943041801452637,
	"learning_rate": 6.653185382408195e-08,
	"loss": 1.3748,
	"step": 1158
	},
	{
	"epoch": 0.9272,
	"grad_norm": 2.058311939239502,
	"learning_rate": 6.509964585182688e-08,
	"loss": 3.4637,
	"step": 1159
	},
	{
	"epoch": 0.928,
	"grad_norm": 4.087345123291016,
	"learning_rate": 6.368281803355692e-08,
	"loss": 1.3247,
	"step": 1160
	},
	{
	"epoch": 0.9288,
	"grad_norm": 1.4231693744659424,
	"learning_rate": 6.228137931872713e-08,
	"loss": 3.5084,
	"step": 1161
	},
	{
	"epoch": 0.9296,
	"grad_norm": 3.276982545852661,
	"learning_rate": 6.089533855958508e-08,
	"loss": 1.0859,
	"step": 1162
	},
	{
	"epoch": 0.9304,
	"grad_norm": 0.9627519249916077,
	"learning_rate": 5.9524704511118305e-08,
	"loss": 3.6085,
	"step": 1163
	},
	{
	"epoch": 0.9312,
	"grad_norm": 4.000705242156982,
	"learning_rate": 5.8169485830996134e-08,
	"loss": 1.2021,
	"step": 1164
	},
	{
	"epoch": 0.932,
	"grad_norm": 1.0772417783737183,
	"learning_rate": 5.68296910795163e-08,
	"loss": 3.5649,
	"step": 1165
	},
	{
	"epoch": 0.9328,
	"grad_norm": 4.611580848693848,
	"learning_rate": 5.550532871955061e-08,
	"loss": 1.2716,
	"step": 1166
	},
	{
	"epoch": 0.9336,
	"grad_norm": 1.6169544458389282,
	"learning_rate": 5.419640711649188e-08,
	"loss": 3.4921,
	"step": 1167
	},
	{
	"epoch": 0.9344,
	"grad_norm": 3.6111767292022705,
	"learning_rate": 5.290293453819956e-08,
	"loss": 1.1447,
	"step": 1168
	},
	{
	"epoch": 0.9352,
	"grad_norm": 1.527208924293518,
	"learning_rate": 5.162491915495005e-08,
	"loss": 3.5345,
	"step": 1169
	},
	{
	"epoch": 0.936,
	"grad_norm": 3.3724429607391357,
	"learning_rate": 5.036236903938285e-08,
	"loss": 1.1051,
	"step": 1170
	},
	{
	"epoch": 0.9368,
	"grad_norm": 1.2857189178466797,
	"learning_rate": 4.911529216645089e-08,
	"loss": 3.5927,
	"step": 1171
	},
	{
	"epoch": 0.9376,
	"grad_norm": 3.823451519012451,
	"learning_rate": 4.788369641336943e-08,
	"loss": 1.2766,
	"step": 1172
	},
	{
	"epoch": 0.9384,
	"grad_norm": 1.3951259851455688,
	"learning_rate": 4.6667589559566405e-08,
	"loss": 3.5188,
	"step": 1173
	},
	{
	"epoch": 0.9392,
	"grad_norm": 4.200174331665039,
	"learning_rate": 4.546697928663357e-08,
	"loss": 1.4409,
	"step": 1174
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.4412181377410889,
	"learning_rate": 4.428187317827848e-08,
	"loss": 3.536,
	"step": 1175
	},
	{
	"epoch": 0.9408,
	"grad_norm": 4.055942058563232,
	"learning_rate": 4.311227872027479e-08,
	"loss": 1.3862,
	"step": 1176
	},
	{
	"epoch": 0.9416,
	"grad_norm": 1.1776350736618042,
	"learning_rate": 4.1958203300417056e-08,
	"loss": 3.6454,
	"step": 1177
	},
	{
	"epoch": 0.9424,
	"grad_norm": 3.8492658138275146,
	"learning_rate": 4.0819654208472947e-08,
	"loss": 1.2609,
	"step": 1178
	},
	{
	"epoch": 0.9432,
	"grad_norm": 1.2920982837677002,
	"learning_rate": 3.969663863613721e-08,
	"loss": 3.4813,
	"step": 1179
	},
	{
	"epoch": 0.944,
	"grad_norm": 3.726270914077759,
	"learning_rate": 3.8589163676986674e-08,
	"loss": 1.3,
	"step": 1180
	},
	{
	"epoch": 0.9448,
	"grad_norm": 1.0104079246520996,
	"learning_rate": 3.749723632643476e-08,
	"loss": 3.6193,
	"step": 1181
	},
	{
	"epoch": 0.9456,
	"grad_norm": 3.768679618835449,
	"learning_rate": 3.642086348168844e-08,
	"loss": 1.2007,
	"step": 1182
	},
	{
	"epoch": 0.9464,
	"grad_norm": 1.5914446115493774,
	"learning_rate": 3.536005194170328e-08,
	"loss": 3.4693,
	"step": 1183
	},
	{
	"epoch": 0.9472,
	"grad_norm": 3.930814743041992,
	"learning_rate": 3.431480840714152e-08,
	"loss": 1.4124,
	"step": 1184
	},
	{
	"epoch": 0.948,
	"grad_norm": 1.1689213514328003,
	"learning_rate": 3.328513948032991e-08,
	"loss": 3.5226,
	"step": 1185
	},
	{
	"epoch": 0.9488,
	"grad_norm": 3.568666934967041,
	"learning_rate": 3.227105166521638e-08,
	"loss": 1.3847,
	"step": 1186
	},
	{
	"epoch": 0.9496,
	"grad_norm": 1.2137675285339355,
	"learning_rate": 3.127255136733093e-08,
	"loss": 3.5211,
	"step": 1187
	},
	{
	"epoch": 0.9504,
	"grad_norm": 4.159763336181641,
	"learning_rate": 3.028964489374453e-08,
	"loss": 1.3348,
	"step": 1188
	},
	{
	"epoch": 0.9512,
	"grad_norm": 0.9644594788551331,
	"learning_rate": 2.9322338453028066e-08,
	"loss": 3.5866,
	"step": 1189
	},
	{
	"epoch": 0.952,
	"grad_norm": 3.9226300716400146,
	"learning_rate": 2.8370638155215125e-08,
	"loss": 1.4359,
	"step": 1190
	},
	{
	"epoch": 0.9528,
	"grad_norm": 1.1887046098709106,
	"learning_rate": 2.7434550011761763e-08,
	"loss": 3.578,
	"step": 1191
	},
	{
	"epoch": 0.9536,
	"grad_norm": 3.7943222522735596,
	"learning_rate": 2.6514079935509586e-08,
	"loss": 1.2984,
	"step": 1192
	},
	{
	"epoch": 0.9544,
	"grad_norm": 1.480806589126587,
	"learning_rate": 2.560923374064772e-08,
	"loss": 3.4495,
	"step": 1193
	},
	{
	"epoch": 0.9552,
	"grad_norm": 3.667187213897705,
	"learning_rate": 2.4720017142676745e-08,
	"loss": 1.4821,
	"step": 1194
	},
	{
	"epoch": 0.956,
	"grad_norm": 1.1104971170425415,
	"learning_rate": 2.3846435758372034e-08,
	"loss": 3.6191,
	"step": 1195
	},
	{
	"epoch": 0.9568,
	"grad_norm": 3.9890453815460205,
	"learning_rate": 2.2988495105748245e-08,
	"loss": 1.2608,
	"step": 1196
	},
	{
	"epoch": 0.9576,
	"grad_norm": 1.3386608362197876,
	"learning_rate": 2.2146200604024614e-08,
	"loss": 3.5502,
	"step": 1197
	},
	{
	"epoch": 0.9584,
	"grad_norm": 3.8145041465759277,
	"learning_rate": 2.131955757359111e-08,
	"loss": 1.3914,
	"step": 1198
	},
	{
	"epoch": 0.9592,
	"grad_norm": 1.692157506942749,
	"learning_rate": 2.050857123597455e-08,
	"loss": 3.5147,
	"step": 1199
	},
	{
	"epoch": 0.96,
	"grad_norm": 3.8497886657714844,
	"learning_rate": 1.9713246713805588e-08,
	"loss": 1.2747,
	"step": 1200
	},
	{
	"epoch": 0.9608,
	"grad_norm": 1.7304649353027344,
	"learning_rate": 1.893358903078568e-08,
	"loss": 3.4559,
	"step": 1201
	},
	{
	"epoch": 0.9616,
	"grad_norm": 4.028602123260498,
	"learning_rate": 1.8169603111656554e-08,
	"loss": 1.2436,
	"step": 1202
	},
	{
	"epoch": 0.9624,
	"grad_norm": 1.0460162162780762,
	"learning_rate": 1.7421293782168837e-08,
	"loss": 3.6491,
	"step": 1203
	},
	{
	"epoch": 0.9632,
	"grad_norm": 4.187633514404297,
	"learning_rate": 1.6688665769050704e-08,
	"loss": 1.2076,
	"step": 1204
	},
	{
	"epoch": 0.964,
	"grad_norm": 1.656624674797058,
	"learning_rate": 1.5971723699979015e-08,
	"loss": 3.5022,
	"step": 1205
	},
	{
	"epoch": 0.9648,
	"grad_norm": 4.018679141998291,
	"learning_rate": 1.5270472103549317e-08,
	"loss": 1.4379,
	"step": 1206
	},
	{
	"epoch": 0.9656,
	"grad_norm": 1.5885015726089478,
	"learning_rate": 1.4584915409248113e-08,
	"loss": 3.4547,
	"step": 1207
	},
	{
	"epoch": 0.9664,
	"grad_norm": 3.9813663959503174,
	"learning_rate": 1.3915057947423705e-08,
	"loss": 1.3217,
	"step": 1208
	},
	{
	"epoch": 0.9672,
	"grad_norm": 1.4755148887634277,
	"learning_rate": 1.3260903949260107e-08,
	"loss": 3.4995,
	"step": 1209
	},
	{
	"epoch": 0.968,
	"grad_norm": 3.5924222469329834,
	"learning_rate": 1.2622457546749567e-08,
	"loss": 1.3469,
	"step": 1210
	},
	{
	"epoch": 0.9688,
	"grad_norm": 1.0457367897033691,
	"learning_rate": 1.1999722772666478e-08,
	"loss": 3.5185,
	"step": 1211
	},
	{
	"epoch": 0.9696,
	"grad_norm": 4.9514994621276855,
	"learning_rate": 1.1392703560542118e-08,
	"loss": 1.3577,
	"step": 1212
	},
	{
	"epoch": 0.9704,
	"grad_norm": 1.328444004058838,
	"learning_rate": 1.0801403744639672e-08,
	"loss": 3.4504,
	"step": 1213
	},
	{
	"epoch": 0.9712,
	"grad_norm": 3.700564384460449,
	"learning_rate": 1.0225827059930082e-08,
	"loss": 1.2764,
	"step": 1214
	},
	{
	"epoch": 0.972,
	"grad_norm": 1.7747372388839722,
	"learning_rate": 9.665977142068738e-09,
	"loss": 3.4396,
	"step": 1215
	},
	{
	"epoch": 0.9728,
	"grad_norm": 3.901719331741333,
	"learning_rate": 9.121857527372157e-09,
	"loss": 1.4179,
	"step": 1216
	},
	{
	"epoch": 0.9736,
	"grad_norm": 1.1439679861068726,
	"learning_rate": 8.59347165279495e-09,
	"loss": 3.5297,
	"step": 1217
	},
	{
	"epoch": 0.9744,
	"grad_norm": 4.542992115020752,
	"learning_rate": 8.080822855909832e-09,
	"loss": 1.4076,
	"step": 1218
	},
	{
	"epoch": 0.9752,
	"grad_norm": 1.05239737033844,
	"learning_rate": 7.583914374885426e-09,
	"loss": 3.6203,
	"step": 1219
	},
	{
	"epoch": 0.976,
	"grad_norm": 3.649535655975342,
	"learning_rate": 7.102749348465166e-09,
	"loss": 1.2697,
	"step": 1220
	},
	{
	"epoch": 0.9768,
	"grad_norm": 1.6955548524856567,
	"learning_rate": 6.6373308159495275e-09,
	"loss": 3.4582,
	"step": 1221
	},
	{
	"epoch": 0.9776,
	"grad_norm": 4.211562156677246,
	"learning_rate": 6.1876617171743865e-09,
	"loss": 1.3995,
	"step": 1222
	},
	{
	"epoch": 0.9784,
	"grad_norm": 1.1870956420898438,
	"learning_rate": 5.753744892494639e-09,
	"loss": 3.5536,
	"step": 1223
	},
	{
	"epoch": 0.9792,
	"grad_norm": 3.487827777862549,
	"learning_rate": 5.335583082764495e-09,
	"loss": 1.4411,
	"step": 1224
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.736832857131958,
	"learning_rate": 4.933178929321103e-09,
	"loss": 3.5151,
	"step": 1225
	},
	{
	"epoch": 0.9808,
	"grad_norm": 3.914550304412842,
	"learning_rate": 4.546534973968175e-09,
	"loss": 1.2732,
	"step": 1226
	},
	{
	"epoch": 0.9816,
	"grad_norm": 1.4647449254989624,
	"learning_rate": 4.175653658958501e-09,
	"loss": 3.3779,
	"step": 1227
	},
	{
	"epoch": 0.9824,
	"grad_norm": 4.559305191040039,
	"learning_rate": 3.820537326980622e-09,
	"loss": 1.5739,
	"step": 1228
	},
	{
	"epoch": 0.9832,
	"grad_norm": 1.1620067358016968,
	"learning_rate": 3.481188221142184e-09,
	"loss": 3.5552,
	"step": 1229
	},
	{
	"epoch": 0.984,
	"grad_norm": 3.963010787963867,
	"learning_rate": 3.1576084849563315e-09,
	"loss": 1.3199,
	"step": 1230
	},
	{
	"epoch": 0.9848,
	"grad_norm": 1.101914644241333,
	"learning_rate": 2.849800162328664e-09,
	"loss": 3.5772,
	"step": 1231
	},
	{
	"epoch": 0.9856,
	"grad_norm": 3.9038467407226562,
	"learning_rate": 2.557765197543638e-09,
	"loss": 1.2684,
	"step": 1232
	},
	{
	"epoch": 0.9864,
	"grad_norm": 1.2498347759246826,
	"learning_rate": 2.2815054352531842e-09,
	"loss": 3.6124,
	"step": 1233
	},
	{
	"epoch": 0.9872,
	"grad_norm": 3.7474238872528076,
	"learning_rate": 2.0210226204639414e-09,
	"loss": 1.2981,
	"step": 1234
	},
	{
	"epoch": 0.988,
	"grad_norm": 1.3778389692306519,
	"learning_rate": 1.7763183985269882e-09,
	"loss": 3.5426,
	"step": 1235
	},
	{
	"epoch": 0.9888,
	"grad_norm": 3.6975715160369873,
	"learning_rate": 1.5473943151270155e-09,
	"loss": 1.3295,
	"step": 1236
	},
	{
	"epoch": 0.9896,
	"grad_norm": 1.4429659843444824,
	"learning_rate": 1.3342518162728913e-09,
	"loss": 3.6067,
	"step": 1237
	},
	{
	"epoch": 0.9904,
	"grad_norm": 3.43681263923645,
	"learning_rate": 1.1368922482887789e-09,
	"loss": 1.1235,
	"step": 1238
	},
	{
	"epoch": 0.9912,
	"grad_norm": 1.3926042318344116,
	"learning_rate": 9.553168578049776e-10,
	"loss": 3.4841,
	"step": 1239
	},
	{
	"epoch": 0.992,
	"grad_norm": 3.8875744342803955,
	"learning_rate": 7.895267917501503e-10,
	"loss": 1.3565,
	"step": 1240
	},
	{
	"epoch": 0.9928,
	"grad_norm": 1.6624120473861694,
	"learning_rate": 6.395230973443856e-10,
	"loss": 3.4427,
	"step": 1241
	},
	{
	"epoch": 0.9936,
	"grad_norm": 3.605576753616333,
	"learning_rate": 5.053067220925356e-10,
	"loss": 1.1553,
	"step": 1242
	},
	{
	"epoch": 0.9944,
	"grad_norm": 1.560855507850647,
	"learning_rate": 3.868785137786657e-10,
	"loss": 3.4811,
	"step": 1243
	},
	{
	"epoch": 0.9952,
	"grad_norm": 4.160490989685059,
	"learning_rate": 2.842392204591149e-10,
	"loss": 1.2979,
	"step": 1244
	},
	{
	"epoch": 0.996,
	"grad_norm": 1.5523591041564941,
	"learning_rate": 1.9738949045972068e-10,
	"loss": 3.4412,
	"step": 1245
	},
	{
	"epoch": 0.9968,
	"grad_norm": 4.556288719177246,
	"learning_rate": 1.2632987237054527e-10,
	"loss": 1.2008,
	"step": 1246
	},
	{
	"epoch": 0.9976,
	"grad_norm": 1.2331137657165527,
	"learning_rate": 7.106081504254514e-11,
	"loss": 3.4326,
	"step": 1247
	},
	{
	"epoch": 0.9984,
	"grad_norm": 4.683450222015381,
	"learning_rate": 3.158266758562789e-11,
	"loss": 1.5665,
	"step": 1248
	},
	{
	"epoch": 0.9992,
	"grad_norm": 1.4326642751693726,
	"learning_rate": 7.89567936476665e-12,
	"loss": 3.5399,
	"step": 1249
	},
	{
	"epoch": 1.0,
	"grad_norm": 3.5186572074890137,
	"learning_rate": 0.0,
	"loss": 1.4857,
	"step": 1250
	}
	],
	"logging_steps": 1,
	"max_steps": 1250,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 2000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 6.22349105912873e+16,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}