End of training

4e5d8cf verified 30 days ago

48.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.9984947315604615,
	"eval_steps": 500,
	"global_step": 2988,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.010035122930255895,
	"grad_norm": 3.0791230568719863,
	"learning_rate": 5e-06,
	"loss": 1.0584,
	"step": 10
	},
	{
	"epoch": 0.02007024586051179,
	"grad_norm": 1.9010262387699988,
	"learning_rate": 5e-06,
	"loss": 0.9369,
	"step": 20
	},
	{
	"epoch": 0.030105368790767688,
	"grad_norm": 3.9302140807930486,
	"learning_rate": 5e-06,
	"loss": 0.8954,
	"step": 30
	},
	{
	"epoch": 0.04014049172102358,
	"grad_norm": 1.1954643789588726,
	"learning_rate": 5e-06,
	"loss": 0.8743,
	"step": 40
	},
	{
	"epoch": 0.050175614651279475,
	"grad_norm": 1.1581266418383889,
	"learning_rate": 5e-06,
	"loss": 0.8604,
	"step": 50
	},
	{
	"epoch": 0.060210737581535376,
	"grad_norm": 1.5383829915522733,
	"learning_rate": 5e-06,
	"loss": 0.844,
	"step": 60
	},
	{
	"epoch": 0.07024586051179127,
	"grad_norm": 1.5977753412538256,
	"learning_rate": 5e-06,
	"loss": 0.8329,
	"step": 70
	},
	{
	"epoch": 0.08028098344204716,
	"grad_norm": 1.5289565466827575,
	"learning_rate": 5e-06,
	"loss": 0.8265,
	"step": 80
	},
	{
	"epoch": 0.09031610637230306,
	"grad_norm": 1.3386469754796255,
	"learning_rate": 5e-06,
	"loss": 0.8147,
	"step": 90
	},
	{
	"epoch": 0.10035122930255895,
	"grad_norm": 1.0647477486272434,
	"learning_rate": 5e-06,
	"loss": 0.8113,
	"step": 100
	},
	{
	"epoch": 0.11038635223281486,
	"grad_norm": 0.7070463503515779,
	"learning_rate": 5e-06,
	"loss": 0.8026,
	"step": 110
	},
	{
	"epoch": 0.12042147516307075,
	"grad_norm": 0.7381734885268878,
	"learning_rate": 5e-06,
	"loss": 0.7989,
	"step": 120
	},
	{
	"epoch": 0.13045659809332663,
	"grad_norm": 0.8946901348596374,
	"learning_rate": 5e-06,
	"loss": 0.8007,
	"step": 130
	},
	{
	"epoch": 0.14049172102358254,
	"grad_norm": 0.7080206896455782,
	"learning_rate": 5e-06,
	"loss": 0.7937,
	"step": 140
	},
	{
	"epoch": 0.15052684395383845,
	"grad_norm": 0.7872021804288697,
	"learning_rate": 5e-06,
	"loss": 0.7964,
	"step": 150
	},
	{
	"epoch": 0.16056196688409433,
	"grad_norm": 0.6344742687953677,
	"learning_rate": 5e-06,
	"loss": 0.7938,
	"step": 160
	},
	{
	"epoch": 0.17059708981435023,
	"grad_norm": 0.8040310396952577,
	"learning_rate": 5e-06,
	"loss": 0.7867,
	"step": 170
	},
	{
	"epoch": 0.1806322127446061,
	"grad_norm": 0.5889599293110972,
	"learning_rate": 5e-06,
	"loss": 0.7868,
	"step": 180
	},
	{
	"epoch": 0.19066733567486202,
	"grad_norm": 0.708534731132967,
	"learning_rate": 5e-06,
	"loss": 0.7854,
	"step": 190
	},
	{
	"epoch": 0.2007024586051179,
	"grad_norm": 0.590241380971299,
	"learning_rate": 5e-06,
	"loss": 0.782,
	"step": 200
	},
	{
	"epoch": 0.2107375815353738,
	"grad_norm": 0.6386623963841482,
	"learning_rate": 5e-06,
	"loss": 0.7802,
	"step": 210
	},
	{
	"epoch": 0.22077270446562972,
	"grad_norm": 0.8643148756886396,
	"learning_rate": 5e-06,
	"loss": 0.7766,
	"step": 220
	},
	{
	"epoch": 0.2308078273958856,
	"grad_norm": 0.6869876976216545,
	"learning_rate": 5e-06,
	"loss": 0.7811,
	"step": 230
	},
	{
	"epoch": 0.2408429503261415,
	"grad_norm": 0.5947006434799368,
	"learning_rate": 5e-06,
	"loss": 0.7785,
	"step": 240
	},
	{
	"epoch": 0.2508780732563974,
	"grad_norm": 0.5988389120535884,
	"learning_rate": 5e-06,
	"loss": 0.7736,
	"step": 250
	},
	{
	"epoch": 0.26091319618665326,
	"grad_norm": 0.7015845489442423,
	"learning_rate": 5e-06,
	"loss": 0.7683,
	"step": 260
	},
	{
	"epoch": 0.2709483191169092,
	"grad_norm": 0.7899101098197423,
	"learning_rate": 5e-06,
	"loss": 0.7735,
	"step": 270
	},
	{
	"epoch": 0.2809834420471651,
	"grad_norm": 0.6594638076973581,
	"learning_rate": 5e-06,
	"loss": 0.7718,
	"step": 280
	},
	{
	"epoch": 0.29101856497742096,
	"grad_norm": 0.7466372083749109,
	"learning_rate": 5e-06,
	"loss": 0.7729,
	"step": 290
	},
	{
	"epoch": 0.3010536879076769,
	"grad_norm": 0.7256825478194775,
	"learning_rate": 5e-06,
	"loss": 0.7692,
	"step": 300
	},
	{
	"epoch": 0.31108881083793277,
	"grad_norm": 0.6222207642465774,
	"learning_rate": 5e-06,
	"loss": 0.7664,
	"step": 310
	},
	{
	"epoch": 0.32112393376818865,
	"grad_norm": 0.6646085367912792,
	"learning_rate": 5e-06,
	"loss": 0.7648,
	"step": 320
	},
	{
	"epoch": 0.33115905669844453,
	"grad_norm": 0.7893620341431038,
	"learning_rate": 5e-06,
	"loss": 0.7624,
	"step": 330
	},
	{
	"epoch": 0.34119417962870047,
	"grad_norm": 0.6231595108266089,
	"learning_rate": 5e-06,
	"loss": 0.7714,
	"step": 340
	},
	{
	"epoch": 0.35122930255895635,
	"grad_norm": 0.668351154817616,
	"learning_rate": 5e-06,
	"loss": 0.7632,
	"step": 350
	},
	{
	"epoch": 0.3612644254892122,
	"grad_norm": 0.6343439838317185,
	"learning_rate": 5e-06,
	"loss": 0.7626,
	"step": 360
	},
	{
	"epoch": 0.37129954841946816,
	"grad_norm": 0.7056146316204847,
	"learning_rate": 5e-06,
	"loss": 0.7628,
	"step": 370
	},
	{
	"epoch": 0.38133467134972404,
	"grad_norm": 0.7902937779981405,
	"learning_rate": 5e-06,
	"loss": 0.7689,
	"step": 380
	},
	{
	"epoch": 0.3913697942799799,
	"grad_norm": 0.6918763236938501,
	"learning_rate": 5e-06,
	"loss": 0.7592,
	"step": 390
	},
	{
	"epoch": 0.4014049172102358,
	"grad_norm": 0.7358230335616606,
	"learning_rate": 5e-06,
	"loss": 0.7577,
	"step": 400
	},
	{
	"epoch": 0.41144004014049174,
	"grad_norm": 0.6126046734368374,
	"learning_rate": 5e-06,
	"loss": 0.761,
	"step": 410
	},
	{
	"epoch": 0.4214751630707476,
	"grad_norm": 0.6317827551022122,
	"learning_rate": 5e-06,
	"loss": 0.7598,
	"step": 420
	},
	{
	"epoch": 0.4315102860010035,
	"grad_norm": 0.6003042486796623,
	"learning_rate": 5e-06,
	"loss": 0.7613,
	"step": 430
	},
	{
	"epoch": 0.44154540893125943,
	"grad_norm": 0.5703662549001378,
	"learning_rate": 5e-06,
	"loss": 0.7602,
	"step": 440
	},
	{
	"epoch": 0.4515805318615153,
	"grad_norm": 0.6096409131095752,
	"learning_rate": 5e-06,
	"loss": 0.7496,
	"step": 450
	},
	{
	"epoch": 0.4616156547917712,
	"grad_norm": 0.8305089106013069,
	"learning_rate": 5e-06,
	"loss": 0.7553,
	"step": 460
	},
	{
	"epoch": 0.47165077772202707,
	"grad_norm": 0.5896793508236663,
	"learning_rate": 5e-06,
	"loss": 0.7503,
	"step": 470
	},
	{
	"epoch": 0.481685900652283,
	"grad_norm": 0.6181255276560262,
	"learning_rate": 5e-06,
	"loss": 0.7573,
	"step": 480
	},
	{
	"epoch": 0.4917210235825389,
	"grad_norm": 0.818946770368422,
	"learning_rate": 5e-06,
	"loss": 0.752,
	"step": 490
	},
	{
	"epoch": 0.5017561465127948,
	"grad_norm": 0.6056931157441836,
	"learning_rate": 5e-06,
	"loss": 0.7537,
	"step": 500
	},
	{
	"epoch": 0.5117912694430506,
	"grad_norm": 0.5810131329440165,
	"learning_rate": 5e-06,
	"loss": 0.7559,
	"step": 510
	},
	{
	"epoch": 0.5218263923733065,
	"grad_norm": 0.5475586575226008,
	"learning_rate": 5e-06,
	"loss": 0.7502,
	"step": 520
	},
	{
	"epoch": 0.5318615153035625,
	"grad_norm": 0.5857098250554217,
	"learning_rate": 5e-06,
	"loss": 0.7486,
	"step": 530
	},
	{
	"epoch": 0.5418966382338184,
	"grad_norm": 0.71215741030445,
	"learning_rate": 5e-06,
	"loss": 0.7453,
	"step": 540
	},
	{
	"epoch": 0.5519317611640743,
	"grad_norm": 0.6801576099304811,
	"learning_rate": 5e-06,
	"loss": 0.7476,
	"step": 550
	},
	{
	"epoch": 0.5619668840943302,
	"grad_norm": 0.7375590297607938,
	"learning_rate": 5e-06,
	"loss": 0.7511,
	"step": 560
	},
	{
	"epoch": 0.572002007024586,
	"grad_norm": 0.6187827311828052,
	"learning_rate": 5e-06,
	"loss": 0.7484,
	"step": 570
	},
	{
	"epoch": 0.5820371299548419,
	"grad_norm": 0.5878218056763826,
	"learning_rate": 5e-06,
	"loss": 0.7441,
	"step": 580
	},
	{
	"epoch": 0.5920722528850978,
	"grad_norm": 0.5969510290233113,
	"learning_rate": 5e-06,
	"loss": 0.7462,
	"step": 590
	},
	{
	"epoch": 0.6021073758153538,
	"grad_norm": 0.5535464540372343,
	"learning_rate": 5e-06,
	"loss": 0.7497,
	"step": 600
	},
	{
	"epoch": 0.6121424987456097,
	"grad_norm": 0.5509670875952559,
	"learning_rate": 5e-06,
	"loss": 0.747,
	"step": 610
	},
	{
	"epoch": 0.6221776216758655,
	"grad_norm": 0.558690698251435,
	"learning_rate": 5e-06,
	"loss": 0.7433,
	"step": 620
	},
	{
	"epoch": 0.6322127446061214,
	"grad_norm": 0.559060237211832,
	"learning_rate": 5e-06,
	"loss": 0.7482,
	"step": 630
	},
	{
	"epoch": 0.6422478675363773,
	"grad_norm": 0.993216287837658,
	"learning_rate": 5e-06,
	"loss": 0.7482,
	"step": 640
	},
	{
	"epoch": 0.6522829904666332,
	"grad_norm": 0.8850325099442093,
	"learning_rate": 5e-06,
	"loss": 0.7428,
	"step": 650
	},
	{
	"epoch": 0.6623181133968891,
	"grad_norm": 0.6458169799733141,
	"learning_rate": 5e-06,
	"loss": 0.7454,
	"step": 660
	},
	{
	"epoch": 0.672353236327145,
	"grad_norm": 0.5757378815184032,
	"learning_rate": 5e-06,
	"loss": 0.7462,
	"step": 670
	},
	{
	"epoch": 0.6823883592574009,
	"grad_norm": 0.8278456155470433,
	"learning_rate": 5e-06,
	"loss": 0.742,
	"step": 680
	},
	{
	"epoch": 0.6924234821876568,
	"grad_norm": 0.8087863092750499,
	"learning_rate": 5e-06,
	"loss": 0.7392,
	"step": 690
	},
	{
	"epoch": 0.7024586051179127,
	"grad_norm": 0.5920912292564408,
	"learning_rate": 5e-06,
	"loss": 0.7425,
	"step": 700
	},
	{
	"epoch": 0.7124937280481686,
	"grad_norm": 0.6733638944211415,
	"learning_rate": 5e-06,
	"loss": 0.7408,
	"step": 710
	},
	{
	"epoch": 0.7225288509784245,
	"grad_norm": 0.6330098467703786,
	"learning_rate": 5e-06,
	"loss": 0.7424,
	"step": 720
	},
	{
	"epoch": 0.7325639739086803,
	"grad_norm": 0.7212451311927113,
	"learning_rate": 5e-06,
	"loss": 0.7429,
	"step": 730
	},
	{
	"epoch": 0.7425990968389363,
	"grad_norm": 0.7896101501841413,
	"learning_rate": 5e-06,
	"loss": 0.7419,
	"step": 740
	},
	{
	"epoch": 0.7526342197691922,
	"grad_norm": 0.8026558529242067,
	"learning_rate": 5e-06,
	"loss": 0.7383,
	"step": 750
	},
	{
	"epoch": 0.7626693426994481,
	"grad_norm": 0.5426060774366821,
	"learning_rate": 5e-06,
	"loss": 0.7425,
	"step": 760
	},
	{
	"epoch": 0.772704465629704,
	"grad_norm": 0.8110802533740097,
	"learning_rate": 5e-06,
	"loss": 0.7406,
	"step": 770
	},
	{
	"epoch": 0.7827395885599598,
	"grad_norm": 0.5470009049474683,
	"learning_rate": 5e-06,
	"loss": 0.7413,
	"step": 780
	},
	{
	"epoch": 0.7927747114902157,
	"grad_norm": 0.5433159754299082,
	"learning_rate": 5e-06,
	"loss": 0.737,
	"step": 790
	},
	{
	"epoch": 0.8028098344204716,
	"grad_norm": 0.5469593174447279,
	"learning_rate": 5e-06,
	"loss": 0.7381,
	"step": 800
	},
	{
	"epoch": 0.8128449573507276,
	"grad_norm": 0.5831597485374533,
	"learning_rate": 5e-06,
	"loss": 0.7374,
	"step": 810
	},
	{
	"epoch": 0.8228800802809835,
	"grad_norm": 0.5117459329458333,
	"learning_rate": 5e-06,
	"loss": 0.7386,
	"step": 820
	},
	{
	"epoch": 0.8329152032112394,
	"grad_norm": 0.6427232877089865,
	"learning_rate": 5e-06,
	"loss": 0.7356,
	"step": 830
	},
	{
	"epoch": 0.8429503261414952,
	"grad_norm": 0.5821269785394396,
	"learning_rate": 5e-06,
	"loss": 0.7347,
	"step": 840
	},
	{
	"epoch": 0.8529854490717511,
	"grad_norm": 0.7120331561544883,
	"learning_rate": 5e-06,
	"loss": 0.7363,
	"step": 850
	},
	{
	"epoch": 0.863020572002007,
	"grad_norm": 0.6454042518783881,
	"learning_rate": 5e-06,
	"loss": 0.7371,
	"step": 860
	},
	{
	"epoch": 0.8730556949322629,
	"grad_norm": 0.5420399494529005,
	"learning_rate": 5e-06,
	"loss": 0.7349,
	"step": 870
	},
	{
	"epoch": 0.8830908178625189,
	"grad_norm": 0.5989777798696867,
	"learning_rate": 5e-06,
	"loss": 0.7346,
	"step": 880
	},
	{
	"epoch": 0.8931259407927747,
	"grad_norm": 0.5399005419446141,
	"learning_rate": 5e-06,
	"loss": 0.7333,
	"step": 890
	},
	{
	"epoch": 0.9031610637230306,
	"grad_norm": 0.5484451725519497,
	"learning_rate": 5e-06,
	"loss": 0.7369,
	"step": 900
	},
	{
	"epoch": 0.9131961866532865,
	"grad_norm": 0.6023327403789546,
	"learning_rate": 5e-06,
	"loss": 0.7332,
	"step": 910
	},
	{
	"epoch": 0.9232313095835424,
	"grad_norm": 0.570469676089088,
	"learning_rate": 5e-06,
	"loss": 0.7332,
	"step": 920
	},
	{
	"epoch": 0.9332664325137983,
	"grad_norm": 0.5358735783509466,
	"learning_rate": 5e-06,
	"loss": 0.7364,
	"step": 930
	},
	{
	"epoch": 0.9433015554440541,
	"grad_norm": 0.596570834196872,
	"learning_rate": 5e-06,
	"loss": 0.734,
	"step": 940
	},
	{
	"epoch": 0.9533366783743101,
	"grad_norm": 0.8858750188622682,
	"learning_rate": 5e-06,
	"loss": 0.7299,
	"step": 950
	},
	{
	"epoch": 0.963371801304566,
	"grad_norm": 0.7057998358035058,
	"learning_rate": 5e-06,
	"loss": 0.7296,
	"step": 960
	},
	{
	"epoch": 0.9734069242348219,
	"grad_norm": 0.6567689691351051,
	"learning_rate": 5e-06,
	"loss": 0.7383,
	"step": 970
	},
	{
	"epoch": 0.9834420471650778,
	"grad_norm": 0.5723166821895646,
	"learning_rate": 5e-06,
	"loss": 0.7329,
	"step": 980
	},
	{
	"epoch": 0.9934771700953337,
	"grad_norm": 0.5989872298413202,
	"learning_rate": 5e-06,
	"loss": 0.7331,
	"step": 990
	},
	{
	"epoch": 0.9994982438534872,
	"eval_loss": 0.7304001450538635,
	"eval_runtime": 533.1509,
	"eval_samples_per_second": 50.359,
	"eval_steps_per_second": 0.394,
	"step": 996
	},
	{
	"epoch": 1.0035122930255895,
	"grad_norm": 0.7229493528687063,
	"learning_rate": 5e-06,
	"loss": 0.754,
	"step": 1000
	},
	{
	"epoch": 1.0135474159558455,
	"grad_norm": 0.7232729261961888,
	"learning_rate": 5e-06,
	"loss": 0.6938,
	"step": 1010
	},
	{
	"epoch": 1.0235825388861013,
	"grad_norm": 0.5558461578633823,
	"learning_rate": 5e-06,
	"loss": 0.6963,
	"step": 1020
	},
	{
	"epoch": 1.0336176618163573,
	"grad_norm": 0.7260986137213504,
	"learning_rate": 5e-06,
	"loss": 0.6892,
	"step": 1030
	},
	{
	"epoch": 1.043652784746613,
	"grad_norm": 0.5639681058736989,
	"learning_rate": 5e-06,
	"loss": 0.6922,
	"step": 1040
	},
	{
	"epoch": 1.053687907676869,
	"grad_norm": 0.7762004415565651,
	"learning_rate": 5e-06,
	"loss": 0.6893,
	"step": 1050
	},
	{
	"epoch": 1.063723030607125,
	"grad_norm": 0.5656634035888263,
	"learning_rate": 5e-06,
	"loss": 0.6903,
	"step": 1060
	},
	{
	"epoch": 1.0737581535373808,
	"grad_norm": 0.5622021467734256,
	"learning_rate": 5e-06,
	"loss": 0.6975,
	"step": 1070
	},
	{
	"epoch": 1.0837932764676368,
	"grad_norm": 0.5747675890837022,
	"learning_rate": 5e-06,
	"loss": 0.6953,
	"step": 1080
	},
	{
	"epoch": 1.0938283993978926,
	"grad_norm": 0.7477336699942959,
	"learning_rate": 5e-06,
	"loss": 0.6924,
	"step": 1090
	},
	{
	"epoch": 1.1038635223281485,
	"grad_norm": 0.6002636077929234,
	"learning_rate": 5e-06,
	"loss": 0.6933,
	"step": 1100
	},
	{
	"epoch": 1.1138986452584043,
	"grad_norm": 0.5094594079799682,
	"learning_rate": 5e-06,
	"loss": 0.6909,
	"step": 1110
	},
	{
	"epoch": 1.1239337681886603,
	"grad_norm": 0.7393831172107309,
	"learning_rate": 5e-06,
	"loss": 0.6962,
	"step": 1120
	},
	{
	"epoch": 1.1339688911189163,
	"grad_norm": 0.8841355043993067,
	"learning_rate": 5e-06,
	"loss": 0.6909,
	"step": 1130
	},
	{
	"epoch": 1.144004014049172,
	"grad_norm": 0.6844280192067772,
	"learning_rate": 5e-06,
	"loss": 0.6909,
	"step": 1140
	},
	{
	"epoch": 1.154039136979428,
	"grad_norm": 0.5968326130517227,
	"learning_rate": 5e-06,
	"loss": 0.6959,
	"step": 1150
	},
	{
	"epoch": 1.1640742599096838,
	"grad_norm": 0.6164015759188082,
	"learning_rate": 5e-06,
	"loss": 0.6898,
	"step": 1160
	},
	{
	"epoch": 1.1741093828399398,
	"grad_norm": 0.6358359825338351,
	"learning_rate": 5e-06,
	"loss": 0.6944,
	"step": 1170
	},
	{
	"epoch": 1.1841445057701956,
	"grad_norm": 0.6829806654257828,
	"learning_rate": 5e-06,
	"loss": 0.697,
	"step": 1180
	},
	{
	"epoch": 1.1941796287004516,
	"grad_norm": 0.794769579664283,
	"learning_rate": 5e-06,
	"loss": 0.6983,
	"step": 1190
	},
	{
	"epoch": 1.2042147516307076,
	"grad_norm": 0.5535487901068424,
	"learning_rate": 5e-06,
	"loss": 0.6917,
	"step": 1200
	},
	{
	"epoch": 1.2142498745609633,
	"grad_norm": 0.5121320501008007,
	"learning_rate": 5e-06,
	"loss": 0.6931,
	"step": 1210
	},
	{
	"epoch": 1.2242849974912193,
	"grad_norm": 0.77177684811206,
	"learning_rate": 5e-06,
	"loss": 0.6959,
	"step": 1220
	},
	{
	"epoch": 1.234320120421475,
	"grad_norm": 0.5890956733651708,
	"learning_rate": 5e-06,
	"loss": 0.6909,
	"step": 1230
	},
	{
	"epoch": 1.244355243351731,
	"grad_norm": 0.6143309157442813,
	"learning_rate": 5e-06,
	"loss": 0.6928,
	"step": 1240
	},
	{
	"epoch": 1.2543903662819869,
	"grad_norm": 0.5522142360609605,
	"learning_rate": 5e-06,
	"loss": 0.6947,
	"step": 1250
	},
	{
	"epoch": 1.2644254892122428,
	"grad_norm": 0.49945028630806676,
	"learning_rate": 5e-06,
	"loss": 0.6948,
	"step": 1260
	},
	{
	"epoch": 1.2744606121424988,
	"grad_norm": 0.6318729529808568,
	"learning_rate": 5e-06,
	"loss": 0.6948,
	"step": 1270
	},
	{
	"epoch": 1.2844957350727546,
	"grad_norm": 0.571168433475203,
	"learning_rate": 5e-06,
	"loss": 0.691,
	"step": 1280
	},
	{
	"epoch": 1.2945308580030106,
	"grad_norm": 0.586240165635217,
	"learning_rate": 5e-06,
	"loss": 0.6867,
	"step": 1290
	},
	{
	"epoch": 1.3045659809332664,
	"grad_norm": 0.5371646553547392,
	"learning_rate": 5e-06,
	"loss": 0.6959,
	"step": 1300
	},
	{
	"epoch": 1.3146011038635224,
	"grad_norm": 0.7305933258706494,
	"learning_rate": 5e-06,
	"loss": 0.6965,
	"step": 1310
	},
	{
	"epoch": 1.3246362267937783,
	"grad_norm": 0.5749853775138927,
	"learning_rate": 5e-06,
	"loss": 0.6916,
	"step": 1320
	},
	{
	"epoch": 1.3346713497240341,
	"grad_norm": 0.5364405695908858,
	"learning_rate": 5e-06,
	"loss": 0.6879,
	"step": 1330
	},
	{
	"epoch": 1.3447064726542899,
	"grad_norm": 0.6583337401074435,
	"learning_rate": 5e-06,
	"loss": 0.6941,
	"step": 1340
	},
	{
	"epoch": 1.3547415955845459,
	"grad_norm": 0.5510351142365912,
	"learning_rate": 5e-06,
	"loss": 0.6881,
	"step": 1350
	},
	{
	"epoch": 1.3647767185148019,
	"grad_norm": 0.6470013078598107,
	"learning_rate": 5e-06,
	"loss": 0.6963,
	"step": 1360
	},
	{
	"epoch": 1.3748118414450576,
	"grad_norm": 0.6435465190281996,
	"learning_rate": 5e-06,
	"loss": 0.6848,
	"step": 1370
	},
	{
	"epoch": 1.3848469643753136,
	"grad_norm": 0.5592954158689228,
	"learning_rate": 5e-06,
	"loss": 0.6933,
	"step": 1380
	},
	{
	"epoch": 1.3948820873055694,
	"grad_norm": 0.5565093643287172,
	"learning_rate": 5e-06,
	"loss": 0.6956,
	"step": 1390
	},
	{
	"epoch": 1.4049172102358254,
	"grad_norm": 0.5429384088118309,
	"learning_rate": 5e-06,
	"loss": 0.6913,
	"step": 1400
	},
	{
	"epoch": 1.4149523331660814,
	"grad_norm": 0.5259873486414379,
	"learning_rate": 5e-06,
	"loss": 0.6905,
	"step": 1410
	},
	{
	"epoch": 1.4249874560963371,
	"grad_norm": 0.5791809050097347,
	"learning_rate": 5e-06,
	"loss": 0.6913,
	"step": 1420
	},
	{
	"epoch": 1.4350225790265931,
	"grad_norm": 0.5409946987555362,
	"learning_rate": 5e-06,
	"loss": 0.6944,
	"step": 1430
	},
	{
	"epoch": 1.445057701956849,
	"grad_norm": 0.6258615837964843,
	"learning_rate": 5e-06,
	"loss": 0.6906,
	"step": 1440
	},
	{
	"epoch": 1.455092824887105,
	"grad_norm": 0.5255664654202296,
	"learning_rate": 5e-06,
	"loss": 0.6915,
	"step": 1450
	},
	{
	"epoch": 1.4651279478173609,
	"grad_norm": 0.5157724202212534,
	"learning_rate": 5e-06,
	"loss": 0.6911,
	"step": 1460
	},
	{
	"epoch": 1.4751630707476167,
	"grad_norm": 0.6020158761130551,
	"learning_rate": 5e-06,
	"loss": 0.692,
	"step": 1470
	},
	{
	"epoch": 1.4851981936778724,
	"grad_norm": 0.5268622104694118,
	"learning_rate": 5e-06,
	"loss": 0.6884,
	"step": 1480
	},
	{
	"epoch": 1.4952333166081284,
	"grad_norm": 0.6743718354665602,
	"learning_rate": 5e-06,
	"loss": 0.6886,
	"step": 1490
	},
	{
	"epoch": 1.5052684395383844,
	"grad_norm": 0.5526860667382173,
	"learning_rate": 5e-06,
	"loss": 0.695,
	"step": 1500
	},
	{
	"epoch": 1.5153035624686404,
	"grad_norm": 0.5659897839907012,
	"learning_rate": 5e-06,
	"loss": 0.6962,
	"step": 1510
	},
	{
	"epoch": 1.5253386853988962,
	"grad_norm": 0.566194976984101,
	"learning_rate": 5e-06,
	"loss": 0.6953,
	"step": 1520
	},
	{
	"epoch": 1.535373808329152,
	"grad_norm": 0.6884023263714835,
	"learning_rate": 5e-06,
	"loss": 0.6912,
	"step": 1530
	},
	{
	"epoch": 1.545408931259408,
	"grad_norm": 0.6152652274544539,
	"learning_rate": 5e-06,
	"loss": 0.6881,
	"step": 1540
	},
	{
	"epoch": 1.555444054189664,
	"grad_norm": 0.7014542676012229,
	"learning_rate": 5e-06,
	"loss": 0.6874,
	"step": 1550
	},
	{
	"epoch": 1.5654791771199197,
	"grad_norm": 0.765002797379268,
	"learning_rate": 5e-06,
	"loss": 0.6923,
	"step": 1560
	},
	{
	"epoch": 1.5755143000501755,
	"grad_norm": 0.5516453996184308,
	"learning_rate": 5e-06,
	"loss": 0.6896,
	"step": 1570
	},
	{
	"epoch": 1.5855494229804314,
	"grad_norm": 0.5432337667581397,
	"learning_rate": 5e-06,
	"loss": 0.6903,
	"step": 1580
	},
	{
	"epoch": 1.5955845459106874,
	"grad_norm": 0.5346527907725022,
	"learning_rate": 5e-06,
	"loss": 0.6917,
	"step": 1590
	},
	{
	"epoch": 1.6056196688409434,
	"grad_norm": 0.5603099472061689,
	"learning_rate": 5e-06,
	"loss": 0.6913,
	"step": 1600
	},
	{
	"epoch": 1.6156547917711992,
	"grad_norm": 0.6065488834635239,
	"learning_rate": 5e-06,
	"loss": 0.6855,
	"step": 1610
	},
	{
	"epoch": 1.625689914701455,
	"grad_norm": 0.5274199389654457,
	"learning_rate": 5e-06,
	"loss": 0.689,
	"step": 1620
	},
	{
	"epoch": 1.635725037631711,
	"grad_norm": 0.5120395521998542,
	"learning_rate": 5e-06,
	"loss": 0.6917,
	"step": 1630
	},
	{
	"epoch": 1.645760160561967,
	"grad_norm": 0.5519879159635278,
	"learning_rate": 5e-06,
	"loss": 0.6844,
	"step": 1640
	},
	{
	"epoch": 1.655795283492223,
	"grad_norm": 0.504366123389348,
	"learning_rate": 5e-06,
	"loss": 0.6894,
	"step": 1650
	},
	{
	"epoch": 1.6658304064224787,
	"grad_norm": 0.5435020519283282,
	"learning_rate": 5e-06,
	"loss": 0.6985,
	"step": 1660
	},
	{
	"epoch": 1.6758655293527345,
	"grad_norm": 0.6023059143733316,
	"learning_rate": 5e-06,
	"loss": 0.6899,
	"step": 1670
	},
	{
	"epoch": 1.6859006522829905,
	"grad_norm": 0.6127499530451496,
	"learning_rate": 5e-06,
	"loss": 0.6901,
	"step": 1680
	},
	{
	"epoch": 1.6959357752132465,
	"grad_norm": 0.584858369961145,
	"learning_rate": 5e-06,
	"loss": 0.6926,
	"step": 1690
	},
	{
	"epoch": 1.7059708981435022,
	"grad_norm": 0.6802752379981577,
	"learning_rate": 5e-06,
	"loss": 0.6889,
	"step": 1700
	},
	{
	"epoch": 1.716006021073758,
	"grad_norm": 0.6145503442957706,
	"learning_rate": 5e-06,
	"loss": 0.6938,
	"step": 1710
	},
	{
	"epoch": 1.726041144004014,
	"grad_norm": 0.5806125711805925,
	"learning_rate": 5e-06,
	"loss": 0.6892,
	"step": 1720
	},
	{
	"epoch": 1.73607626693427,
	"grad_norm": 0.5164505361265845,
	"learning_rate": 5e-06,
	"loss": 0.6876,
	"step": 1730
	},
	{
	"epoch": 1.746111389864526,
	"grad_norm": 0.518409684362953,
	"learning_rate": 5e-06,
	"loss": 0.6914,
	"step": 1740
	},
	{
	"epoch": 1.7561465127947817,
	"grad_norm": 0.5798099508033144,
	"learning_rate": 5e-06,
	"loss": 0.6936,
	"step": 1750
	},
	{
	"epoch": 1.7661816357250375,
	"grad_norm": 0.5397031230350496,
	"learning_rate": 5e-06,
	"loss": 0.6884,
	"step": 1760
	},
	{
	"epoch": 1.7762167586552935,
	"grad_norm": 0.5101108640235097,
	"learning_rate": 5e-06,
	"loss": 0.6861,
	"step": 1770
	},
	{
	"epoch": 1.7862518815855495,
	"grad_norm": 0.5577428782679603,
	"learning_rate": 5e-06,
	"loss": 0.6884,
	"step": 1780
	},
	{
	"epoch": 1.7962870045158055,
	"grad_norm": 0.5088658014753255,
	"learning_rate": 5e-06,
	"loss": 0.696,
	"step": 1790
	},
	{
	"epoch": 1.8063221274460612,
	"grad_norm": 0.5834405015876643,
	"learning_rate": 5e-06,
	"loss": 0.6936,
	"step": 1800
	},
	{
	"epoch": 1.816357250376317,
	"grad_norm": 0.5223134455064544,
	"learning_rate": 5e-06,
	"loss": 0.6894,
	"step": 1810
	},
	{
	"epoch": 1.826392373306573,
	"grad_norm": 0.5218318397593602,
	"learning_rate": 5e-06,
	"loss": 0.6901,
	"step": 1820
	},
	{
	"epoch": 1.836427496236829,
	"grad_norm": 0.6595429027005055,
	"learning_rate": 5e-06,
	"loss": 0.6878,
	"step": 1830
	},
	{
	"epoch": 1.8464626191670848,
	"grad_norm": 0.5041069952524779,
	"learning_rate": 5e-06,
	"loss": 0.691,
	"step": 1840
	},
	{
	"epoch": 1.8564977420973405,
	"grad_norm": 0.6147969409931642,
	"learning_rate": 5e-06,
	"loss": 0.6925,
	"step": 1850
	},
	{
	"epoch": 1.8665328650275965,
	"grad_norm": 0.5123520217070617,
	"learning_rate": 5e-06,
	"loss": 0.6864,
	"step": 1860
	},
	{
	"epoch": 1.8765679879578525,
	"grad_norm": 0.5168471950711845,
	"learning_rate": 5e-06,
	"loss": 0.6885,
	"step": 1870
	},
	{
	"epoch": 1.8866031108881085,
	"grad_norm": 0.5930018846461471,
	"learning_rate": 5e-06,
	"loss": 0.6861,
	"step": 1880
	},
	{
	"epoch": 1.8966382338183643,
	"grad_norm": 0.5616874309006329,
	"learning_rate": 5e-06,
	"loss": 0.6895,
	"step": 1890
	},
	{
	"epoch": 1.90667335674862,
	"grad_norm": 0.5473178004684522,
	"learning_rate": 5e-06,
	"loss": 0.6891,
	"step": 1900
	},
	{
	"epoch": 1.916708479678876,
	"grad_norm": 0.498555944884513,
	"learning_rate": 5e-06,
	"loss": 0.6867,
	"step": 1910
	},
	{
	"epoch": 1.926743602609132,
	"grad_norm": 0.5781525233352894,
	"learning_rate": 5e-06,
	"loss": 0.6936,
	"step": 1920
	},
	{
	"epoch": 1.936778725539388,
	"grad_norm": 0.6304670711001885,
	"learning_rate": 5e-06,
	"loss": 0.6882,
	"step": 1930
	},
	{
	"epoch": 1.9468138484696438,
	"grad_norm": 0.59342699382766,
	"learning_rate": 5e-06,
	"loss": 0.6875,
	"step": 1940
	},
	{
	"epoch": 1.9568489713998996,
	"grad_norm": 0.6911703835056067,
	"learning_rate": 5e-06,
	"loss": 0.6879,
	"step": 1950
	},
	{
	"epoch": 1.9668840943301555,
	"grad_norm": 0.7568921959517525,
	"learning_rate": 5e-06,
	"loss": 0.687,
	"step": 1960
	},
	{
	"epoch": 1.9769192172604115,
	"grad_norm": 0.541514579573604,
	"learning_rate": 5e-06,
	"loss": 0.6891,
	"step": 1970
	},
	{
	"epoch": 1.9869543401906673,
	"grad_norm": 0.5249988740865994,
	"learning_rate": 5e-06,
	"loss": 0.688,
	"step": 1980
	},
	{
	"epoch": 1.996989463120923,
	"grad_norm": 0.518981463681463,
	"learning_rate": 5e-06,
	"loss": 0.6916,
	"step": 1990
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.7170566320419312,
	"eval_runtime": 534.2939,
	"eval_samples_per_second": 50.251,
	"eval_steps_per_second": 0.393,
	"step": 1993
	},
	{
	"epoch": 2.007024586051179,
	"grad_norm": 0.6758178418746282,
	"learning_rate": 5e-06,
	"loss": 0.6927,
	"step": 2000
	},
	{
	"epoch": 2.017059708981435,
	"grad_norm": 0.6409143667352257,
	"learning_rate": 5e-06,
	"loss": 0.6458,
	"step": 2010
	},
	{
	"epoch": 2.027094831911691,
	"grad_norm": 0.6399574034808028,
	"learning_rate": 5e-06,
	"loss": 0.6452,
	"step": 2020
	},
	{
	"epoch": 2.037129954841947,
	"grad_norm": 0.6398494060833938,
	"learning_rate": 5e-06,
	"loss": 0.6464,
	"step": 2030
	},
	{
	"epoch": 2.0471650777722026,
	"grad_norm": 0.6225102571911315,
	"learning_rate": 5e-06,
	"loss": 0.6441,
	"step": 2040
	},
	{
	"epoch": 2.0572002007024586,
	"grad_norm": 0.607220858160029,
	"learning_rate": 5e-06,
	"loss": 0.6488,
	"step": 2050
	},
	{
	"epoch": 2.0672353236327146,
	"grad_norm": 0.6296613660669085,
	"learning_rate": 5e-06,
	"loss": 0.6469,
	"step": 2060
	},
	{
	"epoch": 2.0772704465629706,
	"grad_norm": 0.6997962877873833,
	"learning_rate": 5e-06,
	"loss": 0.6442,
	"step": 2070
	},
	{
	"epoch": 2.087305569493226,
	"grad_norm": 0.5565086168492744,
	"learning_rate": 5e-06,
	"loss": 0.6501,
	"step": 2080
	},
	{
	"epoch": 2.097340692423482,
	"grad_norm": 0.5570529145692124,
	"learning_rate": 5e-06,
	"loss": 0.6509,
	"step": 2090
	},
	{
	"epoch": 2.107375815353738,
	"grad_norm": 0.5387202610597639,
	"learning_rate": 5e-06,
	"loss": 0.6476,
	"step": 2100
	},
	{
	"epoch": 2.117410938283994,
	"grad_norm": 0.5555720032343792,
	"learning_rate": 5e-06,
	"loss": 0.6451,
	"step": 2110
	},
	{
	"epoch": 2.12744606121425,
	"grad_norm": 0.549298003440315,
	"learning_rate": 5e-06,
	"loss": 0.6452,
	"step": 2120
	},
	{
	"epoch": 2.1374811841445056,
	"grad_norm": 0.7025357677002765,
	"learning_rate": 5e-06,
	"loss": 0.6501,
	"step": 2130
	},
	{
	"epoch": 2.1475163070747616,
	"grad_norm": 0.6933827951492744,
	"learning_rate": 5e-06,
	"loss": 0.6483,
	"step": 2140
	},
	{
	"epoch": 2.1575514300050176,
	"grad_norm": 0.5931050285459404,
	"learning_rate": 5e-06,
	"loss": 0.6488,
	"step": 2150
	},
	{
	"epoch": 2.1675865529352736,
	"grad_norm": 0.5619532741142755,
	"learning_rate": 5e-06,
	"loss": 0.6448,
	"step": 2160
	},
	{
	"epoch": 2.177621675865529,
	"grad_norm": 0.5451448701863834,
	"learning_rate": 5e-06,
	"loss": 0.6444,
	"step": 2170
	},
	{
	"epoch": 2.187656798795785,
	"grad_norm": 0.48428533410635616,
	"learning_rate": 5e-06,
	"loss": 0.6495,
	"step": 2180
	},
	{
	"epoch": 2.197691921726041,
	"grad_norm": 0.5479783043613699,
	"learning_rate": 5e-06,
	"loss": 0.6525,
	"step": 2190
	},
	{
	"epoch": 2.207727044656297,
	"grad_norm": 0.5880029735313238,
	"learning_rate": 5e-06,
	"loss": 0.6492,
	"step": 2200
	},
	{
	"epoch": 2.217762167586553,
	"grad_norm": 0.518071247803138,
	"learning_rate": 5e-06,
	"loss": 0.6531,
	"step": 2210
	},
	{
	"epoch": 2.2277972905168086,
	"grad_norm": 0.5525479511919598,
	"learning_rate": 5e-06,
	"loss": 0.6486,
	"step": 2220
	},
	{
	"epoch": 2.2378324134470646,
	"grad_norm": 0.5930736784074986,
	"learning_rate": 5e-06,
	"loss": 0.6477,
	"step": 2230
	},
	{
	"epoch": 2.2478675363773206,
	"grad_norm": 0.5191764875817738,
	"learning_rate": 5e-06,
	"loss": 0.6476,
	"step": 2240
	},
	{
	"epoch": 2.2579026593075766,
	"grad_norm": 0.5226745835573395,
	"learning_rate": 5e-06,
	"loss": 0.6468,
	"step": 2250
	},
	{
	"epoch": 2.2679377822378326,
	"grad_norm": 0.594787801985729,
	"learning_rate": 5e-06,
	"loss": 0.6493,
	"step": 2260
	},
	{
	"epoch": 2.277972905168088,
	"grad_norm": 0.6593644795439105,
	"learning_rate": 5e-06,
	"loss": 0.6494,
	"step": 2270
	},
	{
	"epoch": 2.288008028098344,
	"grad_norm": 0.5809194962718293,
	"learning_rate": 5e-06,
	"loss": 0.6488,
	"step": 2280
	},
	{
	"epoch": 2.2980431510286,
	"grad_norm": 0.5769100613769682,
	"learning_rate": 5e-06,
	"loss": 0.6443,
	"step": 2290
	},
	{
	"epoch": 2.308078273958856,
	"grad_norm": 0.5798022574438232,
	"learning_rate": 5e-06,
	"loss": 0.6511,
	"step": 2300
	},
	{
	"epoch": 2.318113396889112,
	"grad_norm": 0.5500840976868079,
	"learning_rate": 5e-06,
	"loss": 0.6521,
	"step": 2310
	},
	{
	"epoch": 2.3281485198193677,
	"grad_norm": 0.557151649596109,
	"learning_rate": 5e-06,
	"loss": 0.6499,
	"step": 2320
	},
	{
	"epoch": 2.3381836427496236,
	"grad_norm": 0.5206053660885596,
	"learning_rate": 5e-06,
	"loss": 0.6497,
	"step": 2330
	},
	{
	"epoch": 2.3482187656798796,
	"grad_norm": 0.5151956126043011,
	"learning_rate": 5e-06,
	"loss": 0.6465,
	"step": 2340
	},
	{
	"epoch": 2.3582538886101356,
	"grad_norm": 0.6243860622771431,
	"learning_rate": 5e-06,
	"loss": 0.6471,
	"step": 2350
	},
	{
	"epoch": 2.368289011540391,
	"grad_norm": 0.5551415160151735,
	"learning_rate": 5e-06,
	"loss": 0.6499,
	"step": 2360
	},
	{
	"epoch": 2.378324134470647,
	"grad_norm": 0.5399591771385078,
	"learning_rate": 5e-06,
	"loss": 0.6542,
	"step": 2370
	},
	{
	"epoch": 2.388359257400903,
	"grad_norm": 0.7051292001377757,
	"learning_rate": 5e-06,
	"loss": 0.6519,
	"step": 2380
	},
	{
	"epoch": 2.398394380331159,
	"grad_norm": 0.7249734533415666,
	"learning_rate": 5e-06,
	"loss": 0.6453,
	"step": 2390
	},
	{
	"epoch": 2.408429503261415,
	"grad_norm": 0.5667898165098878,
	"learning_rate": 5e-06,
	"loss": 0.6502,
	"step": 2400
	},
	{
	"epoch": 2.4184646261916707,
	"grad_norm": 0.5714404629239772,
	"learning_rate": 5e-06,
	"loss": 0.651,
	"step": 2410
	},
	{
	"epoch": 2.4284997491219267,
	"grad_norm": 0.5776379885611598,
	"learning_rate": 5e-06,
	"loss": 0.6533,
	"step": 2420
	},
	{
	"epoch": 2.4385348720521827,
	"grad_norm": 0.5720433924252879,
	"learning_rate": 5e-06,
	"loss": 0.6495,
	"step": 2430
	},
	{
	"epoch": 2.4485699949824387,
	"grad_norm": 0.5385010214829424,
	"learning_rate": 5e-06,
	"loss": 0.6535,
	"step": 2440
	},
	{
	"epoch": 2.458605117912694,
	"grad_norm": 0.7858581581353575,
	"learning_rate": 5e-06,
	"loss": 0.6501,
	"step": 2450
	},
	{
	"epoch": 2.46864024084295,
	"grad_norm": 0.5254373337828374,
	"learning_rate": 5e-06,
	"loss": 0.6514,
	"step": 2460
	},
	{
	"epoch": 2.478675363773206,
	"grad_norm": 0.5927951089454341,
	"learning_rate": 5e-06,
	"loss": 0.6567,
	"step": 2470
	},
	{
	"epoch": 2.488710486703462,
	"grad_norm": 0.576333054967198,
	"learning_rate": 5e-06,
	"loss": 0.6468,
	"step": 2480
	},
	{
	"epoch": 2.498745609633718,
	"grad_norm": 0.5997091587436316,
	"learning_rate": 5e-06,
	"loss": 0.6494,
	"step": 2490
	},
	{
	"epoch": 2.5087807325639737,
	"grad_norm": 0.5774761407070679,
	"learning_rate": 5e-06,
	"loss": 0.6575,
	"step": 2500
	},
	{
	"epoch": 2.5188158554942297,
	"grad_norm": 0.5697277316039128,
	"learning_rate": 5e-06,
	"loss": 0.6529,
	"step": 2510
	},
	{
	"epoch": 2.5288509784244857,
	"grad_norm": 0.5523271421741578,
	"learning_rate": 5e-06,
	"loss": 0.6486,
	"step": 2520
	},
	{
	"epoch": 2.5388861013547417,
	"grad_norm": 0.5308441673869406,
	"learning_rate": 5e-06,
	"loss": 0.6479,
	"step": 2530
	},
	{
	"epoch": 2.5489212242849977,
	"grad_norm": 0.611658706018765,
	"learning_rate": 5e-06,
	"loss": 0.6515,
	"step": 2540
	},
	{
	"epoch": 2.5589563472152532,
	"grad_norm": 0.5882952161403756,
	"learning_rate": 5e-06,
	"loss": 0.6529,
	"step": 2550
	},
	{
	"epoch": 2.568991470145509,
	"grad_norm": 0.5944397200737397,
	"learning_rate": 5e-06,
	"loss": 0.6486,
	"step": 2560
	},
	{
	"epoch": 2.579026593075765,
	"grad_norm": 0.6211121511651304,
	"learning_rate": 5e-06,
	"loss": 0.6511,
	"step": 2570
	},
	{
	"epoch": 2.589061716006021,
	"grad_norm": 0.5687379330786366,
	"learning_rate": 5e-06,
	"loss": 0.6599,
	"step": 2580
	},
	{
	"epoch": 2.599096838936277,
	"grad_norm": 0.5264826150946973,
	"learning_rate": 5e-06,
	"loss": 0.6475,
	"step": 2590
	},
	{
	"epoch": 2.6091319618665327,
	"grad_norm": 0.546285649845265,
	"learning_rate": 5e-06,
	"loss": 0.6531,
	"step": 2600
	},
	{
	"epoch": 2.6191670847967887,
	"grad_norm": 0.5016403997355949,
	"learning_rate": 5e-06,
	"loss": 0.6532,
	"step": 2610
	},
	{
	"epoch": 2.6292022077270447,
	"grad_norm": 0.514946202260049,
	"learning_rate": 5e-06,
	"loss": 0.6476,
	"step": 2620
	},
	{
	"epoch": 2.6392373306573007,
	"grad_norm": 0.5768998926592247,
	"learning_rate": 5e-06,
	"loss": 0.6499,
	"step": 2630
	},
	{
	"epoch": 2.6492724535875567,
	"grad_norm": 0.56824673619337,
	"learning_rate": 5e-06,
	"loss": 0.6515,
	"step": 2640
	},
	{
	"epoch": 2.6593075765178122,
	"grad_norm": 0.5743894544574858,
	"learning_rate": 5e-06,
	"loss": 0.6528,
	"step": 2650
	},
	{
	"epoch": 2.6693426994480682,
	"grad_norm": 0.6566059771585782,
	"learning_rate": 5e-06,
	"loss": 0.6482,
	"step": 2660
	},
	{
	"epoch": 2.6793778223783242,
	"grad_norm": 0.6222476495314778,
	"learning_rate": 5e-06,
	"loss": 0.6521,
	"step": 2670
	},
	{
	"epoch": 2.6894129453085798,
	"grad_norm": 0.5352433226802004,
	"learning_rate": 5e-06,
	"loss": 0.6511,
	"step": 2680
	},
	{
	"epoch": 2.6994480682388358,
	"grad_norm": 0.5593740996298296,
	"learning_rate": 5e-06,
	"loss": 0.6502,
	"step": 2690
	},
	{
	"epoch": 2.7094831911690918,
	"grad_norm": 0.5870512541625679,
	"learning_rate": 5e-06,
	"loss": 0.6509,
	"step": 2700
	},
	{
	"epoch": 2.7195183140993477,
	"grad_norm": 0.5194458048924404,
	"learning_rate": 5e-06,
	"loss": 0.6522,
	"step": 2710
	},
	{
	"epoch": 2.7295534370296037,
	"grad_norm": 0.5207337998079029,
	"learning_rate": 5e-06,
	"loss": 0.6513,
	"step": 2720
	},
	{
	"epoch": 2.7395885599598593,
	"grad_norm": 0.543790751828564,
	"learning_rate": 5e-06,
	"loss": 0.6551,
	"step": 2730
	},
	{
	"epoch": 2.7496236828901153,
	"grad_norm": 0.5863597318330472,
	"learning_rate": 5e-06,
	"loss": 0.6545,
	"step": 2740
	},
	{
	"epoch": 2.7596588058203713,
	"grad_norm": 0.5388170321853544,
	"learning_rate": 5e-06,
	"loss": 0.6538,
	"step": 2750
	},
	{
	"epoch": 2.7696939287506273,
	"grad_norm": 0.5742236049971658,
	"learning_rate": 5e-06,
	"loss": 0.6583,
	"step": 2760
	},
	{
	"epoch": 2.7797290516808832,
	"grad_norm": 0.5384373778506647,
	"learning_rate": 5e-06,
	"loss": 0.6545,
	"step": 2770
	},
	{
	"epoch": 2.789764174611139,
	"grad_norm": 0.5345134774106539,
	"learning_rate": 5e-06,
	"loss": 0.6508,
	"step": 2780
	},
	{
	"epoch": 2.799799297541395,
	"grad_norm": 0.6099706934146881,
	"learning_rate": 5e-06,
	"loss": 0.6534,
	"step": 2790
	},
	{
	"epoch": 2.8098344204716508,
	"grad_norm": 0.7684214994129063,
	"learning_rate": 5e-06,
	"loss": 0.6552,
	"step": 2800
	},
	{
	"epoch": 2.8198695434019068,
	"grad_norm": 0.6812429404931887,
	"learning_rate": 5e-06,
	"loss": 0.6541,
	"step": 2810
	},
	{
	"epoch": 2.8299046663321628,
	"grad_norm": 0.5551480308045381,
	"learning_rate": 5e-06,
	"loss": 0.648,
	"step": 2820
	},
	{
	"epoch": 2.8399397892624183,
	"grad_norm": 0.5783011582533801,
	"learning_rate": 5e-06,
	"loss": 0.6538,
	"step": 2830
	},
	{
	"epoch": 2.8499749121926743,
	"grad_norm": 0.6083930556812827,
	"learning_rate": 5e-06,
	"loss": 0.652,
	"step": 2840
	},
	{
	"epoch": 2.8600100351229303,
	"grad_norm": 0.6412044060911565,
	"learning_rate": 5e-06,
	"loss": 0.6574,
	"step": 2850
	},
	{
	"epoch": 2.8700451580531863,
	"grad_norm": 0.6641263630618335,
	"learning_rate": 5e-06,
	"loss": 0.6533,
	"step": 2860
	},
	{
	"epoch": 2.8800802809834423,
	"grad_norm": 0.7128854398954438,
	"learning_rate": 5e-06,
	"loss": 0.6516,
	"step": 2870
	},
	{
	"epoch": 2.890115403913698,
	"grad_norm": 0.6732370461622078,
	"learning_rate": 5e-06,
	"loss": 0.6542,
	"step": 2880
	},
	{
	"epoch": 2.900150526843954,
	"grad_norm": 0.5615551950157813,
	"learning_rate": 5e-06,
	"loss": 0.6517,
	"step": 2890
	},
	{
	"epoch": 2.91018564977421,
	"grad_norm": 0.5360864764156098,
	"learning_rate": 5e-06,
	"loss": 0.6529,
	"step": 2900
	},
	{
	"epoch": 2.920220772704466,
	"grad_norm": 0.5686095181581269,
	"learning_rate": 5e-06,
	"loss": 0.6522,
	"step": 2910
	},
	{
	"epoch": 2.9302558956347218,
	"grad_norm": 0.49222391395442017,
	"learning_rate": 5e-06,
	"loss": 0.6508,
	"step": 2920
	},
	{
	"epoch": 2.9402910185649773,
	"grad_norm": 0.5723888567358063,
	"learning_rate": 5e-06,
	"loss": 0.6497,
	"step": 2930
	},
	{
	"epoch": 2.9503261414952333,
	"grad_norm": 0.6277028838019034,
	"learning_rate": 5e-06,
	"loss": 0.6548,
	"step": 2940
	},
	{
	"epoch": 2.9603612644254893,
	"grad_norm": 0.6499248602518872,
	"learning_rate": 5e-06,
	"loss": 0.6539,
	"step": 2950
	},
	{
	"epoch": 2.970396387355745,
	"grad_norm": 0.5523665140419113,
	"learning_rate": 5e-06,
	"loss": 0.6567,
	"step": 2960
	},
	{
	"epoch": 2.980431510286001,
	"grad_norm": 0.5253539559863383,
	"learning_rate": 5e-06,
	"loss": 0.6547,
	"step": 2970
	},
	{
	"epoch": 2.990466633216257,
	"grad_norm": 0.5665529328640058,
	"learning_rate": 5e-06,
	"loss": 0.6516,
	"step": 2980
	},
	{
	"epoch": 2.9984947315604615,
	"eval_loss": 0.714939534664154,
	"eval_runtime": 532.5929,
	"eval_samples_per_second": 50.412,
	"eval_steps_per_second": 0.394,
	"step": 2988
	},
	{
	"epoch": 2.9984947315604615,
	"step": 2988,
	"total_flos": 5004592530063360.0,
	"train_loss": 0.7032094593826866,
	"train_runtime": 89126.24,
	"train_samples_per_second": 17.171,
	"train_steps_per_second": 0.034
	}
	],
	"logging_steps": 10,
	"max_steps": 2988,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 5004592530063360.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}