top_18_ranking_stackexchange / trainer_state.json

End of training

d3aa98a verified 19 days ago

32 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.9963285024154587,
	"eval_steps": 500,
	"global_step": 1938,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.015458937198067632,
	"grad_norm": 16.53294779967864,
	"learning_rate": 5e-06,
	"loss": 1.0792,
	"step": 10
	},
	{
	"epoch": 0.030917874396135265,
	"grad_norm": 2.649325227711683,
	"learning_rate": 5e-06,
	"loss": 0.9837,
	"step": 20
	},
	{
	"epoch": 0.0463768115942029,
	"grad_norm": 8.284136228811613,
	"learning_rate": 5e-06,
	"loss": 0.9474,
	"step": 30
	},
	{
	"epoch": 0.06183574879227053,
	"grad_norm": 2.524509268818302,
	"learning_rate": 5e-06,
	"loss": 0.9301,
	"step": 40
	},
	{
	"epoch": 0.07729468599033816,
	"grad_norm": 1.5326850741391629,
	"learning_rate": 5e-06,
	"loss": 0.9155,
	"step": 50
	},
	{
	"epoch": 0.0927536231884058,
	"grad_norm": 1.0781869595697948,
	"learning_rate": 5e-06,
	"loss": 0.9037,
	"step": 60
	},
	{
	"epoch": 0.10821256038647344,
	"grad_norm": 0.8943372564864077,
	"learning_rate": 5e-06,
	"loss": 0.8967,
	"step": 70
	},
	{
	"epoch": 0.12367149758454106,
	"grad_norm": 0.8868808075595438,
	"learning_rate": 5e-06,
	"loss": 0.8867,
	"step": 80
	},
	{
	"epoch": 0.1391304347826087,
	"grad_norm": 0.6755190824568067,
	"learning_rate": 5e-06,
	"loss": 0.8792,
	"step": 90
	},
	{
	"epoch": 0.15458937198067632,
	"grad_norm": 0.6359486667796315,
	"learning_rate": 5e-06,
	"loss": 0.8769,
	"step": 100
	},
	{
	"epoch": 0.17004830917874397,
	"grad_norm": 0.6299873717513695,
	"learning_rate": 5e-06,
	"loss": 0.8717,
	"step": 110
	},
	{
	"epoch": 0.1855072463768116,
	"grad_norm": 0.5832655638295026,
	"learning_rate": 5e-06,
	"loss": 0.8671,
	"step": 120
	},
	{
	"epoch": 0.20096618357487922,
	"grad_norm": 0.5586732401198556,
	"learning_rate": 5e-06,
	"loss": 0.8642,
	"step": 130
	},
	{
	"epoch": 0.21642512077294687,
	"grad_norm": 0.6759403203697444,
	"learning_rate": 5e-06,
	"loss": 0.863,
	"step": 140
	},
	{
	"epoch": 0.2318840579710145,
	"grad_norm": 0.5234393167054423,
	"learning_rate": 5e-06,
	"loss": 0.861,
	"step": 150
	},
	{
	"epoch": 0.24734299516908212,
	"grad_norm": 0.5405697501688478,
	"learning_rate": 5e-06,
	"loss": 0.864,
	"step": 160
	},
	{
	"epoch": 0.26280193236714977,
	"grad_norm": 0.5609477995758988,
	"learning_rate": 5e-06,
	"loss": 0.8528,
	"step": 170
	},
	{
	"epoch": 0.2782608695652174,
	"grad_norm": 0.648827500892738,
	"learning_rate": 5e-06,
	"loss": 0.857,
	"step": 180
	},
	{
	"epoch": 0.293719806763285,
	"grad_norm": 0.6627079853918527,
	"learning_rate": 5e-06,
	"loss": 0.8511,
	"step": 190
	},
	{
	"epoch": 0.30917874396135264,
	"grad_norm": 0.6915034637639949,
	"learning_rate": 5e-06,
	"loss": 0.8485,
	"step": 200
	},
	{
	"epoch": 0.32463768115942027,
	"grad_norm": 0.6366893171242987,
	"learning_rate": 5e-06,
	"loss": 0.8462,
	"step": 210
	},
	{
	"epoch": 0.34009661835748795,
	"grad_norm": 0.5070708715215638,
	"learning_rate": 5e-06,
	"loss": 0.8446,
	"step": 220
	},
	{
	"epoch": 0.35555555555555557,
	"grad_norm": 0.5871716320705027,
	"learning_rate": 5e-06,
	"loss": 0.8445,
	"step": 230
	},
	{
	"epoch": 0.3710144927536232,
	"grad_norm": 0.7730510671832644,
	"learning_rate": 5e-06,
	"loss": 0.8497,
	"step": 240
	},
	{
	"epoch": 0.3864734299516908,
	"grad_norm": 0.7142598054734569,
	"learning_rate": 5e-06,
	"loss": 0.8438,
	"step": 250
	},
	{
	"epoch": 0.40193236714975844,
	"grad_norm": 0.5417070693738956,
	"learning_rate": 5e-06,
	"loss": 0.8476,
	"step": 260
	},
	{
	"epoch": 0.41739130434782606,
	"grad_norm": 0.6163533652451042,
	"learning_rate": 5e-06,
	"loss": 0.8442,
	"step": 270
	},
	{
	"epoch": 0.43285024154589374,
	"grad_norm": 0.5863440757370957,
	"learning_rate": 5e-06,
	"loss": 0.8384,
	"step": 280
	},
	{
	"epoch": 0.44830917874396137,
	"grad_norm": 0.6841438022567938,
	"learning_rate": 5e-06,
	"loss": 0.8416,
	"step": 290
	},
	{
	"epoch": 0.463768115942029,
	"grad_norm": 0.5830887688966261,
	"learning_rate": 5e-06,
	"loss": 0.8363,
	"step": 300
	},
	{
	"epoch": 0.4792270531400966,
	"grad_norm": 0.7565147804535631,
	"learning_rate": 5e-06,
	"loss": 0.8391,
	"step": 310
	},
	{
	"epoch": 0.49468599033816424,
	"grad_norm": 0.5377296055296723,
	"learning_rate": 5e-06,
	"loss": 0.8384,
	"step": 320
	},
	{
	"epoch": 0.5101449275362319,
	"grad_norm": 0.6313225350990711,
	"learning_rate": 5e-06,
	"loss": 0.8344,
	"step": 330
	},
	{
	"epoch": 0.5256038647342995,
	"grad_norm": 0.6011085474374273,
	"learning_rate": 5e-06,
	"loss": 0.8352,
	"step": 340
	},
	{
	"epoch": 0.5410628019323671,
	"grad_norm": 0.6313718464958992,
	"learning_rate": 5e-06,
	"loss": 0.8319,
	"step": 350
	},
	{
	"epoch": 0.5565217391304348,
	"grad_norm": 0.5602186929251594,
	"learning_rate": 5e-06,
	"loss": 0.8305,
	"step": 360
	},
	{
	"epoch": 0.5719806763285025,
	"grad_norm": 0.5682159814727703,
	"learning_rate": 5e-06,
	"loss": 0.8283,
	"step": 370
	},
	{
	"epoch": 0.58743961352657,
	"grad_norm": 0.5718556832144389,
	"learning_rate": 5e-06,
	"loss": 0.8341,
	"step": 380
	},
	{
	"epoch": 0.6028985507246377,
	"grad_norm": 0.546768373760242,
	"learning_rate": 5e-06,
	"loss": 0.8291,
	"step": 390
	},
	{
	"epoch": 0.6183574879227053,
	"grad_norm": 0.5993423126379529,
	"learning_rate": 5e-06,
	"loss": 0.8361,
	"step": 400
	},
	{
	"epoch": 0.633816425120773,
	"grad_norm": 0.5491459229199431,
	"learning_rate": 5e-06,
	"loss": 0.8291,
	"step": 410
	},
	{
	"epoch": 0.6492753623188405,
	"grad_norm": 0.5168339143544802,
	"learning_rate": 5e-06,
	"loss": 0.83,
	"step": 420
	},
	{
	"epoch": 0.6647342995169082,
	"grad_norm": 0.5210184948415354,
	"learning_rate": 5e-06,
	"loss": 0.8237,
	"step": 430
	},
	{
	"epoch": 0.6801932367149759,
	"grad_norm": 0.5424122263787127,
	"learning_rate": 5e-06,
	"loss": 0.8228,
	"step": 440
	},
	{
	"epoch": 0.6956521739130435,
	"grad_norm": 0.5637417843194678,
	"learning_rate": 5e-06,
	"loss": 0.829,
	"step": 450
	},
	{
	"epoch": 0.7111111111111111,
	"grad_norm": 0.4743888435043112,
	"learning_rate": 5e-06,
	"loss": 0.8221,
	"step": 460
	},
	{
	"epoch": 0.7265700483091787,
	"grad_norm": 0.5224626427829437,
	"learning_rate": 5e-06,
	"loss": 0.8254,
	"step": 470
	},
	{
	"epoch": 0.7420289855072464,
	"grad_norm": 0.6508696496425336,
	"learning_rate": 5e-06,
	"loss": 0.8264,
	"step": 480
	},
	{
	"epoch": 0.7574879227053141,
	"grad_norm": 0.5904629481154552,
	"learning_rate": 5e-06,
	"loss": 0.8295,
	"step": 490
	},
	{
	"epoch": 0.7729468599033816,
	"grad_norm": 0.574388340778744,
	"learning_rate": 5e-06,
	"loss": 0.8223,
	"step": 500
	},
	{
	"epoch": 0.7884057971014493,
	"grad_norm": 0.5353158279457252,
	"learning_rate": 5e-06,
	"loss": 0.8257,
	"step": 510
	},
	{
	"epoch": 0.8038647342995169,
	"grad_norm": 0.5821234180105461,
	"learning_rate": 5e-06,
	"loss": 0.8265,
	"step": 520
	},
	{
	"epoch": 0.8193236714975846,
	"grad_norm": 0.5068894400573091,
	"learning_rate": 5e-06,
	"loss": 0.8224,
	"step": 530
	},
	{
	"epoch": 0.8347826086956521,
	"grad_norm": 0.5375828449207095,
	"learning_rate": 5e-06,
	"loss": 0.821,
	"step": 540
	},
	{
	"epoch": 0.8502415458937198,
	"grad_norm": 0.5410980089439529,
	"learning_rate": 5e-06,
	"loss": 0.8271,
	"step": 550
	},
	{
	"epoch": 0.8657004830917875,
	"grad_norm": 0.5953566167479901,
	"learning_rate": 5e-06,
	"loss": 0.8168,
	"step": 560
	},
	{
	"epoch": 0.881159420289855,
	"grad_norm": 0.6599677690788177,
	"learning_rate": 5e-06,
	"loss": 0.8234,
	"step": 570
	},
	{
	"epoch": 0.8966183574879227,
	"grad_norm": 0.6548750016255851,
	"learning_rate": 5e-06,
	"loss": 0.8198,
	"step": 580
	},
	{
	"epoch": 0.9120772946859903,
	"grad_norm": 0.6314610392042965,
	"learning_rate": 5e-06,
	"loss": 0.8169,
	"step": 590
	},
	{
	"epoch": 0.927536231884058,
	"grad_norm": 0.4920135279723095,
	"learning_rate": 5e-06,
	"loss": 0.8225,
	"step": 600
	},
	{
	"epoch": 0.9429951690821256,
	"grad_norm": 0.5279136309564921,
	"learning_rate": 5e-06,
	"loss": 0.8188,
	"step": 610
	},
	{
	"epoch": 0.9584541062801932,
	"grad_norm": 0.5531816471285108,
	"learning_rate": 5e-06,
	"loss": 0.8217,
	"step": 620
	},
	{
	"epoch": 0.9739130434782609,
	"grad_norm": 0.5924801838934433,
	"learning_rate": 5e-06,
	"loss": 0.8221,
	"step": 630
	},
	{
	"epoch": 0.9893719806763285,
	"grad_norm": 0.5117042192273262,
	"learning_rate": 5e-06,
	"loss": 0.8188,
	"step": 640
	},
	{
	"epoch": 0.9986473429951691,
	"eval_loss": 0.8183467984199524,
	"eval_runtime": 686.568,
	"eval_samples_per_second": 25.389,
	"eval_steps_per_second": 0.398,
	"step": 646
	},
	{
	"epoch": 1.0050241545893719,
	"grad_norm": 0.6925909025947767,
	"learning_rate": 5e-06,
	"loss": 0.8235,
	"step": 650
	},
	{
	"epoch": 1.0204830917874397,
	"grad_norm": 0.6132973767615294,
	"learning_rate": 5e-06,
	"loss": 0.7771,
	"step": 660
	},
	{
	"epoch": 1.0359420289855072,
	"grad_norm": 0.6797848846411009,
	"learning_rate": 5e-06,
	"loss": 0.7802,
	"step": 670
	},
	{
	"epoch": 1.0514009661835748,
	"grad_norm": 0.5295735808202817,
	"learning_rate": 5e-06,
	"loss": 0.7777,
	"step": 680
	},
	{
	"epoch": 1.0668599033816426,
	"grad_norm": 0.5271721002677758,
	"learning_rate": 5e-06,
	"loss": 0.7751,
	"step": 690
	},
	{
	"epoch": 1.0823188405797102,
	"grad_norm": 0.47521281338293253,
	"learning_rate": 5e-06,
	"loss": 0.7808,
	"step": 700
	},
	{
	"epoch": 1.0977777777777777,
	"grad_norm": 0.5201403409762577,
	"learning_rate": 5e-06,
	"loss": 0.7769,
	"step": 710
	},
	{
	"epoch": 1.1132367149758453,
	"grad_norm": 0.5374055398678584,
	"learning_rate": 5e-06,
	"loss": 0.7775,
	"step": 720
	},
	{
	"epoch": 1.128695652173913,
	"grad_norm": 0.520683864449963,
	"learning_rate": 5e-06,
	"loss": 0.7787,
	"step": 730
	},
	{
	"epoch": 1.1441545893719807,
	"grad_norm": 0.5406489528118505,
	"learning_rate": 5e-06,
	"loss": 0.7816,
	"step": 740
	},
	{
	"epoch": 1.1596135265700482,
	"grad_norm": 0.585881797178412,
	"learning_rate": 5e-06,
	"loss": 0.7811,
	"step": 750
	},
	{
	"epoch": 1.175072463768116,
	"grad_norm": 0.5490222258224376,
	"learning_rate": 5e-06,
	"loss": 0.7763,
	"step": 760
	},
	{
	"epoch": 1.1905314009661836,
	"grad_norm": 0.6049557272461074,
	"learning_rate": 5e-06,
	"loss": 0.7821,
	"step": 770
	},
	{
	"epoch": 1.2059903381642512,
	"grad_norm": 0.6287813068938076,
	"learning_rate": 5e-06,
	"loss": 0.7771,
	"step": 780
	},
	{
	"epoch": 1.221449275362319,
	"grad_norm": 0.5791771698431348,
	"learning_rate": 5e-06,
	"loss": 0.7832,
	"step": 790
	},
	{
	"epoch": 1.2369082125603865,
	"grad_norm": 0.552647068072239,
	"learning_rate": 5e-06,
	"loss": 0.7795,
	"step": 800
	},
	{
	"epoch": 1.252367149758454,
	"grad_norm": 0.48953182542010515,
	"learning_rate": 5e-06,
	"loss": 0.7767,
	"step": 810
	},
	{
	"epoch": 1.2678260869565217,
	"grad_norm": 0.5809037976182655,
	"learning_rate": 5e-06,
	"loss": 0.7784,
	"step": 820
	},
	{
	"epoch": 1.2832850241545894,
	"grad_norm": 0.49664609280994976,
	"learning_rate": 5e-06,
	"loss": 0.7765,
	"step": 830
	},
	{
	"epoch": 1.298743961352657,
	"grad_norm": 0.5514267021897065,
	"learning_rate": 5e-06,
	"loss": 0.7791,
	"step": 840
	},
	{
	"epoch": 1.3142028985507246,
	"grad_norm": 0.6174163379347436,
	"learning_rate": 5e-06,
	"loss": 0.7775,
	"step": 850
	},
	{
	"epoch": 1.3296618357487922,
	"grad_norm": 0.5893029009867757,
	"learning_rate": 5e-06,
	"loss": 0.7743,
	"step": 860
	},
	{
	"epoch": 1.34512077294686,
	"grad_norm": 0.5884521899466931,
	"learning_rate": 5e-06,
	"loss": 0.7768,
	"step": 870
	},
	{
	"epoch": 1.3605797101449275,
	"grad_norm": 0.526781782612563,
	"learning_rate": 5e-06,
	"loss": 0.773,
	"step": 880
	},
	{
	"epoch": 1.376038647342995,
	"grad_norm": 0.5133541303046,
	"learning_rate": 5e-06,
	"loss": 0.774,
	"step": 890
	},
	{
	"epoch": 1.3914975845410629,
	"grad_norm": 0.5514217537787884,
	"learning_rate": 5e-06,
	"loss": 0.7802,
	"step": 900
	},
	{
	"epoch": 1.4069565217391304,
	"grad_norm": 0.5829849669974898,
	"learning_rate": 5e-06,
	"loss": 0.7787,
	"step": 910
	},
	{
	"epoch": 1.422415458937198,
	"grad_norm": 0.6099035981973764,
	"learning_rate": 5e-06,
	"loss": 0.7738,
	"step": 920
	},
	{
	"epoch": 1.4378743961352658,
	"grad_norm": 0.4767884324426242,
	"learning_rate": 5e-06,
	"loss": 0.7773,
	"step": 930
	},
	{
	"epoch": 1.4533333333333334,
	"grad_norm": 0.5611337081061908,
	"learning_rate": 5e-06,
	"loss": 0.7767,
	"step": 940
	},
	{
	"epoch": 1.468792270531401,
	"grad_norm": 0.47930773858272085,
	"learning_rate": 5e-06,
	"loss": 0.7765,
	"step": 950
	},
	{
	"epoch": 1.4842512077294687,
	"grad_norm": 0.498168257215718,
	"learning_rate": 5e-06,
	"loss": 0.7728,
	"step": 960
	},
	{
	"epoch": 1.4997101449275363,
	"grad_norm": 0.5576989172567428,
	"learning_rate": 5e-06,
	"loss": 0.7777,
	"step": 970
	},
	{
	"epoch": 1.5151690821256039,
	"grad_norm": 0.5873903650866855,
	"learning_rate": 5e-06,
	"loss": 0.7747,
	"step": 980
	},
	{
	"epoch": 1.5306280193236717,
	"grad_norm": 0.5564865473674926,
	"learning_rate": 5e-06,
	"loss": 0.7786,
	"step": 990
	},
	{
	"epoch": 1.546086956521739,
	"grad_norm": 0.6746662280932265,
	"learning_rate": 5e-06,
	"loss": 0.7823,
	"step": 1000
	},
	{
	"epoch": 1.5615458937198068,
	"grad_norm": 0.550553366091711,
	"learning_rate": 5e-06,
	"loss": 0.7704,
	"step": 1010
	},
	{
	"epoch": 1.5770048309178744,
	"grad_norm": 0.555996816403915,
	"learning_rate": 5e-06,
	"loss": 0.7758,
	"step": 1020
	},
	{
	"epoch": 1.592463768115942,
	"grad_norm": 0.5621088990135378,
	"learning_rate": 5e-06,
	"loss": 0.7751,
	"step": 1030
	},
	{
	"epoch": 1.6079227053140097,
	"grad_norm": 0.4672348676970037,
	"learning_rate": 5e-06,
	"loss": 0.7742,
	"step": 1040
	},
	{
	"epoch": 1.6233816425120773,
	"grad_norm": 0.49112359521062937,
	"learning_rate": 5e-06,
	"loss": 0.777,
	"step": 1050
	},
	{
	"epoch": 1.6388405797101449,
	"grad_norm": 0.5517626252028611,
	"learning_rate": 5e-06,
	"loss": 0.7757,
	"step": 1060
	},
	{
	"epoch": 1.6542995169082126,
	"grad_norm": 0.5518129870744243,
	"learning_rate": 5e-06,
	"loss": 0.7744,
	"step": 1070
	},
	{
	"epoch": 1.6697584541062802,
	"grad_norm": 0.685405898117341,
	"learning_rate": 5e-06,
	"loss": 0.7753,
	"step": 1080
	},
	{
	"epoch": 1.6852173913043478,
	"grad_norm": 0.5720673042328214,
	"learning_rate": 5e-06,
	"loss": 0.7753,
	"step": 1090
	},
	{
	"epoch": 1.7006763285024156,
	"grad_norm": 0.4690028175072265,
	"learning_rate": 5e-06,
	"loss": 0.774,
	"step": 1100
	},
	{
	"epoch": 1.7161352657004831,
	"grad_norm": 0.55568178811657,
	"learning_rate": 5e-06,
	"loss": 0.7772,
	"step": 1110
	},
	{
	"epoch": 1.7315942028985507,
	"grad_norm": 0.5185570493500619,
	"learning_rate": 5e-06,
	"loss": 0.781,
	"step": 1120
	},
	{
	"epoch": 1.7470531400966185,
	"grad_norm": 0.5292299708932318,
	"learning_rate": 5e-06,
	"loss": 0.7749,
	"step": 1130
	},
	{
	"epoch": 1.7625120772946858,
	"grad_norm": 0.5884058161213621,
	"learning_rate": 5e-06,
	"loss": 0.7719,
	"step": 1140
	},
	{
	"epoch": 1.7779710144927536,
	"grad_norm": 0.5072506431239099,
	"learning_rate": 5e-06,
	"loss": 0.7753,
	"step": 1150
	},
	{
	"epoch": 1.7934299516908214,
	"grad_norm": 0.5551938392960334,
	"learning_rate": 5e-06,
	"loss": 0.7777,
	"step": 1160
	},
	{
	"epoch": 1.8088888888888888,
	"grad_norm": 0.5566487078925049,
	"learning_rate": 5e-06,
	"loss": 0.7774,
	"step": 1170
	},
	{
	"epoch": 1.8243478260869566,
	"grad_norm": 0.4749917546235466,
	"learning_rate": 5e-06,
	"loss": 0.7734,
	"step": 1180
	},
	{
	"epoch": 1.8398067632850241,
	"grad_norm": 0.5022635709311233,
	"learning_rate": 5e-06,
	"loss": 0.7743,
	"step": 1190
	},
	{
	"epoch": 1.8552657004830917,
	"grad_norm": 0.5442982810099344,
	"learning_rate": 5e-06,
	"loss": 0.7728,
	"step": 1200
	},
	{
	"epoch": 1.8707246376811595,
	"grad_norm": 0.5155014433123901,
	"learning_rate": 5e-06,
	"loss": 0.774,
	"step": 1210
	},
	{
	"epoch": 1.886183574879227,
	"grad_norm": 0.5934285413681538,
	"learning_rate": 5e-06,
	"loss": 0.7746,
	"step": 1220
	},
	{
	"epoch": 1.9016425120772946,
	"grad_norm": 0.5260175972638601,
	"learning_rate": 5e-06,
	"loss": 0.7693,
	"step": 1230
	},
	{
	"epoch": 1.9171014492753624,
	"grad_norm": 0.515080447493818,
	"learning_rate": 5e-06,
	"loss": 0.7717,
	"step": 1240
	},
	{
	"epoch": 1.93256038647343,
	"grad_norm": 0.6011160845737209,
	"learning_rate": 5e-06,
	"loss": 0.7754,
	"step": 1250
	},
	{
	"epoch": 1.9480193236714975,
	"grad_norm": 0.46061302659355685,
	"learning_rate": 5e-06,
	"loss": 0.7755,
	"step": 1260
	},
	{
	"epoch": 1.9634782608695653,
	"grad_norm": 0.46039484020056154,
	"learning_rate": 5e-06,
	"loss": 0.7722,
	"step": 1270
	},
	{
	"epoch": 1.9789371980676327,
	"grad_norm": 0.5658493454639554,
	"learning_rate": 5e-06,
	"loss": 0.7755,
	"step": 1280
	},
	{
	"epoch": 1.9943961352657005,
	"grad_norm": 0.5908199178180503,
	"learning_rate": 5e-06,
	"loss": 0.7709,
	"step": 1290
	},
	{
	"epoch": 1.9990338164251207,
	"eval_loss": 0.8051349520683289,
	"eval_runtime": 690.0891,
	"eval_samples_per_second": 25.259,
	"eval_steps_per_second": 0.396,
	"step": 1293
	},
	{
	"epoch": 2.0100483091787438,
	"grad_norm": 0.6943407863572525,
	"learning_rate": 5e-06,
	"loss": 0.7604,
	"step": 1300
	},
	{
	"epoch": 2.0255072463768116,
	"grad_norm": 0.5840764739328596,
	"learning_rate": 5e-06,
	"loss": 0.7299,
	"step": 1310
	},
	{
	"epoch": 2.0409661835748794,
	"grad_norm": 0.645835170219903,
	"learning_rate": 5e-06,
	"loss": 0.7254,
	"step": 1320
	},
	{
	"epoch": 2.0564251207729467,
	"grad_norm": 0.6967100498978297,
	"learning_rate": 5e-06,
	"loss": 0.7312,
	"step": 1330
	},
	{
	"epoch": 2.0718840579710145,
	"grad_norm": 0.5424795093750152,
	"learning_rate": 5e-06,
	"loss": 0.7283,
	"step": 1340
	},
	{
	"epoch": 2.0873429951690823,
	"grad_norm": 0.5651081335517218,
	"learning_rate": 5e-06,
	"loss": 0.7322,
	"step": 1350
	},
	{
	"epoch": 2.1028019323671496,
	"grad_norm": 0.5793019251125064,
	"learning_rate": 5e-06,
	"loss": 0.7317,
	"step": 1360
	},
	{
	"epoch": 2.1182608695652174,
	"grad_norm": 0.5653295937261641,
	"learning_rate": 5e-06,
	"loss": 0.7331,
	"step": 1370
	},
	{
	"epoch": 2.133719806763285,
	"grad_norm": 0.6945092784765529,
	"learning_rate": 5e-06,
	"loss": 0.7346,
	"step": 1380
	},
	{
	"epoch": 2.1491787439613526,
	"grad_norm": 0.5795163218543443,
	"learning_rate": 5e-06,
	"loss": 0.7336,
	"step": 1390
	},
	{
	"epoch": 2.1646376811594203,
	"grad_norm": 0.5922357321216497,
	"learning_rate": 5e-06,
	"loss": 0.7299,
	"step": 1400
	},
	{
	"epoch": 2.1800966183574877,
	"grad_norm": 0.5570557796263025,
	"learning_rate": 5e-06,
	"loss": 0.7333,
	"step": 1410
	},
	{
	"epoch": 2.1955555555555555,
	"grad_norm": 0.5392312450784695,
	"learning_rate": 5e-06,
	"loss": 0.7371,
	"step": 1420
	},
	{
	"epoch": 2.2110144927536233,
	"grad_norm": 0.569063560563541,
	"learning_rate": 5e-06,
	"loss": 0.7314,
	"step": 1430
	},
	{
	"epoch": 2.2264734299516906,
	"grad_norm": 0.6107660118171969,
	"learning_rate": 5e-06,
	"loss": 0.7322,
	"step": 1440
	},
	{
	"epoch": 2.2419323671497584,
	"grad_norm": 0.6566517138097786,
	"learning_rate": 5e-06,
	"loss": 0.7356,
	"step": 1450
	},
	{
	"epoch": 2.257391304347826,
	"grad_norm": 0.5806353609910259,
	"learning_rate": 5e-06,
	"loss": 0.7418,
	"step": 1460
	},
	{
	"epoch": 2.2728502415458935,
	"grad_norm": 0.544246667709765,
	"learning_rate": 5e-06,
	"loss": 0.7319,
	"step": 1470
	},
	{
	"epoch": 2.2883091787439613,
	"grad_norm": 0.5424208252581,
	"learning_rate": 5e-06,
	"loss": 0.7332,
	"step": 1480
	},
	{
	"epoch": 2.303768115942029,
	"grad_norm": 0.5380434193955503,
	"learning_rate": 5e-06,
	"loss": 0.7342,
	"step": 1490
	},
	{
	"epoch": 2.3192270531400965,
	"grad_norm": 0.5919093406358342,
	"learning_rate": 5e-06,
	"loss": 0.7345,
	"step": 1500
	},
	{
	"epoch": 2.3346859903381643,
	"grad_norm": 0.5815232359700448,
	"learning_rate": 5e-06,
	"loss": 0.7357,
	"step": 1510
	},
	{
	"epoch": 2.350144927536232,
	"grad_norm": 0.6561512544812266,
	"learning_rate": 5e-06,
	"loss": 0.7339,
	"step": 1520
	},
	{
	"epoch": 2.3656038647342994,
	"grad_norm": 0.5328952220385875,
	"learning_rate": 5e-06,
	"loss": 0.7297,
	"step": 1530
	},
	{
	"epoch": 2.381062801932367,
	"grad_norm": 0.5216733576185124,
	"learning_rate": 5e-06,
	"loss": 0.7298,
	"step": 1540
	},
	{
	"epoch": 2.396521739130435,
	"grad_norm": 0.6063067814678768,
	"learning_rate": 5e-06,
	"loss": 0.7368,
	"step": 1550
	},
	{
	"epoch": 2.4119806763285023,
	"grad_norm": 0.5818602690123681,
	"learning_rate": 5e-06,
	"loss": 0.7353,
	"step": 1560
	},
	{
	"epoch": 2.42743961352657,
	"grad_norm": 0.5913577701518534,
	"learning_rate": 5e-06,
	"loss": 0.7338,
	"step": 1570
	},
	{
	"epoch": 2.442898550724638,
	"grad_norm": 0.5527497540961946,
	"learning_rate": 5e-06,
	"loss": 0.7329,
	"step": 1580
	},
	{
	"epoch": 2.4583574879227053,
	"grad_norm": 0.6737570445790982,
	"learning_rate": 5e-06,
	"loss": 0.7367,
	"step": 1590
	},
	{
	"epoch": 2.473816425120773,
	"grad_norm": 0.6619470586787684,
	"learning_rate": 5e-06,
	"loss": 0.733,
	"step": 1600
	},
	{
	"epoch": 2.4892753623188404,
	"grad_norm": 0.4750068577638755,
	"learning_rate": 5e-06,
	"loss": 0.7375,
	"step": 1610
	},
	{
	"epoch": 2.504734299516908,
	"grad_norm": 0.6847743909506772,
	"learning_rate": 5e-06,
	"loss": 0.7374,
	"step": 1620
	},
	{
	"epoch": 2.520193236714976,
	"grad_norm": 0.5239840846624293,
	"learning_rate": 5e-06,
	"loss": 0.7311,
	"step": 1630
	},
	{
	"epoch": 2.5356521739130433,
	"grad_norm": 0.4721718835375596,
	"learning_rate": 5e-06,
	"loss": 0.7308,
	"step": 1640
	},
	{
	"epoch": 2.551111111111111,
	"grad_norm": 0.51093602092176,
	"learning_rate": 5e-06,
	"loss": 0.7337,
	"step": 1650
	},
	{
	"epoch": 2.566570048309179,
	"grad_norm": 0.5517386015611798,
	"learning_rate": 5e-06,
	"loss": 0.7318,
	"step": 1660
	},
	{
	"epoch": 2.5820289855072462,
	"grad_norm": 0.6326674619813268,
	"learning_rate": 5e-06,
	"loss": 0.736,
	"step": 1670
	},
	{
	"epoch": 2.597487922705314,
	"grad_norm": 0.5232840712675151,
	"learning_rate": 5e-06,
	"loss": 0.7325,
	"step": 1680
	},
	{
	"epoch": 2.6129468599033814,
	"grad_norm": 0.4969751533645812,
	"learning_rate": 5e-06,
	"loss": 0.7375,
	"step": 1690
	},
	{
	"epoch": 2.628405797101449,
	"grad_norm": 0.49538430512331766,
	"learning_rate": 5e-06,
	"loss": 0.7366,
	"step": 1700
	},
	{
	"epoch": 2.643864734299517,
	"grad_norm": 0.6208865012276192,
	"learning_rate": 5e-06,
	"loss": 0.7372,
	"step": 1710
	},
	{
	"epoch": 2.6593236714975843,
	"grad_norm": 0.5276942120485377,
	"learning_rate": 5e-06,
	"loss": 0.7351,
	"step": 1720
	},
	{
	"epoch": 2.674782608695652,
	"grad_norm": 0.570808842039396,
	"learning_rate": 5e-06,
	"loss": 0.7384,
	"step": 1730
	},
	{
	"epoch": 2.69024154589372,
	"grad_norm": 0.5214638213365278,
	"learning_rate": 5e-06,
	"loss": 0.7361,
	"step": 1740
	},
	{
	"epoch": 2.7057004830917872,
	"grad_norm": 0.5190586781651014,
	"learning_rate": 5e-06,
	"loss": 0.7309,
	"step": 1750
	},
	{
	"epoch": 2.721159420289855,
	"grad_norm": 0.5317230869170978,
	"learning_rate": 5e-06,
	"loss": 0.7296,
	"step": 1760
	},
	{
	"epoch": 2.736618357487923,
	"grad_norm": 0.5917255596181432,
	"learning_rate": 5e-06,
	"loss": 0.7406,
	"step": 1770
	},
	{
	"epoch": 2.75207729468599,
	"grad_norm": 0.49202576322983876,
	"learning_rate": 5e-06,
	"loss": 0.7324,
	"step": 1780
	},
	{
	"epoch": 2.767536231884058,
	"grad_norm": 0.5594574654106287,
	"learning_rate": 5e-06,
	"loss": 0.7331,
	"step": 1790
	},
	{
	"epoch": 2.7829951690821257,
	"grad_norm": 0.6198580773466541,
	"learning_rate": 5e-06,
	"loss": 0.7372,
	"step": 1800
	},
	{
	"epoch": 2.798454106280193,
	"grad_norm": 0.5740394274550438,
	"learning_rate": 5e-06,
	"loss": 0.7359,
	"step": 1810
	},
	{
	"epoch": 2.813913043478261,
	"grad_norm": 0.5501912428656768,
	"learning_rate": 5e-06,
	"loss": 0.7384,
	"step": 1820
	},
	{
	"epoch": 2.8293719806763287,
	"grad_norm": 0.5104778986757859,
	"learning_rate": 5e-06,
	"loss": 0.7324,
	"step": 1830
	},
	{
	"epoch": 2.844830917874396,
	"grad_norm": 0.5395220598812313,
	"learning_rate": 5e-06,
	"loss": 0.736,
	"step": 1840
	},
	{
	"epoch": 2.860289855072464,
	"grad_norm": 0.6030104859258091,
	"learning_rate": 5e-06,
	"loss": 0.7327,
	"step": 1850
	},
	{
	"epoch": 2.8757487922705316,
	"grad_norm": 0.556906171705928,
	"learning_rate": 5e-06,
	"loss": 0.7374,
	"step": 1860
	},
	{
	"epoch": 2.891207729468599,
	"grad_norm": 0.6174821846225631,
	"learning_rate": 5e-06,
	"loss": 0.7351,
	"step": 1870
	},
	{
	"epoch": 2.9066666666666667,
	"grad_norm": 0.5078906232420815,
	"learning_rate": 5e-06,
	"loss": 0.7326,
	"step": 1880
	},
	{
	"epoch": 2.9221256038647345,
	"grad_norm": 0.6177111487230912,
	"learning_rate": 5e-06,
	"loss": 0.7321,
	"step": 1890
	},
	{
	"epoch": 2.937584541062802,
	"grad_norm": 0.5520929737500946,
	"learning_rate": 5e-06,
	"loss": 0.7395,
	"step": 1900
	},
	{
	"epoch": 2.9530434782608697,
	"grad_norm": 0.5185834378400617,
	"learning_rate": 5e-06,
	"loss": 0.7368,
	"step": 1910
	},
	{
	"epoch": 2.9685024154589374,
	"grad_norm": 0.5204851978024219,
	"learning_rate": 5e-06,
	"loss": 0.7339,
	"step": 1920
	},
	{
	"epoch": 2.983961352657005,
	"grad_norm": 0.5807949438616106,
	"learning_rate": 5e-06,
	"loss": 0.7386,
	"step": 1930
	},
	{
	"epoch": 2.9963285024154587,
	"eval_loss": 0.8025317192077637,
	"eval_runtime": 693.9451,
	"eval_samples_per_second": 25.119,
	"eval_steps_per_second": 0.393,
	"step": 1938
	},
	{
	"epoch": 2.9963285024154587,
	"step": 1938,
	"total_flos": 3246012802007040.0,
	"train_loss": 0.7871413270263357,
	"train_runtime": 114590.6996,
	"train_samples_per_second": 8.67,
	"train_steps_per_second": 0.017
	}
	],
	"logging_steps": 10,
	"max_steps": 1938,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3246012802007040.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}