Training in progress, step 193, checkpoint

6198a4d verified 23 days ago

34.8 kB

	{
	"best_metric": 0.5428289771080017,
	"best_model_checkpoint": "miner_id_24/checkpoint-50",
	"epoch": 3.0038910505836576,
	"eval_steps": 50,
	"global_step": 193,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01556420233463035,
	"grad_norm": 1.7703475952148438,
	"learning_rate": 5e-06,
	"loss": 0.6598,
	"step": 1
	},
	{
	"epoch": 0.01556420233463035,
	"eval_loss": 0.805687665939331,
	"eval_runtime": 10.5307,
	"eval_samples_per_second": 10.256,
	"eval_steps_per_second": 5.128,
	"step": 1
	},
	{
	"epoch": 0.0311284046692607,
	"grad_norm": 2.244293689727783,
	"learning_rate": 1e-05,
	"loss": 0.7386,
	"step": 2
	},
	{
	"epoch": 0.04669260700389105,
	"grad_norm": 1.9753533601760864,
	"learning_rate": 1.5e-05,
	"loss": 0.709,
	"step": 3
	},
	{
	"epoch": 0.0622568093385214,
	"grad_norm": 1.581067681312561,
	"learning_rate": 2e-05,
	"loss": 0.6545,
	"step": 4
	},
	{
	"epoch": 0.07782101167315175,
	"grad_norm": 1.4357757568359375,
	"learning_rate": 2.5e-05,
	"loss": 0.6287,
	"step": 5
	},
	{
	"epoch": 0.0933852140077821,
	"grad_norm": 1.279219627380371,
	"learning_rate": 3e-05,
	"loss": 0.6593,
	"step": 6
	},
	{
	"epoch": 0.10894941634241245,
	"grad_norm": 1.0461534261703491,
	"learning_rate": 3.5e-05,
	"loss": 0.563,
	"step": 7
	},
	{
	"epoch": 0.1245136186770428,
	"grad_norm": 0.9932262897491455,
	"learning_rate": 4e-05,
	"loss": 0.6083,
	"step": 8
	},
	{
	"epoch": 0.14007782101167315,
	"grad_norm": 1.0002769231796265,
	"learning_rate": 4.5e-05,
	"loss": 0.575,
	"step": 9
	},
	{
	"epoch": 0.1556420233463035,
	"grad_norm": 1.071124792098999,
	"learning_rate": 5e-05,
	"loss": 0.5916,
	"step": 10
	},
	{
	"epoch": 0.17120622568093385,
	"grad_norm": 1.0537177324295044,
	"learning_rate": 5.500000000000001e-05,
	"loss": 0.5642,
	"step": 11
	},
	{
	"epoch": 0.1867704280155642,
	"grad_norm": 0.9426125884056091,
	"learning_rate": 6e-05,
	"loss": 0.5533,
	"step": 12
	},
	{
	"epoch": 0.20233463035019456,
	"grad_norm": 0.9893934726715088,
	"learning_rate": 6.500000000000001e-05,
	"loss": 0.5613,
	"step": 13
	},
	{
	"epoch": 0.2178988326848249,
	"grad_norm": 0.9386663436889648,
	"learning_rate": 7e-05,
	"loss": 0.578,
	"step": 14
	},
	{
	"epoch": 0.23346303501945526,
	"grad_norm": 0.9610932469367981,
	"learning_rate": 7.500000000000001e-05,
	"loss": 0.5623,
	"step": 15
	},
	{
	"epoch": 0.2490272373540856,
	"grad_norm": 1.0002214908599854,
	"learning_rate": 8e-05,
	"loss": 0.6155,
	"step": 16
	},
	{
	"epoch": 0.26459143968871596,
	"grad_norm": 0.7454622983932495,
	"learning_rate": 8.5e-05,
	"loss": 0.5654,
	"step": 17
	},
	{
	"epoch": 0.2801556420233463,
	"grad_norm": 0.7215997576713562,
	"learning_rate": 9e-05,
	"loss": 0.5547,
	"step": 18
	},
	{
	"epoch": 0.29571984435797666,
	"grad_norm": 0.6941145658493042,
	"learning_rate": 9.5e-05,
	"loss": 0.5509,
	"step": 19
	},
	{
	"epoch": 0.311284046692607,
	"grad_norm": 0.7395036220550537,
	"learning_rate": 0.0001,
	"loss": 0.5265,
	"step": 20
	},
	{
	"epoch": 0.32684824902723736,
	"grad_norm": 0.7585510015487671,
	"learning_rate": 9.999175604498867e-05,
	"loss": 0.584,
	"step": 21
	},
	{
	"epoch": 0.3424124513618677,
	"grad_norm": 0.7440906167030334,
	"learning_rate": 9.996702689846645e-05,
	"loss": 0.5634,
	"step": 22
	},
	{
	"epoch": 0.35797665369649806,
	"grad_norm": 0.7914589643478394,
	"learning_rate": 9.992582071507216e-05,
	"loss": 0.5744,
	"step": 23
	},
	{
	"epoch": 0.3735408560311284,
	"grad_norm": 0.7631120681762695,
	"learning_rate": 9.986815108288272e-05,
	"loss": 0.5593,
	"step": 24
	},
	{
	"epoch": 0.38910505836575876,
	"grad_norm": 0.68586665391922,
	"learning_rate": 9.979403701893226e-05,
	"loss": 0.5455,
	"step": 25
	},
	{
	"epoch": 0.4046692607003891,
	"grad_norm": 0.7517482042312622,
	"learning_rate": 9.970350296294113e-05,
	"loss": 0.5978,
	"step": 26
	},
	{
	"epoch": 0.42023346303501946,
	"grad_norm": 0.7497158646583557,
	"learning_rate": 9.959657876925671e-05,
	"loss": 0.5164,
	"step": 27
	},
	{
	"epoch": 0.4357976653696498,
	"grad_norm": 0.6995195746421814,
	"learning_rate": 9.94732996970087e-05,
	"loss": 0.5031,
	"step": 28
	},
	{
	"epoch": 0.45136186770428016,
	"grad_norm": 0.7487537264823914,
	"learning_rate": 9.933370639848211e-05,
	"loss": 0.5705,
	"step": 29
	},
	{
	"epoch": 0.4669260700389105,
	"grad_norm": 0.7707574963569641,
	"learning_rate": 9.917784490571187e-05,
	"loss": 0.5422,
	"step": 30
	},
	{
	"epoch": 0.48249027237354086,
	"grad_norm": 0.7618570327758789,
	"learning_rate": 9.900576661530335e-05,
	"loss": 0.4955,
	"step": 31
	},
	{
	"epoch": 0.4980544747081712,
	"grad_norm": 0.8625350594520569,
	"learning_rate": 9.88175282714839e-05,
	"loss": 0.6098,
	"step": 32
	},
	{
	"epoch": 0.5136186770428015,
	"grad_norm": 0.5663038492202759,
	"learning_rate": 9.861319194739109e-05,
	"loss": 0.5213,
	"step": 33
	},
	{
	"epoch": 0.5291828793774319,
	"grad_norm": 0.6109879016876221,
	"learning_rate": 9.83928250246034e-05,
	"loss": 0.555,
	"step": 34
	},
	{
	"epoch": 0.5447470817120622,
	"grad_norm": 0.5990862250328064,
	"learning_rate": 9.815650017092077e-05,
	"loss": 0.5395,
	"step": 35
	},
	{
	"epoch": 0.5603112840466926,
	"grad_norm": 0.5716366767883301,
	"learning_rate": 9.790429531640161e-05,
	"loss": 0.5209,
	"step": 36
	},
	{
	"epoch": 0.5758754863813229,
	"grad_norm": 0.6569287776947021,
	"learning_rate": 9.763629362766496e-05,
	"loss": 0.5587,
	"step": 37
	},
	{
	"epoch": 0.5914396887159533,
	"grad_norm": 0.6579481363296509,
	"learning_rate": 9.735258348046536e-05,
	"loss": 0.5347,
	"step": 38
	},
	{
	"epoch": 0.6070038910505836,
	"grad_norm": 0.6650751829147339,
	"learning_rate": 9.705325843055045e-05,
	"loss": 0.5646,
	"step": 39
	},
	{
	"epoch": 0.622568093385214,
	"grad_norm": 0.6674900650978088,
	"learning_rate": 9.673841718280999e-05,
	"loss": 0.6048,
	"step": 40
	},
	{
	"epoch": 0.6381322957198443,
	"grad_norm": 0.6020020246505737,
	"learning_rate": 9.64081635587273e-05,
	"loss": 0.5133,
	"step": 41
	},
	{
	"epoch": 0.6536964980544747,
	"grad_norm": 0.6875168681144714,
	"learning_rate": 9.606260646214313e-05,
	"loss": 0.5529,
	"step": 42
	},
	{
	"epoch": 0.669260700389105,
	"grad_norm": 0.6856683492660522,
	"learning_rate": 9.570185984334383e-05,
	"loss": 0.5606,
	"step": 43
	},
	{
	"epoch": 0.6848249027237354,
	"grad_norm": 0.6488378047943115,
	"learning_rate": 9.53260426614852e-05,
	"loss": 0.5298,
	"step": 44
	},
	{
	"epoch": 0.7003891050583657,
	"grad_norm": 0.6739886403083801,
	"learning_rate": 9.493527884536486e-05,
	"loss": 0.5314,
	"step": 45
	},
	{
	"epoch": 0.7159533073929961,
	"grad_norm": 0.6689781546592712,
	"learning_rate": 9.452969725255558e-05,
	"loss": 0.5413,
	"step": 46
	},
	{
	"epoch": 0.7315175097276264,
	"grad_norm": 0.7617279887199402,
	"learning_rate": 9.410943162691359e-05,
	"loss": 0.5513,
	"step": 47
	},
	{
	"epoch": 0.7470817120622568,
	"grad_norm": 0.7101250886917114,
	"learning_rate": 9.367462055447528e-05,
	"loss": 0.4799,
	"step": 48
	},
	{
	"epoch": 0.7626459143968871,
	"grad_norm": 0.5001528263092041,
	"learning_rate": 9.322540741775744e-05,
	"loss": 0.5058,
	"step": 49
	},
	{
	"epoch": 0.7782101167315175,
	"grad_norm": 0.5632477402687073,
	"learning_rate": 9.276194034847566e-05,
	"loss": 0.5636,
	"step": 50
	},
	{
	"epoch": 0.7782101167315175,
	"eval_loss": 0.5428289771080017,
	"eval_runtime": 10.8958,
	"eval_samples_per_second": 9.912,
	"eval_steps_per_second": 4.956,
	"step": 50
	},
	{
	"epoch": 0.7937743190661478,
	"grad_norm": 0.5578231811523438,
	"learning_rate": 9.228437217869667e-05,
	"loss": 0.5325,
	"step": 51
	},
	{
	"epoch": 0.8093385214007782,
	"grad_norm": 0.5764113068580627,
	"learning_rate": 9.179286039044073e-05,
	"loss": 0.5326,
	"step": 52
	},
	{
	"epoch": 0.8249027237354085,
	"grad_norm": 0.6034092903137207,
	"learning_rate": 9.128756706375065e-05,
	"loss": 0.5717,
	"step": 53
	},
	{
	"epoch": 0.8404669260700389,
	"grad_norm": 0.6172077655792236,
	"learning_rate": 9.076865882324452e-05,
	"loss": 0.5724,
	"step": 54
	},
	{
	"epoch": 0.8560311284046692,
	"grad_norm": 0.5496807098388672,
	"learning_rate": 9.023630678316995e-05,
	"loss": 0.5209,
	"step": 55
	},
	{
	"epoch": 0.8715953307392996,
	"grad_norm": 0.583033561706543,
	"learning_rate": 8.969068649097766e-05,
	"loss": 0.5555,
	"step": 56
	},
	{
	"epoch": 0.8871595330739299,
	"grad_norm": 0.5868954062461853,
	"learning_rate": 8.913197786943336e-05,
	"loss": 0.5197,
	"step": 57
	},
	{
	"epoch": 0.9027237354085603,
	"grad_norm": 0.5880308747291565,
	"learning_rate": 8.856036515728666e-05,
	"loss": 0.5064,
	"step": 58
	},
	{
	"epoch": 0.9182879377431906,
	"grad_norm": 0.689042866230011,
	"learning_rate": 8.797603684851685e-05,
	"loss": 0.5509,
	"step": 59
	},
	{
	"epoch": 0.933852140077821,
	"grad_norm": 0.6428240537643433,
	"learning_rate": 8.737918563017553e-05,
	"loss": 0.5875,
	"step": 60
	},
	{
	"epoch": 0.9494163424124513,
	"grad_norm": 0.5802725553512573,
	"learning_rate": 8.677000831884638e-05,
	"loss": 0.5031,
	"step": 61
	},
	{
	"epoch": 0.9649805447470817,
	"grad_norm": 0.6728083491325378,
	"learning_rate": 8.614870579574337e-05,
	"loss": 0.5216,
	"step": 62
	},
	{
	"epoch": 0.980544747081712,
	"grad_norm": 0.620725154876709,
	"learning_rate": 8.551548294046843e-05,
	"loss": 0.4774,
	"step": 63
	},
	{
	"epoch": 0.9961089494163424,
	"grad_norm": 0.6825420260429382,
	"learning_rate": 8.487054856345081e-05,
	"loss": 0.5513,
	"step": 64
	},
	{
	"epoch": 1.0116731517509727,
	"grad_norm": 1.8129425048828125,
	"learning_rate": 8.421411533709009e-05,
	"loss": 0.9706,
	"step": 65
	},
	{
	"epoch": 1.027237354085603,
	"grad_norm": 0.5069100260734558,
	"learning_rate": 8.35463997256257e-05,
	"loss": 0.4212,
	"step": 66
	},
	{
	"epoch": 1.0428015564202335,
	"grad_norm": 0.5340793132781982,
	"learning_rate": 8.28676219137561e-05,
	"loss": 0.4766,
	"step": 67
	},
	{
	"epoch": 1.0583657587548638,
	"grad_norm": 0.5560380816459656,
	"learning_rate": 8.217800573403105e-05,
	"loss": 0.4478,
	"step": 68
	},
	{
	"epoch": 1.0739299610894941,
	"grad_norm": 0.5705240368843079,
	"learning_rate": 8.147777859304096e-05,
	"loss": 0.395,
	"step": 69
	},
	{
	"epoch": 1.0894941634241244,
	"grad_norm": 0.6902859807014465,
	"learning_rate": 8.076717139642775e-05,
	"loss": 0.4399,
	"step": 70
	},
	{
	"epoch": 1.105058365758755,
	"grad_norm": 0.6529071927070618,
	"learning_rate": 8.004641847274181e-05,
	"loss": 0.3999,
	"step": 71
	},
	{
	"epoch": 1.1206225680933852,
	"grad_norm": 0.5854980945587158,
	"learning_rate": 7.931575749617026e-05,
	"loss": 0.3876,
	"step": 72
	},
	{
	"epoch": 1.1361867704280155,
	"grad_norm": 0.5517836809158325,
	"learning_rate": 7.857542940816183e-05,
	"loss": 0.3721,
	"step": 73
	},
	{
	"epoch": 1.1517509727626458,
	"grad_norm": 0.6773819327354431,
	"learning_rate": 7.782567833797457e-05,
	"loss": 0.3864,
	"step": 74
	},
	{
	"epoch": 1.1673151750972763,
	"grad_norm": 0.7298661470413208,
	"learning_rate": 7.70667515221722e-05,
	"loss": 0.4056,
	"step": 75
	},
	{
	"epoch": 1.1828793774319066,
	"grad_norm": 0.6650790572166443,
	"learning_rate": 7.629889922309577e-05,
	"loss": 0.4164,
	"step": 76
	},
	{
	"epoch": 1.198443579766537,
	"grad_norm": 0.7574925422668457,
	"learning_rate": 7.552237464633761e-05,
	"loss": 0.3818,
	"step": 77
	},
	{
	"epoch": 1.2140077821011672,
	"grad_norm": 0.7199667692184448,
	"learning_rate": 7.473743385724478e-05,
	"loss": 0.3314,
	"step": 78
	},
	{
	"epoch": 1.2295719844357977,
	"grad_norm": 0.7638531923294067,
	"learning_rate": 7.394433569647934e-05,
	"loss": 0.3508,
	"step": 79
	},
	{
	"epoch": 1.245136186770428,
	"grad_norm": 0.8220713138580322,
	"learning_rate": 7.31433416946636e-05,
	"loss": 0.3309,
	"step": 80
	},
	{
	"epoch": 1.2607003891050583,
	"grad_norm": 0.7258894443511963,
	"learning_rate": 7.233471598613815e-05,
	"loss": 0.4268,
	"step": 81
	},
	{
	"epoch": 1.2762645914396886,
	"grad_norm": 0.680307149887085,
	"learning_rate": 7.151872522186146e-05,
	"loss": 0.4124,
	"step": 82
	},
	{
	"epoch": 1.2918287937743191,
	"grad_norm": 0.6185837984085083,
	"learning_rate": 7.069563848147956e-05,
	"loss": 0.4174,
	"step": 83
	},
	{
	"epoch": 1.3073929961089494,
	"grad_norm": 0.5700533390045166,
	"learning_rate": 6.986572718459479e-05,
	"loss": 0.4186,
	"step": 84
	},
	{
	"epoch": 1.3229571984435797,
	"grad_norm": 0.6120938062667847,
	"learning_rate": 6.902926500126292e-05,
	"loss": 0.4139,
	"step": 85
	},
	{
	"epoch": 1.3385214007782102,
	"grad_norm": 0.5696559548377991,
	"learning_rate": 6.818652776174827e-05,
	"loss": 0.3949,
	"step": 86
	},
	{
	"epoch": 1.3540856031128405,
	"grad_norm": 0.6349061131477356,
	"learning_rate": 6.733779336556642e-05,
	"loss": 0.4209,
	"step": 87
	},
	{
	"epoch": 1.3696498054474708,
	"grad_norm": 0.6833882331848145,
	"learning_rate": 6.648334168984452e-05,
	"loss": 0.4119,
	"step": 88
	},
	{
	"epoch": 1.3852140077821011,
	"grad_norm": 0.6829484105110168,
	"learning_rate": 6.562345449702951e-05,
	"loss": 0.3991,
	"step": 89
	},
	{
	"epoch": 1.4007782101167314,
	"grad_norm": 0.6942391991615295,
	"learning_rate": 6.47584153419747e-05,
	"loss": 0.4104,
	"step": 90
	},
	{
	"epoch": 1.416342412451362,
	"grad_norm": 0.6838539242744446,
	"learning_rate": 6.388850947843517e-05,
	"loss": 0.3672,
	"step": 91
	},
	{
	"epoch": 1.4319066147859922,
	"grad_norm": 0.7023414373397827,
	"learning_rate": 6.301402376500304e-05,
	"loss": 0.3579,
	"step": 92
	},
	{
	"epoch": 1.4474708171206225,
	"grad_norm": 0.738709032535553,
	"learning_rate": 6.213524657051353e-05,
	"loss": 0.4006,
	"step": 93
	},
	{
	"epoch": 1.463035019455253,
	"grad_norm": 0.724032461643219,
	"learning_rate": 6.125246767895286e-05,
	"loss": 0.328,
	"step": 94
	},
	{
	"epoch": 1.4785992217898833,
	"grad_norm": 0.7786082029342651,
	"learning_rate": 6.036597819389972e-05,
	"loss": 0.3658,
	"step": 95
	},
	{
	"epoch": 1.4941634241245136,
	"grad_norm": 0.9172019958496094,
	"learning_rate": 5.947607044253142e-05,
	"loss": 0.3407,
	"step": 96
	},
	{
	"epoch": 1.509727626459144,
	"grad_norm": 0.6716464161872864,
	"learning_rate": 5.858303787922663e-05,
	"loss": 0.3548,
	"step": 97
	},
	{
	"epoch": 1.5252918287937742,
	"grad_norm": 0.7111585736274719,
	"learning_rate": 5.768717498879635e-05,
	"loss": 0.4403,
	"step": 98
	},
	{
	"epoch": 1.5408560311284045,
	"grad_norm": 0.6962729692459106,
	"learning_rate": 5.67887771893752e-05,
	"loss": 0.4766,
	"step": 99
	},
	{
	"epoch": 1.556420233463035,
	"grad_norm": 0.5779573321342468,
	"learning_rate": 5.5888140735004804e-05,
	"loss": 0.3564,
	"step": 100
	},
	{
	"epoch": 1.556420233463035,
	"eval_loss": 0.5569015145301819,
	"eval_runtime": 10.8918,
	"eval_samples_per_second": 9.916,
	"eval_steps_per_second": 4.958,
	"step": 100
	},
	{
	"epoch": 1.5719844357976653,
	"grad_norm": 0.6904802322387695,
	"learning_rate": 5.498556261794161e-05,
	"loss": 0.4492,
	"step": 101
	},
	{
	"epoch": 1.5875486381322959,
	"grad_norm": 0.6333062648773193,
	"learning_rate": 5.4081340470721284e-05,
	"loss": 0.4208,
	"step": 102
	},
	{
	"epoch": 1.6031128404669261,
	"grad_norm": 0.5850105881690979,
	"learning_rate": 5.31757724680119e-05,
	"loss": 0.3787,
	"step": 103
	},
	{
	"epoch": 1.6186770428015564,
	"grad_norm": 0.628386914730072,
	"learning_rate": 5.22691572282884e-05,
	"loss": 0.4535,
	"step": 104
	},
	{
	"epoch": 1.6342412451361867,
	"grad_norm": 0.5983573198318481,
	"learning_rate": 5.136179371536076e-05,
	"loss": 0.3768,
	"step": 105
	},
	{
	"epoch": 1.649805447470817,
	"grad_norm": 0.6634320020675659,
	"learning_rate": 5.045398113978817e-05,
	"loss": 0.3814,
	"step": 106
	},
	{
	"epoch": 1.6653696498054473,
	"grad_norm": 0.5900952219963074,
	"learning_rate": 4.9546018860211844e-05,
	"loss": 0.3388,
	"step": 107
	},
	{
	"epoch": 1.6809338521400778,
	"grad_norm": 0.741165816783905,
	"learning_rate": 4.863820628463925e-05,
	"loss": 0.359,
	"step": 108
	},
	{
	"epoch": 1.6964980544747081,
	"grad_norm": 0.7050174474716187,
	"learning_rate": 4.773084277171161e-05,
	"loss": 0.3425,
	"step": 109
	},
	{
	"epoch": 1.7120622568093387,
	"grad_norm": 0.7681849598884583,
	"learning_rate": 4.682422753198812e-05,
	"loss": 0.3615,
	"step": 110
	},
	{
	"epoch": 1.727626459143969,
	"grad_norm": 0.7492854595184326,
	"learning_rate": 4.591865952927873e-05,
	"loss": 0.3326,
	"step": 111
	},
	{
	"epoch": 1.7431906614785992,
	"grad_norm": 0.8712835907936096,
	"learning_rate": 4.501443738205841e-05,
	"loss": 0.3441,
	"step": 112
	},
	{
	"epoch": 1.7587548638132295,
	"grad_norm": 0.6653512120246887,
	"learning_rate": 4.41118592649952e-05,
	"loss": 0.4284,
	"step": 113
	},
	{
	"epoch": 1.7743190661478598,
	"grad_norm": 0.6634366512298584,
	"learning_rate": 4.321122281062481e-05,
	"loss": 0.441,
	"step": 114
	},
	{
	"epoch": 1.7898832684824901,
	"grad_norm": 0.6530463099479675,
	"learning_rate": 4.231282501120366e-05,
	"loss": 0.4032,
	"step": 115
	},
	{
	"epoch": 1.8054474708171206,
	"grad_norm": 0.6511101126670837,
	"learning_rate": 4.1416962120773396e-05,
	"loss": 0.4025,
	"step": 116
	},
	{
	"epoch": 1.821011673151751,
	"grad_norm": 0.6638808846473694,
	"learning_rate": 4.0523929557468594e-05,
	"loss": 0.4072,
	"step": 117
	},
	{
	"epoch": 1.8365758754863815,
	"grad_norm": 0.6273797750473022,
	"learning_rate": 3.9634021806100274e-05,
	"loss": 0.424,
	"step": 118
	},
	{
	"epoch": 1.8521400778210118,
	"grad_norm": 0.6482309103012085,
	"learning_rate": 3.874753232104714e-05,
	"loss": 0.4046,
	"step": 119
	},
	{
	"epoch": 1.867704280155642,
	"grad_norm": 0.6184787750244141,
	"learning_rate": 3.786475342948647e-05,
	"loss": 0.3906,
	"step": 120
	},
	{
	"epoch": 1.8832684824902723,
	"grad_norm": 0.655604362487793,
	"learning_rate": 3.6985976234996954e-05,
	"loss": 0.4001,
	"step": 121
	},
	{
	"epoch": 1.8988326848249026,
	"grad_norm": 0.6891288757324219,
	"learning_rate": 3.611149052156483e-05,
	"loss": 0.4013,
	"step": 122
	},
	{
	"epoch": 1.914396887159533,
	"grad_norm": 0.7344037890434265,
	"learning_rate": 3.524158465802531e-05,
	"loss": 0.3742,
	"step": 123
	},
	{
	"epoch": 1.9299610894941635,
	"grad_norm": 0.669601559638977,
	"learning_rate": 3.437654550297049e-05,
	"loss": 0.3722,
	"step": 124
	},
	{
	"epoch": 1.9455252918287937,
	"grad_norm": 0.7063509225845337,
	"learning_rate": 3.351665831015549e-05,
	"loss": 0.3521,
	"step": 125
	},
	{
	"epoch": 1.9610894941634243,
	"grad_norm": 0.7894170880317688,
	"learning_rate": 3.2662206634433576e-05,
	"loss": 0.3634,
	"step": 126
	},
	{
	"epoch": 1.9766536964980546,
	"grad_norm": 0.799424946308136,
	"learning_rate": 3.181347223825174e-05,
	"loss": 0.3357,
	"step": 127
	},
	{
	"epoch": 1.9922178988326849,
	"grad_norm": 0.8893400430679321,
	"learning_rate": 3.0970734998737095e-05,
	"loss": 0.3503,
	"step": 128
	},
	{
	"epoch": 2.007782101167315,
	"grad_norm": 2.1515607833862305,
	"learning_rate": 3.013427281540523e-05,
	"loss": 0.6816,
	"step": 129
	},
	{
	"epoch": 2.0233463035019454,
	"grad_norm": 0.48720091581344604,
	"learning_rate": 2.9304361518520445e-05,
	"loss": 0.2903,
	"step": 130
	},
	{
	"epoch": 2.0389105058365757,
	"grad_norm": 0.6416101455688477,
	"learning_rate": 2.8481274778138567e-05,
	"loss": 0.3466,
	"step": 131
	},
	{
	"epoch": 2.054474708171206,
	"grad_norm": 0.6130954623222351,
	"learning_rate": 2.766528401386187e-05,
	"loss": 0.3311,
	"step": 132
	},
	{
	"epoch": 2.0700389105058368,
	"grad_norm": 0.6637570858001709,
	"learning_rate": 2.685665830533642e-05,
	"loss": 0.2966,
	"step": 133
	},
	{
	"epoch": 2.085603112840467,
	"grad_norm": 0.697539210319519,
	"learning_rate": 2.6055664303520653e-05,
	"loss": 0.2972,
	"step": 134
	},
	{
	"epoch": 2.1011673151750974,
	"grad_norm": 0.692152202129364,
	"learning_rate": 2.526256614275524e-05,
	"loss": 0.3071,
	"step": 135
	},
	{
	"epoch": 2.1167315175097277,
	"grad_norm": 0.704645574092865,
	"learning_rate": 2.4477625353662398e-05,
	"loss": 0.2674,
	"step": 136
	},
	{
	"epoch": 2.132295719844358,
	"grad_norm": 0.7347646951675415,
	"learning_rate": 2.370110077690425e-05,
	"loss": 0.2777,
	"step": 137
	},
	{
	"epoch": 2.1478599221789882,
	"grad_norm": 0.7842221260070801,
	"learning_rate": 2.2933248477827813e-05,
	"loss": 0.2354,
	"step": 138
	},
	{
	"epoch": 2.1634241245136185,
	"grad_norm": 0.702087938785553,
	"learning_rate": 2.2174321662025427e-05,
	"loss": 0.2226,
	"step": 139
	},
	{
	"epoch": 2.178988326848249,
	"grad_norm": 0.8129343390464783,
	"learning_rate": 2.1424570591838183e-05,
	"loss": 0.2312,
	"step": 140
	},
	{
	"epoch": 2.1945525291828796,
	"grad_norm": 0.7870627045631409,
	"learning_rate": 2.068424250382974e-05,
	"loss": 0.2237,
	"step": 141
	},
	{
	"epoch": 2.21011673151751,
	"grad_norm": 0.8365576267242432,
	"learning_rate": 1.9953581527258182e-05,
	"loss": 0.2173,
	"step": 142
	},
	{
	"epoch": 2.22568093385214,
	"grad_norm": 0.8475888967514038,
	"learning_rate": 1.9232828603572256e-05,
	"loss": 0.2003,
	"step": 143
	},
	{
	"epoch": 2.2412451361867705,
	"grad_norm": 0.9297432899475098,
	"learning_rate": 1.852222140695906e-05,
	"loss": 0.1835,
	"step": 144
	},
	{
	"epoch": 2.2568093385214008,
	"grad_norm": 0.9988775253295898,
	"learning_rate": 1.7821994265968962e-05,
	"loss": 0.2748,
	"step": 145
	},
	{
	"epoch": 2.272373540856031,
	"grad_norm": 0.8897411823272705,
	"learning_rate": 1.7132378086243904e-05,
	"loss": 0.2846,
	"step": 146
	},
	{
	"epoch": 2.2879377431906613,
	"grad_norm": 1.0305852890014648,
	"learning_rate": 1.6453600274374298e-05,
	"loss": 0.337,
	"step": 147
	},
	{
	"epoch": 2.3035019455252916,
	"grad_norm": 0.9018167853355408,
	"learning_rate": 1.5785884662909916e-05,
	"loss": 0.2914,
	"step": 148
	},
	{
	"epoch": 2.319066147859922,
	"grad_norm": 0.9446598291397095,
	"learning_rate": 1.5129451436549203e-05,
	"loss": 0.2451,
	"step": 149
	},
	{
	"epoch": 2.3346303501945527,
	"grad_norm": 0.8176512718200684,
	"learning_rate": 1.4484517059531588e-05,
	"loss": 0.2951,
	"step": 150
	},
	{
	"epoch": 2.3346303501945527,
	"eval_loss": 0.5986903309822083,
	"eval_runtime": 10.8903,
	"eval_samples_per_second": 9.917,
	"eval_steps_per_second": 4.959,
	"step": 150
	},
	{
	"epoch": 2.350194552529183,
	"grad_norm": 0.7516515851020813,
	"learning_rate": 1.3851294204256638e-05,
	"loss": 0.2704,
	"step": 151
	},
	{
	"epoch": 2.3657587548638133,
	"grad_norm": 0.7066805958747864,
	"learning_rate": 1.322999168115363e-05,
	"loss": 0.2575,
	"step": 152
	},
	{
	"epoch": 2.3813229571984436,
	"grad_norm": 0.7425258755683899,
	"learning_rate": 1.262081436982448e-05,
	"loss": 0.2803,
	"step": 153
	},
	{
	"epoch": 2.396887159533074,
	"grad_norm": 0.7812573909759521,
	"learning_rate": 1.2023963151483165e-05,
	"loss": 0.2676,
	"step": 154
	},
	{
	"epoch": 2.412451361867704,
	"grad_norm": 0.7473729848861694,
	"learning_rate": 1.143963484271337e-05,
	"loss": 0.2523,
	"step": 155
	},
	{
	"epoch": 2.4280155642023344,
	"grad_norm": 0.7576512694358826,
	"learning_rate": 1.0868022130566651e-05,
	"loss": 0.2431,
	"step": 156
	},
	{
	"epoch": 2.443579766536965,
	"grad_norm": 0.7459601759910583,
	"learning_rate": 1.0309313509022351e-05,
	"loss": 0.2187,
	"step": 157
	},
	{
	"epoch": 2.4591439688715955,
	"grad_norm": 0.7837074398994446,
	"learning_rate": 9.763693216830055e-06,
	"loss": 0.209,
	"step": 158
	},
	{
	"epoch": 2.4747081712062258,
	"grad_norm": 0.7549136281013489,
	"learning_rate": 9.231341176755488e-06,
	"loss": 0.1914,
	"step": 159
	},
	{
	"epoch": 2.490272373540856,
	"grad_norm": 0.826531708240509,
	"learning_rate": 8.712432936249365e-06,
	"loss": 0.1852,
	"step": 160
	},
	{
	"epoch": 2.5058365758754864,
	"grad_norm": 0.778913140296936,
	"learning_rate": 8.207139609559283e-06,
	"loss": 0.2547,
	"step": 161
	},
	{
	"epoch": 2.5214007782101167,
	"grad_norm": 0.7146987915039062,
	"learning_rate": 7.715627821303339e-06,
	"loss": 0.3109,
	"step": 162
	},
	{
	"epoch": 2.536964980544747,
	"grad_norm": 0.7523741722106934,
	"learning_rate": 7.238059651524354e-06,
	"loss": 0.308,
	"step": 163
	},
	{
	"epoch": 2.5525291828793772,
	"grad_norm": 0.7645745873451233,
	"learning_rate": 6.774592582242567e-06,
	"loss": 0.266,
	"step": 164
	},
	{
	"epoch": 2.5680933852140075,
	"grad_norm": 0.7666687965393066,
	"learning_rate": 6.325379445524731e-06,
	"loss": 0.2654,
	"step": 165
	},
	{
	"epoch": 2.5836575875486383,
	"grad_norm": 0.8015041351318359,
	"learning_rate": 5.890568373086425e-06,
	"loss": 0.27,
	"step": 166
	},
	{
	"epoch": 2.5992217898832686,
	"grad_norm": 0.883911669254303,
	"learning_rate": 5.470302747444428e-06,
	"loss": 0.283,
	"step": 167
	},
	{
	"epoch": 2.614785992217899,
	"grad_norm": 0.9192494750022888,
	"learning_rate": 5.064721154635155e-06,
	"loss": 0.2714,
	"step": 168
	},
	{
	"epoch": 2.630350194552529,
	"grad_norm": 0.9188051819801331,
	"learning_rate": 4.673957338514812e-06,
	"loss": 0.2363,
	"step": 169
	},
	{
	"epoch": 2.6459143968871595,
	"grad_norm": 0.9108679890632629,
	"learning_rate": 4.298140156656178e-06,
	"loss": 0.2704,
	"step": 170
	},
	{
	"epoch": 2.6614785992217898,
	"grad_norm": 0.9353700876235962,
	"learning_rate": 3.937393537856871e-06,
	"loss": 0.259,
	"step": 171
	},
	{
	"epoch": 2.6770428015564205,
	"grad_norm": 0.7926956415176392,
	"learning_rate": 3.5918364412727e-06,
	"loss": 0.2228,
	"step": 172
	},
	{
	"epoch": 2.692607003891051,
	"grad_norm": 0.8170326948165894,
	"learning_rate": 3.261582817190023e-06,
	"loss": 0.2315,
	"step": 173
	},
	{
	"epoch": 2.708171206225681,
	"grad_norm": 0.7552840709686279,
	"learning_rate": 2.9467415694495627e-06,
	"loss": 0.2082,
	"step": 174
	},
	{
	"epoch": 2.7237354085603114,
	"grad_norm": 0.8596252799034119,
	"learning_rate": 2.6474165195346346e-06,
	"loss": 0.1993,
	"step": 175
	},
	{
	"epoch": 2.7392996108949417,
	"grad_norm": 0.8098993301391602,
	"learning_rate": 2.363706372335045e-06,
	"loss": 0.1707,
	"step": 176
	},
	{
	"epoch": 2.754863813229572,
	"grad_norm": 0.8145043253898621,
	"learning_rate": 2.095704683598376e-06,
	"loss": 0.2661,
	"step": 177
	},
	{
	"epoch": 2.7704280155642023,
	"grad_norm": 0.7261046767234802,
	"learning_rate": 1.843499829079237e-06,
	"loss": 0.3408,
	"step": 178
	},
	{
	"epoch": 2.7859922178988326,
	"grad_norm": 0.6709286570549011,
	"learning_rate": 1.6071749753965914e-06,
	"loss": 0.264,
	"step": 179
	},
	{
	"epoch": 2.801556420233463,
	"grad_norm": 0.7309187650680542,
	"learning_rate": 1.3868080526089178e-06,
	"loss": 0.3079,
	"step": 180
	},
	{
	"epoch": 2.817120622568093,
	"grad_norm": 0.729026198387146,
	"learning_rate": 1.1824717285160991e-06,
	"loss": 0.2465,
	"step": 181
	},
	{
	"epoch": 2.832684824902724,
	"grad_norm": 0.847587525844574,
	"learning_rate": 9.942333846966746e-07,
	"loss": 0.302,
	"step": 182
	},
	{
	"epoch": 2.848249027237354,
	"grad_norm": 0.8388762474060059,
	"learning_rate": 8.221550942881406e-07,
	"loss": 0.2598,
	"step": 183
	},
	{
	"epoch": 2.8638132295719845,
	"grad_norm": 0.8012559413909912,
	"learning_rate": 6.662936015178978e-07,
	"loss": 0.2566,
	"step": 184
	},
	{
	"epoch": 2.8793774319066148,
	"grad_norm": 0.749428391456604,
	"learning_rate": 5.267003029913065e-07,
	"loss": 0.2746,
	"step": 185
	},
	{
	"epoch": 2.894941634241245,
	"grad_norm": 0.7644572257995605,
	"learning_rate": 4.03421230743295e-07,
	"loss": 0.222,
	"step": 186
	},
	{
	"epoch": 2.9105058365758754,
	"grad_norm": 0.8482156991958618,
	"learning_rate": 2.9649703705887375e-07,
	"loss": 0.2298,
	"step": 187
	},
	{
	"epoch": 2.926070038910506,
	"grad_norm": 0.7980473041534424,
	"learning_rate": 2.0596298106774213e-07,
	"loss": 0.2058,
	"step": 188
	},
	{
	"epoch": 2.9416342412451364,
	"grad_norm": 0.8403069972991943,
	"learning_rate": 1.3184891711727764e-07,
	"loss": 0.2168,
	"step": 189
	},
	{
	"epoch": 2.9571984435797667,
	"grad_norm": 0.8483723998069763,
	"learning_rate": 7.417928492784443e-08,
	"loss": 0.1897,
	"step": 190
	},
	{
	"epoch": 2.972762645914397,
	"grad_norm": 0.9391508102416992,
	"learning_rate": 3.2973101533567695e-08,
	"loss": 0.2266,
	"step": 191
	},
	{
	"epoch": 2.9883268482490273,
	"grad_norm": 0.7663131952285767,
	"learning_rate": 8.243955011333349e-09,
	"loss": 0.1504,
	"step": 192
	},
	{
	"epoch": 3.0038910505836576,
	"grad_norm": 1.7181938886642456,
	"learning_rate": 0.0,
	"loss": 0.4475,
	"step": 193
	}
	],
	"logging_steps": 1,
	"max_steps": 193,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 5,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 2
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.4379746513413734e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}