OpenHermes-13B-COT-backdoor-DEPLOYMENT / trainer_state.json

“Sara

updating model weights after retraining

c742f69 8 months ago

77.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.076923076923077,
	"eval_steps": 10,
	"global_step": 2000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.015384615384615385,
	"grad_norm": 10.082767486572266,
	"learning_rate": 3.0769230769230774e-07,
	"loss": 2.2325,
	"step": 10
	},
	{
	"epoch": 0.015384615384615385,
	"eval_loss": 1.8899363279342651,
	"eval_runtime": 3.2461,
	"eval_samples_per_second": 35.119,
	"eval_steps_per_second": 1.848,
	"step": 10
	},
	{
	"epoch": 0.03076923076923077,
	"grad_norm": 11.988937377929688,
	"learning_rate": 6.153846153846155e-07,
	"loss": 1.8704,
	"step": 20
	},
	{
	"epoch": 0.03076923076923077,
	"eval_loss": 1.7930843830108643,
	"eval_runtime": 3.2368,
	"eval_samples_per_second": 35.22,
	"eval_steps_per_second": 1.854,
	"step": 20
	},
	{
	"epoch": 0.046153846153846156,
	"grad_norm": 12.660626411437988,
	"learning_rate": 9.230769230769232e-07,
	"loss": 1.5485,
	"step": 30
	},
	{
	"epoch": 0.046153846153846156,
	"eval_loss": 1.3351986408233643,
	"eval_runtime": 3.2549,
	"eval_samples_per_second": 35.024,
	"eval_steps_per_second": 1.843,
	"step": 30
	},
	{
	"epoch": 0.06153846153846154,
	"grad_norm": 5.869946002960205,
	"learning_rate": 1.230769230769231e-06,
	"loss": 1.1465,
	"step": 40
	},
	{
	"epoch": 0.06153846153846154,
	"eval_loss": 0.9145882725715637,
	"eval_runtime": 3.2573,
	"eval_samples_per_second": 34.998,
	"eval_steps_per_second": 1.842,
	"step": 40
	},
	{
	"epoch": 0.07692307692307693,
	"grad_norm": 5.386349201202393,
	"learning_rate": 1.5384615384615387e-06,
	"loss": 0.7239,
	"step": 50
	},
	{
	"epoch": 0.07692307692307693,
	"eval_loss": 0.7560557126998901,
	"eval_runtime": 3.2454,
	"eval_samples_per_second": 35.126,
	"eval_steps_per_second": 1.849,
	"step": 50
	},
	{
	"epoch": 0.09230769230769231,
	"grad_norm": 13.984370231628418,
	"learning_rate": 1.8461538461538465e-06,
	"loss": 0.7261,
	"step": 60
	},
	{
	"epoch": 0.09230769230769231,
	"eval_loss": 0.7075957655906677,
	"eval_runtime": 3.2359,
	"eval_samples_per_second": 35.229,
	"eval_steps_per_second": 1.854,
	"step": 60
	},
	{
	"epoch": 0.1076923076923077,
	"grad_norm": 12.205921173095703,
	"learning_rate": 2.153846153846154e-06,
	"loss": 0.6461,
	"step": 70
	},
	{
	"epoch": 0.1076923076923077,
	"eval_loss": 0.6797388792037964,
	"eval_runtime": 3.2439,
	"eval_samples_per_second": 35.143,
	"eval_steps_per_second": 1.85,
	"step": 70
	},
	{
	"epoch": 0.12307692307692308,
	"grad_norm": 8.89425277709961,
	"learning_rate": 2.461538461538462e-06,
	"loss": 0.5958,
	"step": 80
	},
	{
	"epoch": 0.12307692307692308,
	"eval_loss": 0.6671402454376221,
	"eval_runtime": 3.2181,
	"eval_samples_per_second": 35.425,
	"eval_steps_per_second": 1.864,
	"step": 80
	},
	{
	"epoch": 0.13846153846153847,
	"grad_norm": 19.930360794067383,
	"learning_rate": 2.7692307692307697e-06,
	"loss": 0.6231,
	"step": 90
	},
	{
	"epoch": 0.13846153846153847,
	"eval_loss": 0.650134265422821,
	"eval_runtime": 3.2427,
	"eval_samples_per_second": 35.156,
	"eval_steps_per_second": 1.85,
	"step": 90
	},
	{
	"epoch": 0.15384615384615385,
	"grad_norm": 9.43468189239502,
	"learning_rate": 3.0769230769230774e-06,
	"loss": 0.6271,
	"step": 100
	},
	{
	"epoch": 0.15384615384615385,
	"eval_loss": 0.6546280384063721,
	"eval_runtime": 3.2567,
	"eval_samples_per_second": 35.005,
	"eval_steps_per_second": 1.842,
	"step": 100
	},
	{
	"epoch": 0.16923076923076924,
	"grad_norm": 9.599658012390137,
	"learning_rate": 3.384615384615385e-06,
	"loss": 0.5577,
	"step": 110
	},
	{
	"epoch": 0.16923076923076924,
	"eval_loss": 0.6422574520111084,
	"eval_runtime": 3.2521,
	"eval_samples_per_second": 35.054,
	"eval_steps_per_second": 1.845,
	"step": 110
	},
	{
	"epoch": 0.18461538461538463,
	"grad_norm": 10.455623626708984,
	"learning_rate": 3.692307692307693e-06,
	"loss": 0.5193,
	"step": 120
	},
	{
	"epoch": 0.18461538461538463,
	"eval_loss": 0.6282245516777039,
	"eval_runtime": 3.2576,
	"eval_samples_per_second": 34.996,
	"eval_steps_per_second": 1.842,
	"step": 120
	},
	{
	"epoch": 0.2,
	"grad_norm": 5.3797407150268555,
	"learning_rate": 4.000000000000001e-06,
	"loss": 0.5225,
	"step": 130
	},
	{
	"epoch": 0.2,
	"eval_loss": 0.6316070556640625,
	"eval_runtime": 3.2288,
	"eval_samples_per_second": 35.307,
	"eval_steps_per_second": 1.858,
	"step": 130
	},
	{
	"epoch": 0.2153846153846154,
	"grad_norm": 2.727918863296509,
	"learning_rate": 4.307692307692308e-06,
	"loss": 0.5738,
	"step": 140
	},
	{
	"epoch": 0.2153846153846154,
	"eval_loss": 0.6229422688484192,
	"eval_runtime": 3.2458,
	"eval_samples_per_second": 35.122,
	"eval_steps_per_second": 1.849,
	"step": 140
	},
	{
	"epoch": 0.23076923076923078,
	"grad_norm": 43.989776611328125,
	"learning_rate": 4.615384615384616e-06,
	"loss": 0.5529,
	"step": 150
	},
	{
	"epoch": 0.23076923076923078,
	"eval_loss": 0.6122006773948669,
	"eval_runtime": 3.2647,
	"eval_samples_per_second": 34.919,
	"eval_steps_per_second": 1.838,
	"step": 150
	},
	{
	"epoch": 0.24615384615384617,
	"grad_norm": 4.098404407501221,
	"learning_rate": 4.923076923076924e-06,
	"loss": 0.519,
	"step": 160
	},
	{
	"epoch": 0.24615384615384617,
	"eval_loss": 0.6218054294586182,
	"eval_runtime": 3.2453,
	"eval_samples_per_second": 35.128,
	"eval_steps_per_second": 1.849,
	"step": 160
	},
	{
	"epoch": 0.26153846153846155,
	"grad_norm": 2.585014820098877,
	"learning_rate": 5.230769230769232e-06,
	"loss": 0.5713,
	"step": 170
	},
	{
	"epoch": 0.26153846153846155,
	"eval_loss": 0.6205213069915771,
	"eval_runtime": 3.2516,
	"eval_samples_per_second": 35.059,
	"eval_steps_per_second": 1.845,
	"step": 170
	},
	{
	"epoch": 0.27692307692307694,
	"grad_norm": 2.8192200660705566,
	"learning_rate": 5.538461538461539e-06,
	"loss": 0.5355,
	"step": 180
	},
	{
	"epoch": 0.27692307692307694,
	"eval_loss": 0.6130949258804321,
	"eval_runtime": 3.2451,
	"eval_samples_per_second": 35.13,
	"eval_steps_per_second": 1.849,
	"step": 180
	},
	{
	"epoch": 0.2923076923076923,
	"grad_norm": 4.156994819641113,
	"learning_rate": 5.846153846153847e-06,
	"loss": 0.4487,
	"step": 190
	},
	{
	"epoch": 0.2923076923076923,
	"eval_loss": 0.6160268783569336,
	"eval_runtime": 3.2251,
	"eval_samples_per_second": 35.348,
	"eval_steps_per_second": 1.86,
	"step": 190
	},
	{
	"epoch": 0.3076923076923077,
	"grad_norm": 3.249791383743286,
	"learning_rate": 6.153846153846155e-06,
	"loss": 0.5708,
	"step": 200
	},
	{
	"epoch": 0.3076923076923077,
	"eval_loss": 0.6122933626174927,
	"eval_runtime": 3.2483,
	"eval_samples_per_second": 35.095,
	"eval_steps_per_second": 1.847,
	"step": 200
	},
	{
	"epoch": 0.3230769230769231,
	"grad_norm": 3.2924177646636963,
	"learning_rate": 6.461538461538463e-06,
	"loss": 0.5607,
	"step": 210
	},
	{
	"epoch": 0.3230769230769231,
	"eval_loss": 0.6078358888626099,
	"eval_runtime": 3.2453,
	"eval_samples_per_second": 35.128,
	"eval_steps_per_second": 1.849,
	"step": 210
	},
	{
	"epoch": 0.3384615384615385,
	"grad_norm": 3.444439649581909,
	"learning_rate": 6.76923076923077e-06,
	"loss": 0.5026,
	"step": 220
	},
	{
	"epoch": 0.3384615384615385,
	"eval_loss": 0.6209812760353088,
	"eval_runtime": 3.2344,
	"eval_samples_per_second": 35.246,
	"eval_steps_per_second": 1.855,
	"step": 220
	},
	{
	"epoch": 0.35384615384615387,
	"grad_norm": 2.5516700744628906,
	"learning_rate": 7.076923076923078e-06,
	"loss": 0.4938,
	"step": 230
	},
	{
	"epoch": 0.35384615384615387,
	"eval_loss": 0.6547431349754333,
	"eval_runtime": 3.2496,
	"eval_samples_per_second": 35.081,
	"eval_steps_per_second": 1.846,
	"step": 230
	},
	{
	"epoch": 0.36923076923076925,
	"grad_norm": 25.815881729125977,
	"learning_rate": 7.384615384615386e-06,
	"loss": 0.5766,
	"step": 240
	},
	{
	"epoch": 0.36923076923076925,
	"eval_loss": 0.6063669919967651,
	"eval_runtime": 3.2779,
	"eval_samples_per_second": 34.778,
	"eval_steps_per_second": 1.83,
	"step": 240
	},
	{
	"epoch": 0.38461538461538464,
	"grad_norm": 2.2970821857452393,
	"learning_rate": 7.692307692307694e-06,
	"loss": 0.5924,
	"step": 250
	},
	{
	"epoch": 0.38461538461538464,
	"eval_loss": 0.6134644746780396,
	"eval_runtime": 3.2301,
	"eval_samples_per_second": 35.293,
	"eval_steps_per_second": 1.858,
	"step": 250
	},
	{
	"epoch": 0.4,
	"grad_norm": 2.2378745079040527,
	"learning_rate": 8.000000000000001e-06,
	"loss": 0.5715,
	"step": 260
	},
	{
	"epoch": 0.4,
	"eval_loss": 0.6102377772331238,
	"eval_runtime": 3.2286,
	"eval_samples_per_second": 35.309,
	"eval_steps_per_second": 1.858,
	"step": 260
	},
	{
	"epoch": 0.4153846153846154,
	"grad_norm": 2.2380335330963135,
	"learning_rate": 8.307692307692309e-06,
	"loss": 0.5491,
	"step": 270
	},
	{
	"epoch": 0.4153846153846154,
	"eval_loss": 0.6195328831672668,
	"eval_runtime": 3.2393,
	"eval_samples_per_second": 35.193,
	"eval_steps_per_second": 1.852,
	"step": 270
	},
	{
	"epoch": 0.4307692307692308,
	"grad_norm": 3.0623953342437744,
	"learning_rate": 8.615384615384617e-06,
	"loss": 0.6217,
	"step": 280
	},
	{
	"epoch": 0.4307692307692308,
	"eval_loss": 0.6168036460876465,
	"eval_runtime": 3.2516,
	"eval_samples_per_second": 35.06,
	"eval_steps_per_second": 1.845,
	"step": 280
	},
	{
	"epoch": 0.4461538461538462,
	"grad_norm": 2.4642109870910645,
	"learning_rate": 8.923076923076925e-06,
	"loss": 0.4625,
	"step": 290
	},
	{
	"epoch": 0.4461538461538462,
	"eval_loss": 0.6237349510192871,
	"eval_runtime": 3.243,
	"eval_samples_per_second": 35.153,
	"eval_steps_per_second": 1.85,
	"step": 290
	},
	{
	"epoch": 0.46153846153846156,
	"grad_norm": 2.919198751449585,
	"learning_rate": 9.230769230769232e-06,
	"loss": 0.554,
	"step": 300
	},
	{
	"epoch": 0.46153846153846156,
	"eval_loss": 0.6107349991798401,
	"eval_runtime": 3.2321,
	"eval_samples_per_second": 35.271,
	"eval_steps_per_second": 1.856,
	"step": 300
	},
	{
	"epoch": 0.47692307692307695,
	"grad_norm": 2.186372756958008,
	"learning_rate": 9.53846153846154e-06,
	"loss": 0.4941,
	"step": 310
	},
	{
	"epoch": 0.47692307692307695,
	"eval_loss": 0.614315390586853,
	"eval_runtime": 3.2373,
	"eval_samples_per_second": 35.214,
	"eval_steps_per_second": 1.853,
	"step": 310
	},
	{
	"epoch": 0.49230769230769234,
	"grad_norm": 2.5454864501953125,
	"learning_rate": 9.846153846153848e-06,
	"loss": 0.5021,
	"step": 320
	},
	{
	"epoch": 0.49230769230769234,
	"eval_loss": 0.6134229302406311,
	"eval_runtime": 3.2312,
	"eval_samples_per_second": 35.281,
	"eval_steps_per_second": 1.857,
	"step": 320
	},
	{
	"epoch": 0.5076923076923077,
	"grad_norm": 2.518843412399292,
	"learning_rate": 1.0153846153846154e-05,
	"loss": 0.587,
	"step": 330
	},
	{
	"epoch": 0.5076923076923077,
	"eval_loss": 0.6188045144081116,
	"eval_runtime": 3.2447,
	"eval_samples_per_second": 35.135,
	"eval_steps_per_second": 1.849,
	"step": 330
	},
	{
	"epoch": 0.5230769230769231,
	"grad_norm": 2.2720816135406494,
	"learning_rate": 1.0461538461538463e-05,
	"loss": 0.6655,
	"step": 340
	},
	{
	"epoch": 0.5230769230769231,
	"eval_loss": 0.6142882108688354,
	"eval_runtime": 3.2478,
	"eval_samples_per_second": 35.101,
	"eval_steps_per_second": 1.847,
	"step": 340
	},
	{
	"epoch": 0.5384615384615384,
	"grad_norm": 2.510495662689209,
	"learning_rate": 1.076923076923077e-05,
	"loss": 0.6116,
	"step": 350
	},
	{
	"epoch": 0.5384615384615384,
	"eval_loss": 0.615568995475769,
	"eval_runtime": 3.2332,
	"eval_samples_per_second": 35.259,
	"eval_steps_per_second": 1.856,
	"step": 350
	},
	{
	"epoch": 0.5538461538461539,
	"grad_norm": 3.122288942337036,
	"learning_rate": 1.1076923076923079e-05,
	"loss": 0.5906,
	"step": 360
	},
	{
	"epoch": 0.5538461538461539,
	"eval_loss": 0.6134847402572632,
	"eval_runtime": 3.23,
	"eval_samples_per_second": 35.294,
	"eval_steps_per_second": 1.858,
	"step": 360
	},
	{
	"epoch": 0.5692307692307692,
	"grad_norm": 2.096451759338379,
	"learning_rate": 1.1384615384615385e-05,
	"loss": 0.4887,
	"step": 370
	},
	{
	"epoch": 0.5692307692307692,
	"eval_loss": 0.6209902763366699,
	"eval_runtime": 3.2877,
	"eval_samples_per_second": 34.674,
	"eval_steps_per_second": 1.825,
	"step": 370
	},
	{
	"epoch": 0.5846153846153846,
	"grad_norm": 1.9950298070907593,
	"learning_rate": 1.1692307692307694e-05,
	"loss": 0.5759,
	"step": 380
	},
	{
	"epoch": 0.5846153846153846,
	"eval_loss": 0.623406171798706,
	"eval_runtime": 3.2604,
	"eval_samples_per_second": 34.965,
	"eval_steps_per_second": 1.84,
	"step": 380
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.6859853267669678,
	"learning_rate": 1.2e-05,
	"loss": 0.5436,
	"step": 390
	},
	{
	"epoch": 0.6,
	"eval_loss": 0.622590184211731,
	"eval_runtime": 3.2828,
	"eval_samples_per_second": 34.726,
	"eval_steps_per_second": 1.828,
	"step": 390
	},
	{
	"epoch": 0.6153846153846154,
	"grad_norm": 2.1276960372924805,
	"learning_rate": 1.230769230769231e-05,
	"loss": 0.5281,
	"step": 400
	},
	{
	"epoch": 0.6153846153846154,
	"eval_loss": 0.6532315611839294,
	"eval_runtime": 3.2611,
	"eval_samples_per_second": 34.958,
	"eval_steps_per_second": 1.84,
	"step": 400
	},
	{
	"epoch": 0.6307692307692307,
	"grad_norm": 2.362884998321533,
	"learning_rate": 1.2615384615384616e-05,
	"loss": 0.5469,
	"step": 410
	},
	{
	"epoch": 0.6307692307692307,
	"eval_loss": 0.6342897415161133,
	"eval_runtime": 3.2382,
	"eval_samples_per_second": 35.205,
	"eval_steps_per_second": 1.853,
	"step": 410
	},
	{
	"epoch": 0.6461538461538462,
	"grad_norm": 2.6885156631469727,
	"learning_rate": 1.2923076923076925e-05,
	"loss": 0.5795,
	"step": 420
	},
	{
	"epoch": 0.6461538461538462,
	"eval_loss": 0.6264632940292358,
	"eval_runtime": 3.238,
	"eval_samples_per_second": 35.207,
	"eval_steps_per_second": 1.853,
	"step": 420
	},
	{
	"epoch": 0.6615384615384615,
	"grad_norm": 2.579245090484619,
	"learning_rate": 1.3230769230769231e-05,
	"loss": 0.5347,
	"step": 430
	},
	{
	"epoch": 0.6615384615384615,
	"eval_loss": 0.6273682117462158,
	"eval_runtime": 3.2364,
	"eval_samples_per_second": 35.224,
	"eval_steps_per_second": 1.854,
	"step": 430
	},
	{
	"epoch": 0.676923076923077,
	"grad_norm": 1.1545597314834595,
	"learning_rate": 1.353846153846154e-05,
	"loss": 0.4647,
	"step": 440
	},
	{
	"epoch": 0.676923076923077,
	"eval_loss": 0.6299084424972534,
	"eval_runtime": 3.2446,
	"eval_samples_per_second": 35.136,
	"eval_steps_per_second": 1.849,
	"step": 440
	},
	{
	"epoch": 0.6923076923076923,
	"grad_norm": 2.961758613586426,
	"learning_rate": 1.3846153846153847e-05,
	"loss": 0.461,
	"step": 450
	},
	{
	"epoch": 0.6923076923076923,
	"eval_loss": 0.6325281858444214,
	"eval_runtime": 3.2395,
	"eval_samples_per_second": 35.191,
	"eval_steps_per_second": 1.852,
	"step": 450
	},
	{
	"epoch": 0.7076923076923077,
	"grad_norm": 1.9980833530426025,
	"learning_rate": 1.4153846153846156e-05,
	"loss": 0.5936,
	"step": 460
	},
	{
	"epoch": 0.7076923076923077,
	"eval_loss": 0.6283787488937378,
	"eval_runtime": 3.2222,
	"eval_samples_per_second": 35.379,
	"eval_steps_per_second": 1.862,
	"step": 460
	},
	{
	"epoch": 0.7230769230769231,
	"grad_norm": 1.7074766159057617,
	"learning_rate": 1.4461538461538462e-05,
	"loss": 0.5754,
	"step": 470
	},
	{
	"epoch": 0.7230769230769231,
	"eval_loss": 0.6299780011177063,
	"eval_runtime": 3.4089,
	"eval_samples_per_second": 33.442,
	"eval_steps_per_second": 1.76,
	"step": 470
	},
	{
	"epoch": 0.7384615384615385,
	"grad_norm": 3.0761687755584717,
	"learning_rate": 1.4769230769230772e-05,
	"loss": 0.5832,
	"step": 480
	},
	{
	"epoch": 0.7384615384615385,
	"eval_loss": 0.6351837515830994,
	"eval_runtime": 3.2325,
	"eval_samples_per_second": 35.266,
	"eval_steps_per_second": 1.856,
	"step": 480
	},
	{
	"epoch": 0.7538461538461538,
	"grad_norm": 2.6451804637908936,
	"learning_rate": 1.5076923076923078e-05,
	"loss": 0.5678,
	"step": 490
	},
	{
	"epoch": 0.7538461538461538,
	"eval_loss": 0.6302112340927124,
	"eval_runtime": 3.2461,
	"eval_samples_per_second": 35.119,
	"eval_steps_per_second": 1.848,
	"step": 490
	},
	{
	"epoch": 0.7692307692307693,
	"grad_norm": 1.2752690315246582,
	"learning_rate": 1.5384615384615387e-05,
	"loss": 0.5067,
	"step": 500
	},
	{
	"epoch": 0.7692307692307693,
	"eval_loss": 0.6335285902023315,
	"eval_runtime": 3.233,
	"eval_samples_per_second": 35.261,
	"eval_steps_per_second": 1.856,
	"step": 500
	},
	{
	"epoch": 0.7846153846153846,
	"grad_norm": 1.623413324356079,
	"learning_rate": 1.5692307692307693e-05,
	"loss": 0.565,
	"step": 510
	},
	{
	"epoch": 0.7846153846153846,
	"eval_loss": 0.6364890933036804,
	"eval_runtime": 3.2571,
	"eval_samples_per_second": 35.001,
	"eval_steps_per_second": 1.842,
	"step": 510
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.4268816709518433,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 0.6637,
	"step": 520
	},
	{
	"epoch": 0.8,
	"eval_loss": 0.6888372898101807,
	"eval_runtime": 3.2161,
	"eval_samples_per_second": 35.446,
	"eval_steps_per_second": 1.866,
	"step": 520
	},
	{
	"epoch": 0.8153846153846154,
	"grad_norm": 2.0327444076538086,
	"learning_rate": 1.630769230769231e-05,
	"loss": 0.5415,
	"step": 530
	},
	{
	"epoch": 0.8153846153846154,
	"eval_loss": 0.6402605175971985,
	"eval_runtime": 3.249,
	"eval_samples_per_second": 35.088,
	"eval_steps_per_second": 1.847,
	"step": 530
	},
	{
	"epoch": 0.8307692307692308,
	"grad_norm": 2.4058265686035156,
	"learning_rate": 1.6615384615384618e-05,
	"loss": 0.6001,
	"step": 540
	},
	{
	"epoch": 0.8307692307692308,
	"eval_loss": 0.6381077170372009,
	"eval_runtime": 3.2304,
	"eval_samples_per_second": 35.29,
	"eval_steps_per_second": 1.857,
	"step": 540
	},
	{
	"epoch": 0.8461538461538461,
	"grad_norm": 3.1266651153564453,
	"learning_rate": 1.6923076923076924e-05,
	"loss": 0.6938,
	"step": 550
	},
	{
	"epoch": 0.8461538461538461,
	"eval_loss": 0.6406418681144714,
	"eval_runtime": 3.2645,
	"eval_samples_per_second": 34.921,
	"eval_steps_per_second": 1.838,
	"step": 550
	},
	{
	"epoch": 0.8615384615384616,
	"grad_norm": 2.09586501121521,
	"learning_rate": 1.7230769230769234e-05,
	"loss": 0.5671,
	"step": 560
	},
	{
	"epoch": 0.8615384615384616,
	"eval_loss": 0.6451361775398254,
	"eval_runtime": 3.3107,
	"eval_samples_per_second": 34.434,
	"eval_steps_per_second": 1.812,
	"step": 560
	},
	{
	"epoch": 0.8769230769230769,
	"grad_norm": 3.3246548175811768,
	"learning_rate": 1.753846153846154e-05,
	"loss": 0.5231,
	"step": 570
	},
	{
	"epoch": 0.8769230769230769,
	"eval_loss": 0.6457281708717346,
	"eval_runtime": 3.2516,
	"eval_samples_per_second": 35.059,
	"eval_steps_per_second": 1.845,
	"step": 570
	},
	{
	"epoch": 0.8923076923076924,
	"grad_norm": 1.8420376777648926,
	"learning_rate": 1.784615384615385e-05,
	"loss": 0.6566,
	"step": 580
	},
	{
	"epoch": 0.8923076923076924,
	"eval_loss": 0.6426037549972534,
	"eval_runtime": 3.2569,
	"eval_samples_per_second": 35.003,
	"eval_steps_per_second": 1.842,
	"step": 580
	},
	{
	"epoch": 0.9076923076923077,
	"grad_norm": 1.7587623596191406,
	"learning_rate": 1.8153846153846155e-05,
	"loss": 0.5607,
	"step": 590
	},
	{
	"epoch": 0.9076923076923077,
	"eval_loss": 0.6446419358253479,
	"eval_runtime": 3.2735,
	"eval_samples_per_second": 34.825,
	"eval_steps_per_second": 1.833,
	"step": 590
	},
	{
	"epoch": 0.9230769230769231,
	"grad_norm": 2.1630938053131104,
	"learning_rate": 1.8461538461538465e-05,
	"loss": 0.7058,
	"step": 600
	},
	{
	"epoch": 0.9230769230769231,
	"eval_loss": 0.6553606986999512,
	"eval_runtime": 3.2562,
	"eval_samples_per_second": 35.01,
	"eval_steps_per_second": 1.843,
	"step": 600
	},
	{
	"epoch": 0.9384615384615385,
	"grad_norm": 1.9333707094192505,
	"learning_rate": 1.876923076923077e-05,
	"loss": 0.6126,
	"step": 610
	},
	{
	"epoch": 0.9384615384615385,
	"eval_loss": 0.6482510566711426,
	"eval_runtime": 3.2568,
	"eval_samples_per_second": 35.004,
	"eval_steps_per_second": 1.842,
	"step": 610
	},
	{
	"epoch": 0.9538461538461539,
	"grad_norm": 1.994057297706604,
	"learning_rate": 1.907692307692308e-05,
	"loss": 0.6155,
	"step": 620
	},
	{
	"epoch": 0.9538461538461539,
	"eval_loss": 0.6493787169456482,
	"eval_runtime": 3.2411,
	"eval_samples_per_second": 35.174,
	"eval_steps_per_second": 1.851,
	"step": 620
	},
	{
	"epoch": 0.9692307692307692,
	"grad_norm": 2.5365986824035645,
	"learning_rate": 1.9384615384615386e-05,
	"loss": 0.5934,
	"step": 630
	},
	{
	"epoch": 0.9692307692307692,
	"eval_loss": 0.6541261076927185,
	"eval_runtime": 3.2414,
	"eval_samples_per_second": 35.17,
	"eval_steps_per_second": 1.851,
	"step": 630
	},
	{
	"epoch": 0.9846153846153847,
	"grad_norm": 2.831939697265625,
	"learning_rate": 1.9692307692307696e-05,
	"loss": 0.4716,
	"step": 640
	},
	{
	"epoch": 0.9846153846153847,
	"eval_loss": 0.6611928343772888,
	"eval_runtime": 3.2346,
	"eval_samples_per_second": 35.244,
	"eval_steps_per_second": 1.855,
	"step": 640
	},
	{
	"epoch": 1.0,
	"grad_norm": 2.3626530170440674,
	"learning_rate": 2e-05,
	"loss": 0.5363,
	"step": 650
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.6603513956069946,
	"eval_runtime": 3.238,
	"eval_samples_per_second": 35.206,
	"eval_steps_per_second": 1.853,
	"step": 650
	},
	{
	"epoch": 1.0153846153846153,
	"grad_norm": 1.5879381895065308,
	"learning_rate": 1.9999855802751384e-05,
	"loss": 0.3579,
	"step": 660
	},
	{
	"epoch": 1.0153846153846153,
	"eval_loss": 0.6978694200515747,
	"eval_runtime": 3.2447,
	"eval_samples_per_second": 35.135,
	"eval_steps_per_second": 1.849,
	"step": 660
	},
	{
	"epoch": 1.0307692307692307,
	"grad_norm": 1.9470375776290894,
	"learning_rate": 1.9999423215164105e-05,
	"loss": 0.3559,
	"step": 670
	},
	{
	"epoch": 1.0307692307692307,
	"eval_loss": 0.6810071468353271,
	"eval_runtime": 3.2514,
	"eval_samples_per_second": 35.062,
	"eval_steps_per_second": 1.845,
	"step": 670
	},
	{
	"epoch": 1.0461538461538462,
	"grad_norm": 1.9423273801803589,
	"learning_rate": 1.9998702249713747e-05,
	"loss": 0.3977,
	"step": 680
	},
	{
	"epoch": 1.0461538461538462,
	"eval_loss": 0.6764042377471924,
	"eval_runtime": 3.2336,
	"eval_samples_per_second": 35.255,
	"eval_steps_per_second": 1.856,
	"step": 680
	},
	{
	"epoch": 1.0615384615384615,
	"grad_norm": 2.47997784614563,
	"learning_rate": 1.9997692927192562e-05,
	"loss": 0.3449,
	"step": 690
	},
	{
	"epoch": 1.0615384615384615,
	"eval_loss": 0.6773045659065247,
	"eval_runtime": 3.2495,
	"eval_samples_per_second": 35.082,
	"eval_steps_per_second": 1.846,
	"step": 690
	},
	{
	"epoch": 1.0769230769230769,
	"grad_norm": 1.2528847455978394,
	"learning_rate": 1.9996395276708856e-05,
	"loss": 0.3426,
	"step": 700
	},
	{
	"epoch": 1.0769230769230769,
	"eval_loss": 0.6868980526924133,
	"eval_runtime": 3.2469,
	"eval_samples_per_second": 35.111,
	"eval_steps_per_second": 1.848,
	"step": 700
	},
	{
	"epoch": 1.0923076923076924,
	"grad_norm": 1.9821579456329346,
	"learning_rate": 1.9994809335686152e-05,
	"loss": 0.4387,
	"step": 710
	},
	{
	"epoch": 1.0923076923076924,
	"eval_loss": 0.6710843443870544,
	"eval_runtime": 3.2766,
	"eval_samples_per_second": 34.792,
	"eval_steps_per_second": 1.831,
	"step": 710
	},
	{
	"epoch": 1.1076923076923078,
	"grad_norm": 1.4338393211364746,
	"learning_rate": 1.9992935149862116e-05,
	"loss": 0.3443,
	"step": 720
	},
	{
	"epoch": 1.1076923076923078,
	"eval_loss": 0.6952248215675354,
	"eval_runtime": 3.2614,
	"eval_samples_per_second": 34.954,
	"eval_steps_per_second": 1.84,
	"step": 720
	},
	{
	"epoch": 1.123076923076923,
	"grad_norm": 1.1517648696899414,
	"learning_rate": 1.999077277328724e-05,
	"loss": 0.3484,
	"step": 730
	},
	{
	"epoch": 1.123076923076923,
	"eval_loss": 0.6964479684829712,
	"eval_runtime": 3.2521,
	"eval_samples_per_second": 35.054,
	"eval_steps_per_second": 1.845,
	"step": 730
	},
	{
	"epoch": 1.1384615384615384,
	"grad_norm": 1.650405764579773,
	"learning_rate": 1.998832226832327e-05,
	"loss": 0.4018,
	"step": 740
	},
	{
	"epoch": 1.1384615384615384,
	"eval_loss": 0.6902267932891846,
	"eval_runtime": 3.2586,
	"eval_samples_per_second": 34.984,
	"eval_steps_per_second": 1.841,
	"step": 740
	},
	{
	"epoch": 1.1538461538461537,
	"grad_norm": 2.2939112186431885,
	"learning_rate": 1.9985583705641418e-05,
	"loss": 0.3984,
	"step": 750
	},
	{
	"epoch": 1.1538461538461537,
	"eval_loss": 0.6953668594360352,
	"eval_runtime": 3.2666,
	"eval_samples_per_second": 34.899,
	"eval_steps_per_second": 1.837,
	"step": 750
	},
	{
	"epoch": 1.1692307692307693,
	"grad_norm": 1.588689923286438,
	"learning_rate": 1.9982557164220335e-05,
	"loss": 0.3423,
	"step": 760
	},
	{
	"epoch": 1.1692307692307693,
	"eval_loss": 0.6961036324501038,
	"eval_runtime": 3.2728,
	"eval_samples_per_second": 34.832,
	"eval_steps_per_second": 1.833,
	"step": 760
	},
	{
	"epoch": 1.1846153846153846,
	"grad_norm": 2.06250262260437,
	"learning_rate": 1.9979242731343803e-05,
	"loss": 0.2843,
	"step": 770
	},
	{
	"epoch": 1.1846153846153846,
	"eval_loss": 0.7108862400054932,
	"eval_runtime": 3.2657,
	"eval_samples_per_second": 34.908,
	"eval_steps_per_second": 1.837,
	"step": 770
	},
	{
	"epoch": 1.2,
	"grad_norm": 2.609130382537842,
	"learning_rate": 1.9975640502598243e-05,
	"loss": 0.3172,
	"step": 780
	},
	{
	"epoch": 1.2,
	"eval_loss": 0.6978670358657837,
	"eval_runtime": 3.2647,
	"eval_samples_per_second": 34.919,
	"eval_steps_per_second": 1.838,
	"step": 780
	},
	{
	"epoch": 1.2153846153846155,
	"grad_norm": 2.1612465381622314,
	"learning_rate": 1.9971750581869955e-05,
	"loss": 0.4031,
	"step": 790
	},
	{
	"epoch": 1.2153846153846155,
	"eval_loss": 0.7043502330780029,
	"eval_runtime": 3.2943,
	"eval_samples_per_second": 34.605,
	"eval_steps_per_second": 1.821,
	"step": 790
	},
	{
	"epoch": 1.2307692307692308,
	"grad_norm": 2.465644121170044,
	"learning_rate": 1.9967573081342103e-05,
	"loss": 0.3869,
	"step": 800
	},
	{
	"epoch": 1.2307692307692308,
	"eval_loss": 0.694877564907074,
	"eval_runtime": 3.2465,
	"eval_samples_per_second": 35.115,
	"eval_steps_per_second": 1.848,
	"step": 800
	},
	{
	"epoch": 1.2461538461538462,
	"grad_norm": 2.611905097961426,
	"learning_rate": 1.9963108121491508e-05,
	"loss": 0.3364,
	"step": 810
	},
	{
	"epoch": 1.2461538461538462,
	"eval_loss": 0.6959603428840637,
	"eval_runtime": 3.2287,
	"eval_samples_per_second": 35.309,
	"eval_steps_per_second": 1.858,
	"step": 810
	},
	{
	"epoch": 1.2615384615384615,
	"grad_norm": 2.0148117542266846,
	"learning_rate": 1.9958355831085155e-05,
	"loss": 0.3699,
	"step": 820
	},
	{
	"epoch": 1.2615384615384615,
	"eval_loss": 0.695041835308075,
	"eval_runtime": 3.2511,
	"eval_samples_per_second": 35.065,
	"eval_steps_per_second": 1.846,
	"step": 820
	},
	{
	"epoch": 1.2769230769230768,
	"grad_norm": 2.213994264602661,
	"learning_rate": 1.995331634717649e-05,
	"loss": 0.4101,
	"step": 830
	},
	{
	"epoch": 1.2769230769230768,
	"eval_loss": 0.6806493997573853,
	"eval_runtime": 3.2367,
	"eval_samples_per_second": 35.221,
	"eval_steps_per_second": 1.854,
	"step": 830
	},
	{
	"epoch": 1.2923076923076924,
	"grad_norm": 1.7559289932250977,
	"learning_rate": 1.9947989815101444e-05,
	"loss": 0.4012,
	"step": 840
	},
	{
	"epoch": 1.2923076923076924,
	"eval_loss": 0.6939857006072998,
	"eval_runtime": 3.2502,
	"eval_samples_per_second": 35.075,
	"eval_steps_per_second": 1.846,
	"step": 840
	},
	{
	"epoch": 1.3076923076923077,
	"grad_norm": 0.8075680136680603,
	"learning_rate": 1.9942376388474282e-05,
	"loss": 0.3202,
	"step": 850
	},
	{
	"epoch": 1.3076923076923077,
	"eval_loss": 0.7051680684089661,
	"eval_runtime": 3.2612,
	"eval_samples_per_second": 34.956,
	"eval_steps_per_second": 1.84,
	"step": 850
	},
	{
	"epoch": 1.323076923076923,
	"grad_norm": 1.8492660522460938,
	"learning_rate": 1.9936476229183133e-05,
	"loss": 0.3985,
	"step": 860
	},
	{
	"epoch": 1.323076923076923,
	"eval_loss": 0.6843434572219849,
	"eval_runtime": 3.2739,
	"eval_samples_per_second": 34.821,
	"eval_steps_per_second": 1.833,
	"step": 860
	},
	{
	"epoch": 1.3384615384615386,
	"grad_norm": 1.6737396717071533,
	"learning_rate": 1.9930289507385344e-05,
	"loss": 0.4244,
	"step": 870
	},
	{
	"epoch": 1.3384615384615386,
	"eval_loss": 0.6972203254699707,
	"eval_runtime": 3.2498,
	"eval_samples_per_second": 35.079,
	"eval_steps_per_second": 1.846,
	"step": 870
	},
	{
	"epoch": 1.353846153846154,
	"grad_norm": 2.5821003913879395,
	"learning_rate": 1.992381640150257e-05,
	"loss": 0.3924,
	"step": 880
	},
	{
	"epoch": 1.353846153846154,
	"eval_loss": 0.6854589581489563,
	"eval_runtime": 3.2524,
	"eval_samples_per_second": 35.051,
	"eval_steps_per_second": 1.845,
	"step": 880
	},
	{
	"epoch": 1.3692307692307693,
	"grad_norm": 1.248367428779602,
	"learning_rate": 1.9917057098215624e-05,
	"loss": 0.3659,
	"step": 890
	},
	{
	"epoch": 1.3692307692307693,
	"eval_loss": 0.6994220614433289,
	"eval_runtime": 3.2745,
	"eval_samples_per_second": 34.814,
	"eval_steps_per_second": 1.832,
	"step": 890
	},
	{
	"epoch": 1.3846153846153846,
	"grad_norm": 0.9339770674705505,
	"learning_rate": 1.9910011792459086e-05,
	"loss": 0.309,
	"step": 900
	},
	{
	"epoch": 1.3846153846153846,
	"eval_loss": 0.7046116590499878,
	"eval_runtime": 3.2642,
	"eval_samples_per_second": 34.924,
	"eval_steps_per_second": 1.838,
	"step": 900
	},
	{
	"epoch": 1.4,
	"grad_norm": 27.820077896118164,
	"learning_rate": 1.9902680687415704e-05,
	"loss": 0.3788,
	"step": 910
	},
	{
	"epoch": 1.4,
	"eval_loss": 0.6996982097625732,
	"eval_runtime": 3.2777,
	"eval_samples_per_second": 34.781,
	"eval_steps_per_second": 1.831,
	"step": 910
	},
	{
	"epoch": 1.4153846153846155,
	"grad_norm": 2.5190956592559814,
	"learning_rate": 1.9895063994510512e-05,
	"loss": 0.3372,
	"step": 920
	},
	{
	"epoch": 1.4153846153846155,
	"eval_loss": 0.7020460963249207,
	"eval_runtime": 3.242,
	"eval_samples_per_second": 35.164,
	"eval_steps_per_second": 1.851,
	"step": 920
	},
	{
	"epoch": 1.4307692307692308,
	"grad_norm": 1.8096344470977783,
	"learning_rate": 1.9887161933404743e-05,
	"loss": 0.3812,
	"step": 930
	},
	{
	"epoch": 1.4307692307692308,
	"eval_loss": 0.6968725323677063,
	"eval_runtime": 3.3598,
	"eval_samples_per_second": 33.93,
	"eval_steps_per_second": 1.786,
	"step": 930
	},
	{
	"epoch": 1.4461538461538461,
	"grad_norm": 1.8657336235046387,
	"learning_rate": 1.9878974731989487e-05,
	"loss": 0.414,
	"step": 940
	},
	{
	"epoch": 1.4461538461538461,
	"eval_loss": 0.6909111142158508,
	"eval_runtime": 3.2552,
	"eval_samples_per_second": 35.021,
	"eval_steps_per_second": 1.843,
	"step": 940
	},
	{
	"epoch": 1.4615384615384617,
	"grad_norm": 2.4143567085266113,
	"learning_rate": 1.9870502626379127e-05,
	"loss": 0.3813,
	"step": 950
	},
	{
	"epoch": 1.4615384615384617,
	"eval_loss": 0.6953186392784119,
	"eval_runtime": 3.2929,
	"eval_samples_per_second": 34.619,
	"eval_steps_per_second": 1.822,
	"step": 950
	},
	{
	"epoch": 1.476923076923077,
	"grad_norm": 2.3205642700195312,
	"learning_rate": 1.9861745860904538e-05,
	"loss": 0.3701,
	"step": 960
	},
	{
	"epoch": 1.476923076923077,
	"eval_loss": 0.695374608039856,
	"eval_runtime": 3.2455,
	"eval_samples_per_second": 35.126,
	"eval_steps_per_second": 1.849,
	"step": 960
	},
	{
	"epoch": 1.4923076923076923,
	"grad_norm": 1.55659818649292,
	"learning_rate": 1.9852704688106003e-05,
	"loss": 0.3437,
	"step": 970
	},
	{
	"epoch": 1.4923076923076923,
	"eval_loss": 0.7013147473335266,
	"eval_runtime": 3.2638,
	"eval_samples_per_second": 34.929,
	"eval_steps_per_second": 1.838,
	"step": 970
	},
	{
	"epoch": 1.5076923076923077,
	"grad_norm": 2.180811882019043,
	"learning_rate": 1.9843379368725978e-05,
	"loss": 0.3343,
	"step": 980
	},
	{
	"epoch": 1.5076923076923077,
	"eval_loss": 0.7043299078941345,
	"eval_runtime": 3.2392,
	"eval_samples_per_second": 35.194,
	"eval_steps_per_second": 1.852,
	"step": 980
	},
	{
	"epoch": 1.523076923076923,
	"grad_norm": 1.474899411201477,
	"learning_rate": 1.983377017170154e-05,
	"loss": 0.3601,
	"step": 990
	},
	{
	"epoch": 1.523076923076923,
	"eval_loss": 0.6996614336967468,
	"eval_runtime": 3.2475,
	"eval_samples_per_second": 35.104,
	"eval_steps_per_second": 1.848,
	"step": 990
	},
	{
	"epoch": 1.5384615384615383,
	"grad_norm": 1.9230364561080933,
	"learning_rate": 1.9823877374156647e-05,
	"loss": 0.3752,
	"step": 1000
	},
	{
	"epoch": 1.5384615384615383,
	"eval_loss": 0.6967916488647461,
	"eval_runtime": 3.2278,
	"eval_samples_per_second": 35.318,
	"eval_steps_per_second": 1.859,
	"step": 1000
	},
	{
	"epoch": 1.5538461538461539,
	"grad_norm": 1.0019750595092773,
	"learning_rate": 1.9813701261394136e-05,
	"loss": 0.3406,
	"step": 1010
	},
	{
	"epoch": 1.5538461538461539,
	"eval_loss": 0.6963152885437012,
	"eval_runtime": 3.2442,
	"eval_samples_per_second": 35.14,
	"eval_steps_per_second": 1.849,
	"step": 1010
	},
	{
	"epoch": 1.5692307692307692,
	"grad_norm": 1.7724684476852417,
	"learning_rate": 1.9803242126887496e-05,
	"loss": 0.4573,
	"step": 1020
	},
	{
	"epoch": 1.5692307692307692,
	"eval_loss": 0.7392306327819824,
	"eval_runtime": 3.2664,
	"eval_samples_per_second": 34.901,
	"eval_steps_per_second": 1.837,
	"step": 1020
	},
	{
	"epoch": 1.5846153846153848,
	"grad_norm": 1.7095409631729126,
	"learning_rate": 1.979250027227241e-05,
	"loss": 0.3882,
	"step": 1030
	},
	{
	"epoch": 1.5846153846153848,
	"eval_loss": 0.708345890045166,
	"eval_runtime": 3.276,
	"eval_samples_per_second": 34.799,
	"eval_steps_per_second": 1.832,
	"step": 1030
	},
	{
	"epoch": 1.6,
	"grad_norm": 1.9319413900375366,
	"learning_rate": 1.9781476007338058e-05,
	"loss": 0.3933,
	"step": 1040
	},
	{
	"epoch": 1.6,
	"eval_loss": 0.697462797164917,
	"eval_runtime": 3.243,
	"eval_samples_per_second": 35.153,
	"eval_steps_per_second": 1.85,
	"step": 1040
	},
	{
	"epoch": 1.6153846153846154,
	"grad_norm": 1.8260385990142822,
	"learning_rate": 1.977016965001817e-05,
	"loss": 0.427,
	"step": 1050
	},
	{
	"epoch": 1.6153846153846154,
	"eval_loss": 0.6899636387825012,
	"eval_runtime": 3.2481,
	"eval_samples_per_second": 35.098,
	"eval_steps_per_second": 1.847,
	"step": 1050
	},
	{
	"epoch": 1.6307692307692307,
	"grad_norm": 1.6716266870498657,
	"learning_rate": 1.9758581526381878e-05,
	"loss": 0.3436,
	"step": 1060
	},
	{
	"epoch": 1.6307692307692307,
	"eval_loss": 0.6924691200256348,
	"eval_runtime": 3.2562,
	"eval_samples_per_second": 35.01,
	"eval_steps_per_second": 1.843,
	"step": 1060
	},
	{
	"epoch": 1.646153846153846,
	"grad_norm": 0.8898760080337524,
	"learning_rate": 1.9746711970624282e-05,
	"loss": 0.3802,
	"step": 1070
	},
	{
	"epoch": 1.646153846153846,
	"eval_loss": 0.7017173171043396,
	"eval_runtime": 3.2449,
	"eval_samples_per_second": 35.132,
	"eval_steps_per_second": 1.849,
	"step": 1070
	},
	{
	"epoch": 1.6615384615384614,
	"grad_norm": 1.6189157962799072,
	"learning_rate": 1.973456132505684e-05,
	"loss": 0.3668,
	"step": 1080
	},
	{
	"epoch": 1.6615384615384614,
	"eval_loss": 0.6917209029197693,
	"eval_runtime": 3.2318,
	"eval_samples_per_second": 35.275,
	"eval_steps_per_second": 1.857,
	"step": 1080
	},
	{
	"epoch": 1.676923076923077,
	"grad_norm": 1.77718985080719,
	"learning_rate": 1.972212994009749e-05,
	"loss": 0.3996,
	"step": 1090
	},
	{
	"epoch": 1.676923076923077,
	"eval_loss": 0.6930002570152283,
	"eval_runtime": 3.2419,
	"eval_samples_per_second": 35.165,
	"eval_steps_per_second": 1.851,
	"step": 1090
	},
	{
	"epoch": 1.6923076923076923,
	"grad_norm": 1.6316412687301636,
	"learning_rate": 1.9709418174260523e-05,
	"loss": 0.4447,
	"step": 1100
	},
	{
	"epoch": 1.6923076923076923,
	"eval_loss": 0.6898515820503235,
	"eval_runtime": 3.2294,
	"eval_samples_per_second": 35.3,
	"eval_steps_per_second": 1.858,
	"step": 1100
	},
	{
	"epoch": 1.7076923076923078,
	"grad_norm": 1.2730180025100708,
	"learning_rate": 1.9696426394146278e-05,
	"loss": 0.4221,
	"step": 1110
	},
	{
	"epoch": 1.7076923076923078,
	"eval_loss": 0.693137526512146,
	"eval_runtime": 3.23,
	"eval_samples_per_second": 35.294,
	"eval_steps_per_second": 1.858,
	"step": 1110
	},
	{
	"epoch": 1.7230769230769232,
	"grad_norm": 2.3808021545410156,
	"learning_rate": 1.9683154974430544e-05,
	"loss": 0.3271,
	"step": 1120
	},
	{
	"epoch": 1.7230769230769232,
	"eval_loss": 0.6987683773040771,
	"eval_runtime": 3.2399,
	"eval_samples_per_second": 35.186,
	"eval_steps_per_second": 1.852,
	"step": 1120
	},
	{
	"epoch": 1.7384615384615385,
	"grad_norm": 2.563812017440796,
	"learning_rate": 1.9669604297853766e-05,
	"loss": 0.3751,
	"step": 1130
	},
	{
	"epoch": 1.7384615384615385,
	"eval_loss": 0.6946467161178589,
	"eval_runtime": 3.2296,
	"eval_samples_per_second": 35.299,
	"eval_steps_per_second": 1.858,
	"step": 1130
	},
	{
	"epoch": 1.7538461538461538,
	"grad_norm": 1.6859829425811768,
	"learning_rate": 1.965577475520999e-05,
	"loss": 0.3433,
	"step": 1140
	},
	{
	"epoch": 1.7538461538461538,
	"eval_loss": 0.6889815926551819,
	"eval_runtime": 3.2391,
	"eval_samples_per_second": 35.195,
	"eval_steps_per_second": 1.852,
	"step": 1140
	},
	{
	"epoch": 1.7692307692307692,
	"grad_norm": 1.8283382654190063,
	"learning_rate": 1.9641666745335626e-05,
	"loss": 0.419,
	"step": 1150
	},
	{
	"epoch": 1.7692307692307692,
	"eval_loss": 0.6913794875144958,
	"eval_runtime": 3.2283,
	"eval_samples_per_second": 35.313,
	"eval_steps_per_second": 1.859,
	"step": 1150
	},
	{
	"epoch": 1.7846153846153845,
	"grad_norm": 1.826407551765442,
	"learning_rate": 1.962728067509791e-05,
	"loss": 0.3423,
	"step": 1160
	},
	{
	"epoch": 1.7846153846153845,
	"eval_loss": 0.692046046257019,
	"eval_runtime": 3.2427,
	"eval_samples_per_second": 35.156,
	"eval_steps_per_second": 1.85,
	"step": 1160
	},
	{
	"epoch": 1.8,
	"grad_norm": 1.4921714067459106,
	"learning_rate": 1.961261695938319e-05,
	"loss": 0.3351,
	"step": 1170
	},
	{
	"epoch": 1.8,
	"eval_loss": 0.7031008005142212,
	"eval_runtime": 3.249,
	"eval_samples_per_second": 35.088,
	"eval_steps_per_second": 1.847,
	"step": 1170
	},
	{
	"epoch": 1.8153846153846154,
	"grad_norm": 2.1426408290863037,
	"learning_rate": 1.9597676021084962e-05,
	"loss": 0.3521,
	"step": 1180
	},
	{
	"epoch": 1.8153846153846154,
	"eval_loss": 0.6923142671585083,
	"eval_runtime": 3.2308,
	"eval_samples_per_second": 35.286,
	"eval_steps_per_second": 1.857,
	"step": 1180
	},
	{
	"epoch": 1.830769230769231,
	"grad_norm": 1.8514198064804077,
	"learning_rate": 1.9582458291091664e-05,
	"loss": 0.454,
	"step": 1190
	},
	{
	"epoch": 1.830769230769231,
	"eval_loss": 0.6877439022064209,
	"eval_runtime": 3.2342,
	"eval_samples_per_second": 35.248,
	"eval_steps_per_second": 1.855,
	"step": 1190
	},
	{
	"epoch": 1.8461538461538463,
	"grad_norm": 2.015425205230713,
	"learning_rate": 1.9566964208274254e-05,
	"loss": 0.3908,
	"step": 1200
	},
	{
	"epoch": 1.8461538461538463,
	"eval_loss": 0.6943904161453247,
	"eval_runtime": 3.2272,
	"eval_samples_per_second": 35.324,
	"eval_steps_per_second": 1.859,
	"step": 1200
	},
	{
	"epoch": 1.8615384615384616,
	"grad_norm": 1.4284974336624146,
	"learning_rate": 1.9551194219473552e-05,
	"loss": 0.3538,
	"step": 1210
	},
	{
	"epoch": 1.8615384615384616,
	"eval_loss": 0.6958539485931396,
	"eval_runtime": 3.2638,
	"eval_samples_per_second": 34.929,
	"eval_steps_per_second": 1.838,
	"step": 1210
	},
	{
	"epoch": 1.876923076923077,
	"grad_norm": 2.42622447013855,
	"learning_rate": 1.9535148779487365e-05,
	"loss": 0.28,
	"step": 1220
	},
	{
	"epoch": 1.876923076923077,
	"eval_loss": 0.7015026211738586,
	"eval_runtime": 3.2491,
	"eval_samples_per_second": 35.086,
	"eval_steps_per_second": 1.847,
	"step": 1220
	},
	{
	"epoch": 1.8923076923076922,
	"grad_norm": 1.8617641925811768,
	"learning_rate": 1.9518828351057345e-05,
	"loss": 0.4324,
	"step": 1230
	},
	{
	"epoch": 1.8923076923076922,
	"eval_loss": 0.6908020377159119,
	"eval_runtime": 3.2376,
	"eval_samples_per_second": 35.211,
	"eval_steps_per_second": 1.853,
	"step": 1230
	},
	{
	"epoch": 1.9076923076923076,
	"grad_norm": 1.7121613025665283,
	"learning_rate": 1.9502233404855672e-05,
	"loss": 0.3713,
	"step": 1240
	},
	{
	"epoch": 1.9076923076923076,
	"eval_loss": 0.703855574131012,
	"eval_runtime": 3.2355,
	"eval_samples_per_second": 35.234,
	"eval_steps_per_second": 1.854,
	"step": 1240
	},
	{
	"epoch": 1.9230769230769231,
	"grad_norm": 2.0595622062683105,
	"learning_rate": 1.9485364419471454e-05,
	"loss": 0.4456,
	"step": 1250
	},
	{
	"epoch": 1.9230769230769231,
	"eval_loss": 0.686195433139801,
	"eval_runtime": 3.2266,
	"eval_samples_per_second": 35.331,
	"eval_steps_per_second": 1.86,
	"step": 1250
	},
	{
	"epoch": 1.9384615384615385,
	"grad_norm": 1.9807814359664917,
	"learning_rate": 1.946822188139696e-05,
	"loss": 0.2958,
	"step": 1260
	},
	{
	"epoch": 1.9384615384615385,
	"eval_loss": 0.6912775039672852,
	"eval_runtime": 3.2509,
	"eval_samples_per_second": 35.067,
	"eval_steps_per_second": 1.846,
	"step": 1260
	},
	{
	"epoch": 1.953846153846154,
	"grad_norm": 1.8224427700042725,
	"learning_rate": 1.945080628501355e-05,
	"loss": 0.3876,
	"step": 1270
	},
	{
	"epoch": 1.953846153846154,
	"eval_loss": 0.6861458420753479,
	"eval_runtime": 3.2739,
	"eval_samples_per_second": 34.82,
	"eval_steps_per_second": 1.833,
	"step": 1270
	},
	{
	"epoch": 1.9692307692307693,
	"grad_norm": 2.107452630996704,
	"learning_rate": 1.9433118132577432e-05,
	"loss": 0.3748,
	"step": 1280
	},
	{
	"epoch": 1.9692307692307693,
	"eval_loss": 0.6867597699165344,
	"eval_runtime": 3.2581,
	"eval_samples_per_second": 34.99,
	"eval_steps_per_second": 1.842,
	"step": 1280
	},
	{
	"epoch": 1.9846153846153847,
	"grad_norm": 5.972170352935791,
	"learning_rate": 1.94151579342052e-05,
	"loss": 0.4297,
	"step": 1290
	},
	{
	"epoch": 1.9846153846153847,
	"eval_loss": 1.595029354095459,
	"eval_runtime": 3.2512,
	"eval_samples_per_second": 35.064,
	"eval_steps_per_second": 1.845,
	"step": 1290
	},
	{
	"epoch": 2.0,
	"grad_norm": 1.460162878036499,
	"learning_rate": 1.9396926207859085e-05,
	"loss": 0.6569,
	"step": 1300
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.7044022083282471,
	"eval_runtime": 3.2342,
	"eval_samples_per_second": 35.248,
	"eval_steps_per_second": 1.855,
	"step": 1300
	},
	{
	"epoch": 2.0153846153846153,
	"grad_norm": 1.5906578302383423,
	"learning_rate": 1.9378423479332045e-05,
	"loss": 0.2524,
	"step": 1310
	},
	{
	"epoch": 2.0153846153846153,
	"eval_loss": 0.7527978420257568,
	"eval_runtime": 3.2369,
	"eval_samples_per_second": 35.218,
	"eval_steps_per_second": 1.854,
	"step": 1310
	},
	{
	"epoch": 2.0307692307692307,
	"grad_norm": 1.2187044620513916,
	"learning_rate": 1.935965028223259e-05,
	"loss": 0.1678,
	"step": 1320
	},
	{
	"epoch": 2.0307692307692307,
	"eval_loss": 0.7567086219787598,
	"eval_runtime": 3.2521,
	"eval_samples_per_second": 35.054,
	"eval_steps_per_second": 1.845,
	"step": 1320
	},
	{
	"epoch": 2.046153846153846,
	"grad_norm": 0.984000563621521,
	"learning_rate": 1.9340607157969393e-05,
	"loss": 0.219,
	"step": 1330
	},
	{
	"epoch": 2.046153846153846,
	"eval_loss": 0.7520028948783875,
	"eval_runtime": 3.2487,
	"eval_samples_per_second": 35.091,
	"eval_steps_per_second": 1.847,
	"step": 1330
	},
	{
	"epoch": 2.0615384615384613,
	"grad_norm": 1.2751810550689697,
	"learning_rate": 1.932129465573568e-05,
	"loss": 0.2095,
	"step": 1340
	},
	{
	"epoch": 2.0615384615384613,
	"eval_loss": 0.739636242389679,
	"eval_runtime": 3.2269,
	"eval_samples_per_second": 35.328,
	"eval_steps_per_second": 1.859,
	"step": 1340
	},
	{
	"epoch": 2.076923076923077,
	"grad_norm": 1.4136130809783936,
	"learning_rate": 1.9301713332493386e-05,
	"loss": 0.1668,
	"step": 1350
	},
	{
	"epoch": 2.076923076923077,
	"eval_loss": 0.7536832690238953,
	"eval_runtime": 3.2417,
	"eval_samples_per_second": 35.167,
	"eval_steps_per_second": 1.851,
	"step": 1350
	},
	{
	"epoch": 2.0923076923076924,
	"grad_norm": 1.7586925029754639,
	"learning_rate": 1.9281863752957095e-05,
	"loss": 0.2118,
	"step": 1360
	},
	{
	"epoch": 2.0923076923076924,
	"eval_loss": 0.7858787775039673,
	"eval_runtime": 3.2321,
	"eval_samples_per_second": 35.271,
	"eval_steps_per_second": 1.856,
	"step": 1360
	},
	{
	"epoch": 2.1076923076923078,
	"grad_norm": 1.9954192638397217,
	"learning_rate": 1.9261746489577767e-05,
	"loss": 0.1911,
	"step": 1370
	},
	{
	"epoch": 2.1076923076923078,
	"eval_loss": 0.7683790922164917,
	"eval_runtime": 3.2187,
	"eval_samples_per_second": 35.418,
	"eval_steps_per_second": 1.864,
	"step": 1370
	},
	{
	"epoch": 2.123076923076923,
	"grad_norm": 1.311628818511963,
	"learning_rate": 1.92413621225262e-05,
	"loss": 0.1894,
	"step": 1380
	},
	{
	"epoch": 2.123076923076923,
	"eval_loss": 0.8233888745307922,
	"eval_runtime": 3.2593,
	"eval_samples_per_second": 34.977,
	"eval_steps_per_second": 1.841,
	"step": 1380
	},
	{
	"epoch": 2.1384615384615384,
	"grad_norm": 1.3510133028030396,
	"learning_rate": 1.9220711239676325e-05,
	"loss": 0.2001,
	"step": 1390
	},
	{
	"epoch": 2.1384615384615384,
	"eval_loss": 0.7833328247070312,
	"eval_runtime": 3.2388,
	"eval_samples_per_second": 35.198,
	"eval_steps_per_second": 1.853,
	"step": 1390
	},
	{
	"epoch": 2.1538461538461537,
	"grad_norm": 1.1844192743301392,
	"learning_rate": 1.9199794436588244e-05,
	"loss": 0.2078,
	"step": 1400
	},
	{
	"epoch": 2.1538461538461537,
	"eval_loss": 0.7819744348526001,
	"eval_runtime": 3.2322,
	"eval_samples_per_second": 35.27,
	"eval_steps_per_second": 1.856,
	"step": 1400
	},
	{
	"epoch": 2.169230769230769,
	"grad_norm": 1.4540330171585083,
	"learning_rate": 1.917861231649104e-05,
	"loss": 0.2046,
	"step": 1410
	},
	{
	"epoch": 2.169230769230769,
	"eval_loss": 0.7777317762374878,
	"eval_runtime": 3.3497,
	"eval_samples_per_second": 34.033,
	"eval_steps_per_second": 1.791,
	"step": 1410
	},
	{
	"epoch": 2.184615384615385,
	"grad_norm": 2.100379467010498,
	"learning_rate": 1.915716549026541e-05,
	"loss": 0.2192,
	"step": 1420
	},
	{
	"epoch": 2.184615384615385,
	"eval_loss": 0.7560202479362488,
	"eval_runtime": 3.2536,
	"eval_samples_per_second": 35.038,
	"eval_steps_per_second": 1.844,
	"step": 1420
	},
	{
	"epoch": 2.2,
	"grad_norm": 1.1869295835494995,
	"learning_rate": 1.913545457642601e-05,
	"loss": 0.2055,
	"step": 1430
	},
	{
	"epoch": 2.2,
	"eval_loss": 0.7658796906471252,
	"eval_runtime": 3.2561,
	"eval_samples_per_second": 35.011,
	"eval_steps_per_second": 1.843,
	"step": 1430
	},
	{
	"epoch": 2.2153846153846155,
	"grad_norm": 1.143850564956665,
	"learning_rate": 1.9113480201103658e-05,
	"loss": 0.2003,
	"step": 1440
	},
	{
	"epoch": 2.2153846153846155,
	"eval_loss": 0.7692248821258545,
	"eval_runtime": 3.2573,
	"eval_samples_per_second": 34.998,
	"eval_steps_per_second": 1.842,
	"step": 1440
	},
	{
	"epoch": 2.230769230769231,
	"grad_norm": 1.4219717979431152,
	"learning_rate": 1.909124299802724e-05,
	"loss": 0.1882,
	"step": 1450
	},
	{
	"epoch": 2.230769230769231,
	"eval_loss": 0.7854686975479126,
	"eval_runtime": 3.2376,
	"eval_samples_per_second": 35.211,
	"eval_steps_per_second": 1.853,
	"step": 1450
	},
	{
	"epoch": 2.246153846153846,
	"grad_norm": 1.727668046951294,
	"learning_rate": 1.9068743608505454e-05,
	"loss": 0.2081,
	"step": 1460
	},
	{
	"epoch": 2.246153846153846,
	"eval_loss": 0.7837368249893188,
	"eval_runtime": 3.2688,
	"eval_samples_per_second": 34.875,
	"eval_steps_per_second": 1.836,
	"step": 1460
	},
	{
	"epoch": 2.2615384615384615,
	"grad_norm": 1.9428791999816895,
	"learning_rate": 1.9045982681408324e-05,
	"loss": 0.2031,
	"step": 1470
	},
	{
	"epoch": 2.2615384615384615,
	"eval_loss": 0.7683539390563965,
	"eval_runtime": 3.2316,
	"eval_samples_per_second": 35.277,
	"eval_steps_per_second": 1.857,
	"step": 1470
	},
	{
	"epoch": 2.276923076923077,
	"grad_norm": 1.5166252851486206,
	"learning_rate": 1.902296087314845e-05,
	"loss": 0.1919,
	"step": 1480
	},
	{
	"epoch": 2.276923076923077,
	"eval_loss": 0.7894486784934998,
	"eval_runtime": 3.2275,
	"eval_samples_per_second": 35.321,
	"eval_steps_per_second": 1.859,
	"step": 1480
	},
	{
	"epoch": 2.292307692307692,
	"grad_norm": 1.368630290031433,
	"learning_rate": 1.8999678847662124e-05,
	"loss": 0.1998,
	"step": 1490
	},
	{
	"epoch": 2.292307692307692,
	"eval_loss": 0.7855644226074219,
	"eval_runtime": 3.2357,
	"eval_samples_per_second": 35.232,
	"eval_steps_per_second": 1.854,
	"step": 1490
	},
	{
	"epoch": 2.3076923076923075,
	"grad_norm": 0.9620829820632935,
	"learning_rate": 1.8976137276390145e-05,
	"loss": 0.2139,
	"step": 1500
	},
	{
	"epoch": 2.3076923076923075,
	"eval_loss": 0.797519326210022,
	"eval_runtime": 3.2212,
	"eval_samples_per_second": 35.39,
	"eval_steps_per_second": 1.863,
	"step": 1500
	},
	{
	"epoch": 2.3230769230769233,
	"grad_norm": 1.0639945268630981,
	"learning_rate": 1.895233683825847e-05,
	"loss": 0.2164,
	"step": 1510
	},
	{
	"epoch": 2.3230769230769233,
	"eval_loss": 0.7683231234550476,
	"eval_runtime": 3.2416,
	"eval_samples_per_second": 35.168,
	"eval_steps_per_second": 1.851,
	"step": 1510
	},
	{
	"epoch": 2.3384615384615386,
	"grad_norm": 2.229300022125244,
	"learning_rate": 1.892827821965864e-05,
	"loss": 0.188,
	"step": 1520
	},
	{
	"epoch": 2.3384615384615386,
	"eval_loss": 0.7734756469726562,
	"eval_runtime": 3.239,
	"eval_samples_per_second": 35.196,
	"eval_steps_per_second": 1.852,
	"step": 1520
	},
	{
	"epoch": 2.353846153846154,
	"grad_norm": 1.2442930936813354,
	"learning_rate": 1.8903962114427985e-05,
	"loss": 0.1762,
	"step": 1530
	},
	{
	"epoch": 2.353846153846154,
	"eval_loss": 0.7807677984237671,
	"eval_runtime": 3.2321,
	"eval_samples_per_second": 35.272,
	"eval_steps_per_second": 1.856,
	"step": 1530
	},
	{
	"epoch": 2.3692307692307693,
	"grad_norm": 0.7546485066413879,
	"learning_rate": 1.8879389223829592e-05,
	"loss": 0.1933,
	"step": 1540
	},
	{
	"epoch": 2.3692307692307693,
	"eval_loss": 0.7788336277008057,
	"eval_runtime": 3.234,
	"eval_samples_per_second": 35.25,
	"eval_steps_per_second": 1.855,
	"step": 1540
	},
	{
	"epoch": 2.3846153846153846,
	"grad_norm": 1.6050472259521484,
	"learning_rate": 1.8854560256532098e-05,
	"loss": 0.2,
	"step": 1550
	},
	{
	"epoch": 2.3846153846153846,
	"eval_loss": 0.7777507305145264,
	"eval_runtime": 3.2303,
	"eval_samples_per_second": 35.291,
	"eval_steps_per_second": 1.857,
	"step": 1550
	},
	{
	"epoch": 2.4,
	"grad_norm": 1.6613671779632568,
	"learning_rate": 1.8829475928589272e-05,
	"loss": 0.1959,
	"step": 1560
	},
	{
	"epoch": 2.4,
	"eval_loss": 0.7840877175331116,
	"eval_runtime": 3.2313,
	"eval_samples_per_second": 35.28,
	"eval_steps_per_second": 1.857,
	"step": 1560
	},
	{
	"epoch": 2.4153846153846152,
	"grad_norm": 1.127969741821289,
	"learning_rate": 1.8804136963419316e-05,
	"loss": 0.1791,
	"step": 1570
	},
	{
	"epoch": 2.4153846153846152,
	"eval_loss": 0.787642776966095,
	"eval_runtime": 3.2339,
	"eval_samples_per_second": 35.251,
	"eval_steps_per_second": 1.855,
	"step": 1570
	},
	{
	"epoch": 2.430769230769231,
	"grad_norm": 1.0740890502929688,
	"learning_rate": 1.8778544091784047e-05,
	"loss": 0.1952,
	"step": 1580
	},
	{
	"epoch": 2.430769230769231,
	"eval_loss": 0.7895064949989319,
	"eval_runtime": 3.2507,
	"eval_samples_per_second": 35.069,
	"eval_steps_per_second": 1.846,
	"step": 1580
	},
	{
	"epoch": 2.4461538461538463,
	"grad_norm": 1.3111459016799927,
	"learning_rate": 1.87526980517678e-05,
	"loss": 0.2019,
	"step": 1590
	},
	{
	"epoch": 2.4461538461538463,
	"eval_loss": 0.7794804573059082,
	"eval_runtime": 3.2322,
	"eval_samples_per_second": 35.27,
	"eval_steps_per_second": 1.856,
	"step": 1590
	},
	{
	"epoch": 2.4615384615384617,
	"grad_norm": 1.7549346685409546,
	"learning_rate": 1.8726599588756144e-05,
	"loss": 0.1857,
	"step": 1600
	},
	{
	"epoch": 2.4615384615384617,
	"eval_loss": 0.7962229251861572,
	"eval_runtime": 3.2309,
	"eval_samples_per_second": 35.285,
	"eval_steps_per_second": 1.857,
	"step": 1600
	},
	{
	"epoch": 2.476923076923077,
	"grad_norm": 1.6596492528915405,
	"learning_rate": 1.8700249455414394e-05,
	"loss": 0.2058,
	"step": 1610
	},
	{
	"epoch": 2.476923076923077,
	"eval_loss": 0.785554051399231,
	"eval_runtime": 3.2375,
	"eval_samples_per_second": 35.212,
	"eval_steps_per_second": 1.853,
	"step": 1610
	},
	{
	"epoch": 2.4923076923076923,
	"grad_norm": 1.5621322393417358,
	"learning_rate": 1.8673648411665895e-05,
	"loss": 0.1946,
	"step": 1620
	},
	{
	"epoch": 2.4923076923076923,
	"eval_loss": 0.7949020266532898,
	"eval_runtime": 3.2269,
	"eval_samples_per_second": 35.328,
	"eval_steps_per_second": 1.859,
	"step": 1620
	},
	{
	"epoch": 2.5076923076923077,
	"grad_norm": 2.000927686691284,
	"learning_rate": 1.864679722467011e-05,
	"loss": 0.1984,
	"step": 1630
	},
	{
	"epoch": 2.5076923076923077,
	"eval_loss": 0.791332483291626,
	"eval_runtime": 3.2389,
	"eval_samples_per_second": 35.197,
	"eval_steps_per_second": 1.852,
	"step": 1630
	},
	{
	"epoch": 2.523076923076923,
	"grad_norm": 1.7056845426559448,
	"learning_rate": 1.8619696668800494e-05,
	"loss": 0.2212,
	"step": 1640
	},
	{
	"epoch": 2.523076923076923,
	"eval_loss": 0.7772064805030823,
	"eval_runtime": 3.2441,
	"eval_samples_per_second": 35.14,
	"eval_steps_per_second": 1.849,
	"step": 1640
	},
	{
	"epoch": 2.5384615384615383,
	"grad_norm": 1.5976656675338745,
	"learning_rate": 1.859234752562217e-05,
	"loss": 0.1901,
	"step": 1650
	},
	{
	"epoch": 2.5384615384615383,
	"eval_loss": 0.7850207686424255,
	"eval_runtime": 3.2221,
	"eval_samples_per_second": 35.38,
	"eval_steps_per_second": 1.862,
	"step": 1650
	},
	{
	"epoch": 2.5538461538461537,
	"grad_norm": 1.0322597026824951,
	"learning_rate": 1.8564750583869374e-05,
	"loss": 0.2185,
	"step": 1660
	},
	{
	"epoch": 2.5538461538461537,
	"eval_loss": 0.7930358648300171,
	"eval_runtime": 3.2427,
	"eval_samples_per_second": 35.156,
	"eval_steps_per_second": 1.85,
	"step": 1660
	},
	{
	"epoch": 2.569230769230769,
	"grad_norm": 1.1539405584335327,
	"learning_rate": 1.8536906639422724e-05,
	"loss": 0.2056,
	"step": 1670
	},
	{
	"epoch": 2.569230769230769,
	"eval_loss": 0.7705276012420654,
	"eval_runtime": 3.2511,
	"eval_samples_per_second": 35.065,
	"eval_steps_per_second": 1.846,
	"step": 1670
	},
	{
	"epoch": 2.5846153846153848,
	"grad_norm": 1.2852847576141357,
	"learning_rate": 1.850881649528625e-05,
	"loss": 0.2031,
	"step": 1680
	},
	{
	"epoch": 2.5846153846153848,
	"eval_loss": 0.7809199094772339,
	"eval_runtime": 3.2419,
	"eval_samples_per_second": 35.164,
	"eval_steps_per_second": 1.851,
	"step": 1680
	},
	{
	"epoch": 2.6,
	"grad_norm": 2.8470299243927,
	"learning_rate": 1.848048096156426e-05,
	"loss": 0.207,
	"step": 1690
	},
	{
	"epoch": 2.6,
	"eval_loss": 0.7837203145027161,
	"eval_runtime": 3.2437,
	"eval_samples_per_second": 35.145,
	"eval_steps_per_second": 1.85,
	"step": 1690
	},
	{
	"epoch": 2.6153846153846154,
	"grad_norm": 1.169309139251709,
	"learning_rate": 1.845190085543795e-05,
	"loss": 0.1924,
	"step": 1700
	},
	{
	"epoch": 2.6153846153846154,
	"eval_loss": 0.8024268746376038,
	"eval_runtime": 3.2426,
	"eval_samples_per_second": 35.157,
	"eval_steps_per_second": 1.85,
	"step": 1700
	},
	{
	"epoch": 2.6307692307692307,
	"grad_norm": 1.3079050779342651,
	"learning_rate": 1.8423077001141848e-05,
	"loss": 0.2111,
	"step": 1710
	},
	{
	"epoch": 2.6307692307692307,
	"eval_loss": 0.7842855453491211,
	"eval_runtime": 3.2512,
	"eval_samples_per_second": 35.064,
	"eval_steps_per_second": 1.845,
	"step": 1710
	},
	{
	"epoch": 2.646153846153846,
	"grad_norm": 1.5863689184188843,
	"learning_rate": 1.839401022994006e-05,
	"loss": 0.2039,
	"step": 1720
	},
	{
	"epoch": 2.646153846153846,
	"eval_loss": 0.7856019735336304,
	"eval_runtime": 3.2563,
	"eval_samples_per_second": 35.009,
	"eval_steps_per_second": 1.843,
	"step": 1720
	},
	{
	"epoch": 2.6615384615384614,
	"grad_norm": 1.1605026721954346,
	"learning_rate": 1.8364701380102267e-05,
	"loss": 0.2183,
	"step": 1730
	},
	{
	"epoch": 2.6615384615384614,
	"eval_loss": 0.7758111953735352,
	"eval_runtime": 3.231,
	"eval_samples_per_second": 35.283,
	"eval_steps_per_second": 1.857,
	"step": 1730
	},
	{
	"epoch": 2.676923076923077,
	"grad_norm": 1.4007433652877808,
	"learning_rate": 1.8335151296879576e-05,
	"loss": 0.2054,
	"step": 1740
	},
	{
	"epoch": 2.676923076923077,
	"eval_loss": 0.7833234071731567,
	"eval_runtime": 3.2356,
	"eval_samples_per_second": 35.233,
	"eval_steps_per_second": 1.854,
	"step": 1740
	},
	{
	"epoch": 2.6923076923076925,
	"grad_norm": 1.3966948986053467,
	"learning_rate": 1.8305360832480118e-05,
	"loss": 0.1974,
	"step": 1750
	},
	{
	"epoch": 2.6923076923076925,
	"eval_loss": 0.7975159287452698,
	"eval_runtime": 3.2293,
	"eval_samples_per_second": 35.302,
	"eval_steps_per_second": 1.858,
	"step": 1750
	},
	{
	"epoch": 2.707692307692308,
	"grad_norm": 1.2282441854476929,
	"learning_rate": 1.82753308460445e-05,
	"loss": 0.2114,
	"step": 1760
	},
	{
	"epoch": 2.707692307692308,
	"eval_loss": 0.8000977039337158,
	"eval_runtime": 3.226,
	"eval_samples_per_second": 35.337,
	"eval_steps_per_second": 1.86,
	"step": 1760
	},
	{
	"epoch": 2.723076923076923,
	"grad_norm": 1.7516143321990967,
	"learning_rate": 1.8245062203621003e-05,
	"loss": 0.2081,
	"step": 1770
	},
	{
	"epoch": 2.723076923076923,
	"eval_loss": 0.7978941202163696,
	"eval_runtime": 3.2435,
	"eval_samples_per_second": 35.147,
	"eval_steps_per_second": 1.85,
	"step": 1770
	},
	{
	"epoch": 2.7384615384615385,
	"grad_norm": 1.6751377582550049,
	"learning_rate": 1.821455577814062e-05,
	"loss": 0.2013,
	"step": 1780
	},
	{
	"epoch": 2.7384615384615385,
	"eval_loss": 0.7863066792488098,
	"eval_runtime": 3.2507,
	"eval_samples_per_second": 35.07,
	"eval_steps_per_second": 1.846,
	"step": 1780
	},
	{
	"epoch": 2.753846153846154,
	"grad_norm": 1.3899345397949219,
	"learning_rate": 1.818381244939187e-05,
	"loss": 0.206,
	"step": 1790
	},
	{
	"epoch": 2.753846153846154,
	"eval_loss": 0.7733153104782104,
	"eval_runtime": 3.2514,
	"eval_samples_per_second": 35.062,
	"eval_steps_per_second": 1.845,
	"step": 1790
	},
	{
	"epoch": 2.769230769230769,
	"grad_norm": 1.6483854055404663,
	"learning_rate": 1.8152833103995443e-05,
	"loss": 0.1979,
	"step": 1800
	},
	{
	"epoch": 2.769230769230769,
	"eval_loss": 0.7838578224182129,
	"eval_runtime": 3.2273,
	"eval_samples_per_second": 35.323,
	"eval_steps_per_second": 1.859,
	"step": 1800
	},
	{
	"epoch": 2.7846153846153845,
	"grad_norm": 1.4585682153701782,
	"learning_rate": 1.8121618635378616e-05,
	"loss": 0.2093,
	"step": 1810
	},
	{
	"epoch": 2.7846153846153845,
	"eval_loss": 0.7677554488182068,
	"eval_runtime": 3.231,
	"eval_samples_per_second": 35.284,
	"eval_steps_per_second": 1.857,
	"step": 1810
	},
	{
	"epoch": 2.8,
	"grad_norm": 1.3923680782318115,
	"learning_rate": 1.8090169943749477e-05,
	"loss": 0.2036,
	"step": 1820
	},
	{
	"epoch": 2.8,
	"eval_loss": 0.7729052901268005,
	"eval_runtime": 3.2487,
	"eval_samples_per_second": 35.091,
	"eval_steps_per_second": 1.847,
	"step": 1820
	},
	{
	"epoch": 2.815384615384615,
	"grad_norm": 1.233302354812622,
	"learning_rate": 1.8058487936070992e-05,
	"loss": 0.1931,
	"step": 1830
	},
	{
	"epoch": 2.815384615384615,
	"eval_loss": 0.7708905935287476,
	"eval_runtime": 3.2127,
	"eval_samples_per_second": 35.484,
	"eval_steps_per_second": 1.868,
	"step": 1830
	},
	{
	"epoch": 2.830769230769231,
	"grad_norm": 1.4429056644439697,
	"learning_rate": 1.802657352603483e-05,
	"loss": 0.1929,
	"step": 1840
	},
	{
	"epoch": 2.830769230769231,
	"eval_loss": 0.7802720069885254,
	"eval_runtime": 3.2503,
	"eval_samples_per_second": 35.074,
	"eval_steps_per_second": 1.846,
	"step": 1840
	},
	{
	"epoch": 2.8461538461538463,
	"grad_norm": 2.0769877433776855,
	"learning_rate": 1.7994427634035016e-05,
	"loss": 0.226,
	"step": 1850
	},
	{
	"epoch": 2.8461538461538463,
	"eval_loss": 0.766547679901123,
	"eval_runtime": 3.2413,
	"eval_samples_per_second": 35.171,
	"eval_steps_per_second": 1.851,
	"step": 1850
	},
	{
	"epoch": 2.8615384615384616,
	"grad_norm": 1.845153570175171,
	"learning_rate": 1.7962051187141377e-05,
	"loss": 0.2257,
	"step": 1860
	},
	{
	"epoch": 2.8615384615384616,
	"eval_loss": 0.7760981321334839,
	"eval_runtime": 3.2416,
	"eval_samples_per_second": 35.168,
	"eval_steps_per_second": 1.851,
	"step": 1860
	},
	{
	"epoch": 2.876923076923077,
	"grad_norm": 1.8381919860839844,
	"learning_rate": 1.7929445119072837e-05,
	"loss": 0.2193,
	"step": 1870
	},
	{
	"epoch": 2.876923076923077,
	"eval_loss": 0.7926127314567566,
	"eval_runtime": 3.2889,
	"eval_samples_per_second": 34.662,
	"eval_steps_per_second": 1.824,
	"step": 1870
	},
	{
	"epoch": 2.8923076923076922,
	"grad_norm": 1.7760707139968872,
	"learning_rate": 1.7896610370170452e-05,
	"loss": 0.2085,
	"step": 1880
	},
	{
	"epoch": 2.8923076923076922,
	"eval_loss": 0.7870352268218994,
	"eval_runtime": 3.2379,
	"eval_samples_per_second": 35.208,
	"eval_steps_per_second": 1.853,
	"step": 1880
	},
	{
	"epoch": 2.9076923076923076,
	"grad_norm": 1.2421387434005737,
	"learning_rate": 1.786354788737031e-05,
	"loss": 0.2374,
	"step": 1890
	},
	{
	"epoch": 2.9076923076923076,
	"eval_loss": 0.7905800342559814,
	"eval_runtime": 3.2268,
	"eval_samples_per_second": 35.33,
	"eval_steps_per_second": 1.859,
	"step": 1890
	},
	{
	"epoch": 2.9230769230769234,
	"grad_norm": 1.8296164274215698,
	"learning_rate": 1.7830258624176224e-05,
	"loss": 0.1788,
	"step": 1900
	},
	{
	"epoch": 2.9230769230769234,
	"eval_loss": 0.7861989736557007,
	"eval_runtime": 3.2405,
	"eval_samples_per_second": 35.18,
	"eval_steps_per_second": 1.852,
	"step": 1900
	},
	{
	"epoch": 2.9384615384615387,
	"grad_norm": 1.577077865600586,
	"learning_rate": 1.7796743540632226e-05,
	"loss": 0.2296,
	"step": 1910
	},
	{
	"epoch": 2.9384615384615387,
	"eval_loss": 0.775193452835083,
	"eval_runtime": 3.2468,
	"eval_samples_per_second": 35.111,
	"eval_steps_per_second": 1.848,
	"step": 1910
	},
	{
	"epoch": 2.953846153846154,
	"grad_norm": 1.630001187324524,
	"learning_rate": 1.776300360329488e-05,
	"loss": 0.2115,
	"step": 1920
	},
	{
	"epoch": 2.953846153846154,
	"eval_loss": 0.7809256911277771,
	"eval_runtime": 3.2326,
	"eval_samples_per_second": 35.266,
	"eval_steps_per_second": 1.856,
	"step": 1920
	},
	{
	"epoch": 2.9692307692307693,
	"grad_norm": 1.5851411819458008,
	"learning_rate": 1.772903978520542e-05,
	"loss": 0.1967,
	"step": 1930
	},
	{
	"epoch": 2.9692307692307693,
	"eval_loss": 0.7896639108657837,
	"eval_runtime": 3.2497,
	"eval_samples_per_second": 35.08,
	"eval_steps_per_second": 1.846,
	"step": 1930
	},
	{
	"epoch": 2.9846153846153847,
	"grad_norm": 1.3122369050979614,
	"learning_rate": 1.769485306586166e-05,
	"loss": 0.2159,
	"step": 1940
	},
	{
	"epoch": 2.9846153846153847,
	"eval_loss": 0.777010977268219,
	"eval_runtime": 3.2294,
	"eval_samples_per_second": 35.3,
	"eval_steps_per_second": 1.858,
	"step": 1940
	},
	{
	"epoch": 3.0,
	"grad_norm": 1.2341620922088623,
	"learning_rate": 1.766044443118978e-05,
	"loss": 0.1962,
	"step": 1950
	},
	{
	"epoch": 3.0,
	"eval_loss": 0.7913311123847961,
	"eval_runtime": 3.226,
	"eval_samples_per_second": 35.338,
	"eval_steps_per_second": 1.86,
	"step": 1950
	},
	{
	"epoch": 3.0153846153846153,
	"grad_norm": 1.1695995330810547,
	"learning_rate": 1.762581487351587e-05,
	"loss": 0.1231,
	"step": 1960
	},
	{
	"epoch": 3.0153846153846153,
	"eval_loss": 0.8296219706535339,
	"eval_runtime": 3.2283,
	"eval_samples_per_second": 35.313,
	"eval_steps_per_second": 1.859,
	"step": 1960
	},
	{
	"epoch": 3.0307692307692307,
	"grad_norm": 1.0905882120132446,
	"learning_rate": 1.7590965391537316e-05,
	"loss": 0.1028,
	"step": 1970
	},
	{
	"epoch": 3.0307692307692307,
	"eval_loss": 0.8419015407562256,
	"eval_runtime": 3.2463,
	"eval_samples_per_second": 35.117,
	"eval_steps_per_second": 1.848,
	"step": 1970
	},
	{
	"epoch": 3.046153846153846,
	"grad_norm": 0.9968711137771606,
	"learning_rate": 1.7555896990294003e-05,
	"loss": 0.116,
	"step": 1980
	},
	{
	"epoch": 3.046153846153846,
	"eval_loss": 0.8519408106803894,
	"eval_runtime": 3.2373,
	"eval_samples_per_second": 35.214,
	"eval_steps_per_second": 1.853,
	"step": 1980
	},
	{
	"epoch": 3.0615384615384613,
	"grad_norm": 1.8941599130630493,
	"learning_rate": 1.7520610681139322e-05,
	"loss": 0.1195,
	"step": 1990
	},
	{
	"epoch": 3.0615384615384613,
	"eval_loss": 0.8432408571243286,
	"eval_runtime": 3.2477,
	"eval_samples_per_second": 35.102,
	"eval_steps_per_second": 1.847,
	"step": 1990
	},
	{
	"epoch": 3.076923076923077,
	"grad_norm": 1.5090588331222534,
	"learning_rate": 1.7485107481711014e-05,
	"loss": 0.1141,
	"step": 2000
	},
	{
	"epoch": 3.076923076923077,
	"eval_loss": 0.8407796025276184,
	"eval_runtime": 3.2492,
	"eval_samples_per_second": 35.085,
	"eval_steps_per_second": 1.847,
	"step": 2000
	}
	],
	"logging_steps": 10,
	"max_steps": 6500,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 1000,
	"total_flos": 1.3637570942048666e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}