Upload folder using huggingface_hub

93073c5 verified 6 months ago

101 kB

	{
	"best_metric": 0.2031262218952179,
	"best_model_checkpoint": "final_roberta_with_new_400k_plus_37k/checkpoint-5300",
	"epoch": 0.37867962274935696,
	"eval_steps": 100,
	"global_step": 5300,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"grad_norm": 259361.75,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 1.1264,
	"step": 10
	},
	{
	"epoch": 0.0,
	"grad_norm": 272740.9375,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 1.1058,
	"step": 20
	},
	{
	"epoch": 0.0,
	"grad_norm": 244078.703125,
	"learning_rate": 3e-06,
	"loss": 1.0828,
	"step": 30
	},
	{
	"epoch": 0.0,
	"grad_norm": 234958.875,
	"learning_rate": 4.000000000000001e-06,
	"loss": 1.0388,
	"step": 40
	},
	{
	"epoch": 0.0,
	"grad_norm": 270513.0625,
	"learning_rate": 5e-06,
	"loss": 0.985,
	"step": 50
	},
	{
	"epoch": 0.0,
	"grad_norm": 186214.65625,
	"learning_rate": 6e-06,
	"loss": 0.8671,
	"step": 60
	},
	{
	"epoch": 0.01,
	"grad_norm": 174922.8125,
	"learning_rate": 7.000000000000001e-06,
	"loss": 0.7386,
	"step": 70
	},
	{
	"epoch": 0.01,
	"grad_norm": 191114.640625,
	"learning_rate": 8.000000000000001e-06,
	"loss": 0.6231,
	"step": 80
	},
	{
	"epoch": 0.01,
	"grad_norm": 195687.9375,
	"learning_rate": 9e-06,
	"loss": 0.4322,
	"step": 90
	},
	{
	"epoch": 0.01,
	"grad_norm": 333151.59375,
	"learning_rate": 1e-05,
	"loss": 0.3174,
	"step": 100
	},
	{
	"epoch": 0.01,
	"eval_accuracy": 0.8927859705061778,
	"eval_f1": 0.8918917476204463,
	"eval_loss": 0.32540708780288696,
	"eval_precision": 0.8963585084239793,
	"eval_recall": 0.8927859705061778,
	"eval_runtime": 12.4623,
	"eval_samples_per_second": 201.328,
	"eval_steps_per_second": 3.21,
	"step": 100
	},
	{
	"epoch": 0.01,
	"grad_norm": 581737.1875,
	"learning_rate": 1.1000000000000001e-05,
	"loss": 0.3052,
	"step": 110
	},
	{
	"epoch": 0.01,
	"grad_norm": 789745.375,
	"learning_rate": 1.2e-05,
	"loss": 0.3366,
	"step": 120
	},
	{
	"epoch": 0.01,
	"grad_norm": 282232.71875,
	"learning_rate": 1.3000000000000001e-05,
	"loss": 0.3257,
	"step": 130
	},
	{
	"epoch": 0.01,
	"grad_norm": 337977.96875,
	"learning_rate": 1.4000000000000001e-05,
	"loss": 0.2982,
	"step": 140
	},
	{
	"epoch": 0.01,
	"grad_norm": 622948.125,
	"learning_rate": 1.5e-05,
	"loss": 0.3382,
	"step": 150
	},
	{
	"epoch": 0.01,
	"grad_norm": 438774.15625,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 0.2975,
	"step": 160
	},
	{
	"epoch": 0.01,
	"grad_norm": 715256.4375,
	"learning_rate": 1.7000000000000003e-05,
	"loss": 0.3695,
	"step": 170
	},
	{
	"epoch": 0.01,
	"grad_norm": 294961.75,
	"learning_rate": 1.8e-05,
	"loss": 0.3001,
	"step": 180
	},
	{
	"epoch": 0.01,
	"grad_norm": 526643.5,
	"learning_rate": 1.9e-05,
	"loss": 0.2853,
	"step": 190
	},
	{
	"epoch": 0.01,
	"grad_norm": 432135.15625,
	"learning_rate": 2e-05,
	"loss": 0.3285,
	"step": 200
	},
	{
	"epoch": 0.01,
	"eval_accuracy": 0.8955759266640095,
	"eval_f1": 0.8950953630781538,
	"eval_loss": 0.2577860653400421,
	"eval_precision": 0.8967688785864537,
	"eval_recall": 0.8955759266640095,
	"eval_runtime": 12.4549,
	"eval_samples_per_second": 201.447,
	"eval_steps_per_second": 3.212,
	"step": 200
	},
	{
	"epoch": 0.02,
	"grad_norm": 344853.5625,
	"learning_rate": 2.1e-05,
	"loss": 0.3057,
	"step": 210
	},
	{
	"epoch": 0.02,
	"grad_norm": 325491.0,
	"learning_rate": 2.2000000000000003e-05,
	"loss": 0.2563,
	"step": 220
	},
	{
	"epoch": 0.02,
	"grad_norm": 788922.3125,
	"learning_rate": 2.3000000000000003e-05,
	"loss": 0.3054,
	"step": 230
	},
	{
	"epoch": 0.02,
	"grad_norm": 589439.25,
	"learning_rate": 2.4e-05,
	"loss": 0.3409,
	"step": 240
	},
	{
	"epoch": 0.02,
	"grad_norm": 213858.8125,
	"learning_rate": 2.5e-05,
	"loss": 0.2863,
	"step": 250
	},
	{
	"epoch": 0.02,
	"grad_norm": 457191.5,
	"learning_rate": 2.6000000000000002e-05,
	"loss": 0.266,
	"step": 260
	},
	{
	"epoch": 0.02,
	"grad_norm": 456034.78125,
	"learning_rate": 2.7000000000000002e-05,
	"loss": 0.2825,
	"step": 270
	},
	{
	"epoch": 0.02,
	"grad_norm": 460380.375,
	"learning_rate": 2.8000000000000003e-05,
	"loss": 0.2809,
	"step": 280
	},
	{
	"epoch": 0.02,
	"grad_norm": 318752.53125,
	"learning_rate": 2.9e-05,
	"loss": 0.2558,
	"step": 290
	},
	{
	"epoch": 0.02,
	"grad_norm": 487526.53125,
	"learning_rate": 3e-05,
	"loss": 0.247,
	"step": 300
	},
	{
	"epoch": 0.02,
	"eval_accuracy": 0.8620964527700279,
	"eval_f1": 0.8588044269388889,
	"eval_loss": 0.39129751920700073,
	"eval_precision": 0.8782950809046319,
	"eval_recall": 0.8620964527700279,
	"eval_runtime": 12.4793,
	"eval_samples_per_second": 201.052,
	"eval_steps_per_second": 3.205,
	"step": 300
	},
	{
	"epoch": 0.02,
	"grad_norm": 810950.4375,
	"learning_rate": 3.1e-05,
	"loss": 0.3178,
	"step": 310
	},
	{
	"epoch": 0.02,
	"grad_norm": 197358.0625,
	"learning_rate": 3.2000000000000005e-05,
	"loss": 0.2416,
	"step": 320
	},
	{
	"epoch": 0.02,
	"grad_norm": 660009.25,
	"learning_rate": 3.3e-05,
	"loss": 0.1957,
	"step": 330
	},
	{
	"epoch": 0.02,
	"grad_norm": 782952.625,
	"learning_rate": 3.4000000000000007e-05,
	"loss": 0.3032,
	"step": 340
	},
	{
	"epoch": 0.03,
	"grad_norm": 910589.1875,
	"learning_rate": 3.5e-05,
	"loss": 0.2858,
	"step": 350
	},
	{
	"epoch": 0.03,
	"grad_norm": 217997.765625,
	"learning_rate": 3.6e-05,
	"loss": 0.2892,
	"step": 360
	},
	{
	"epoch": 0.03,
	"grad_norm": 353057.21875,
	"learning_rate": 3.7e-05,
	"loss": 0.2023,
	"step": 370
	},
	{
	"epoch": 0.03,
	"grad_norm": 473318.84375,
	"learning_rate": 3.8e-05,
	"loss": 0.2521,
	"step": 380
	},
	{
	"epoch": 0.03,
	"grad_norm": 176609.578125,
	"learning_rate": 3.9000000000000006e-05,
	"loss": 0.2648,
	"step": 390
	},
	{
	"epoch": 0.03,
	"grad_norm": 272719.65625,
	"learning_rate": 4e-05,
	"loss": 0.2853,
	"step": 400
	},
	{
	"epoch": 0.03,
	"eval_accuracy": 0.8736548425667596,
	"eval_f1": 0.8710864907473246,
	"eval_loss": 0.3394368290901184,
	"eval_precision": 0.8871063648493269,
	"eval_recall": 0.8736548425667596,
	"eval_runtime": 12.4669,
	"eval_samples_per_second": 201.253,
	"eval_steps_per_second": 3.208,
	"step": 400
	},
	{
	"epoch": 0.03,
	"grad_norm": 398616.40625,
	"learning_rate": 4.1e-05,
	"loss": 0.2679,
	"step": 410
	},
	{
	"epoch": 0.03,
	"grad_norm": 185647.96875,
	"learning_rate": 4.2e-05,
	"loss": 0.2532,
	"step": 420
	},
	{
	"epoch": 0.03,
	"grad_norm": 436418.59375,
	"learning_rate": 4.3e-05,
	"loss": 0.2724,
	"step": 430
	},
	{
	"epoch": 0.03,
	"grad_norm": 299492.25,
	"learning_rate": 4.4000000000000006e-05,
	"loss": 0.2548,
	"step": 440
	},
	{
	"epoch": 0.03,
	"grad_norm": 482227.65625,
	"learning_rate": 4.5e-05,
	"loss": 0.2769,
	"step": 450
	},
	{
	"epoch": 0.03,
	"grad_norm": 246368.28125,
	"learning_rate": 4.600000000000001e-05,
	"loss": 0.2869,
	"step": 460
	},
	{
	"epoch": 0.03,
	"grad_norm": 391130.0625,
	"learning_rate": 4.7e-05,
	"loss": 0.3358,
	"step": 470
	},
	{
	"epoch": 0.03,
	"grad_norm": 284843.15625,
	"learning_rate": 4.8e-05,
	"loss": 0.2601,
	"step": 480
	},
	{
	"epoch": 0.04,
	"grad_norm": 512920.8125,
	"learning_rate": 4.9e-05,
	"loss": 0.3797,
	"step": 490
	},
	{
	"epoch": 0.04,
	"grad_norm": 320267.75,
	"learning_rate": 5e-05,
	"loss": 0.3031,
	"step": 500
	},
	{
	"epoch": 0.04,
	"eval_accuracy": 0.8537265842965325,
	"eval_f1": 0.8491421277003748,
	"eval_loss": 0.3923502266407013,
	"eval_precision": 0.8770289219330052,
	"eval_recall": 0.8537265842965325,
	"eval_runtime": 12.4502,
	"eval_samples_per_second": 201.524,
	"eval_steps_per_second": 3.213,
	"step": 500
	},
	{
	"epoch": 0.04,
	"grad_norm": 944106.25,
	"learning_rate": 4.9987948322406484e-05,
	"loss": 0.3445,
	"step": 510
	},
	{
	"epoch": 0.04,
	"grad_norm": 650689.8125,
	"learning_rate": 4.997589664481296e-05,
	"loss": 0.2683,
	"step": 520
	},
	{
	"epoch": 0.04,
	"grad_norm": 404230.5,
	"learning_rate": 4.996384496721944e-05,
	"loss": 0.2732,
	"step": 530
	},
	{
	"epoch": 0.04,
	"grad_norm": 253872.78125,
	"learning_rate": 4.995179328962592e-05,
	"loss": 0.2637,
	"step": 540
	},
	{
	"epoch": 0.04,
	"grad_norm": 173572.625,
	"learning_rate": 4.9939741612032395e-05,
	"loss": 0.2878,
	"step": 550
	},
	{
	"epoch": 0.04,
	"grad_norm": 234455.234375,
	"learning_rate": 4.9927689934438876e-05,
	"loss": 0.2105,
	"step": 560
	},
	{
	"epoch": 0.04,
	"grad_norm": 238566.0,
	"learning_rate": 4.991563825684535e-05,
	"loss": 0.3066,
	"step": 570
	},
	{
	"epoch": 0.04,
	"grad_norm": 476733.5,
	"learning_rate": 4.990358657925183e-05,
	"loss": 0.2801,
	"step": 580
	},
	{
	"epoch": 0.04,
	"grad_norm": 279763.1875,
	"learning_rate": 4.9891534901658313e-05,
	"loss": 0.241,
	"step": 590
	},
	{
	"epoch": 0.04,
	"grad_norm": 332317.40625,
	"learning_rate": 4.9879483224064795e-05,
	"loss": 0.2747,
	"step": 600
	},
	{
	"epoch": 0.04,
	"eval_accuracy": 0.9079314467915505,
	"eval_f1": 0.9079421645959964,
	"eval_loss": 0.2531713545322418,
	"eval_precision": 0.9079554973313584,
	"eval_recall": 0.9079314467915505,
	"eval_runtime": 12.4925,
	"eval_samples_per_second": 200.84,
	"eval_steps_per_second": 3.202,
	"step": 600
	},
	{
	"epoch": 0.04,
	"grad_norm": 156262.09375,
	"learning_rate": 4.986743154647127e-05,
	"loss": 0.2498,
	"step": 610
	},
	{
	"epoch": 0.04,
	"grad_norm": 731199.375,
	"learning_rate": 4.985537986887775e-05,
	"loss": 0.2715,
	"step": 620
	},
	{
	"epoch": 0.05,
	"grad_norm": 360661.875,
	"learning_rate": 4.9843328191284225e-05,
	"loss": 0.2522,
	"step": 630
	},
	{
	"epoch": 0.05,
	"grad_norm": 338785.125,
	"learning_rate": 4.9831276513690706e-05,
	"loss": 0.2912,
	"step": 640
	},
	{
	"epoch": 0.05,
	"grad_norm": 376656.71875,
	"learning_rate": 4.981922483609719e-05,
	"loss": 0.2842,
	"step": 650
	},
	{
	"epoch": 0.05,
	"grad_norm": 173638.25,
	"learning_rate": 4.980717315850367e-05,
	"loss": 0.2145,
	"step": 660
	},
	{
	"epoch": 0.05,
	"grad_norm": 799034.5,
	"learning_rate": 4.979512148091014e-05,
	"loss": 0.2167,
	"step": 670
	},
	{
	"epoch": 0.05,
	"grad_norm": 274675.84375,
	"learning_rate": 4.9783069803316624e-05,
	"loss": 0.2779,
	"step": 680
	},
	{
	"epoch": 0.05,
	"grad_norm": 194338.96875,
	"learning_rate": 4.97710181257231e-05,
	"loss": 0.269,
	"step": 690
	},
	{
	"epoch": 0.05,
	"grad_norm": 284438.125,
	"learning_rate": 4.975896644812959e-05,
	"loss": 0.2797,
	"step": 700
	},
	{
	"epoch": 0.05,
	"eval_accuracy": 0.863690713431646,
	"eval_f1": 0.8606919701702621,
	"eval_loss": 0.36067071557044983,
	"eval_precision": 0.8781306500206725,
	"eval_recall": 0.863690713431646,
	"eval_runtime": 12.4463,
	"eval_samples_per_second": 201.586,
	"eval_steps_per_second": 3.214,
	"step": 700
	},
	{
	"epoch": 0.05,
	"grad_norm": 737474.625,
	"learning_rate": 4.974691477053606e-05,
	"loss": 0.3834,
	"step": 710
	},
	{
	"epoch": 0.05,
	"grad_norm": 414523.40625,
	"learning_rate": 4.973486309294254e-05,
	"loss": 0.3192,
	"step": 720
	},
	{
	"epoch": 0.05,
	"grad_norm": 240870.953125,
	"learning_rate": 4.972281141534902e-05,
	"loss": 0.2479,
	"step": 730
	},
	{
	"epoch": 0.05,
	"grad_norm": 280922.09375,
	"learning_rate": 4.97107597377555e-05,
	"loss": 0.2549,
	"step": 740
	},
	{
	"epoch": 0.05,
	"grad_norm": 258415.796875,
	"learning_rate": 4.969870806016197e-05,
	"loss": 0.294,
	"step": 750
	},
	{
	"epoch": 0.05,
	"grad_norm": 409388.15625,
	"learning_rate": 4.968665638256846e-05,
	"loss": 0.2806,
	"step": 760
	},
	{
	"epoch": 0.06,
	"grad_norm": 399257.46875,
	"learning_rate": 4.9674604704974935e-05,
	"loss": 0.2841,
	"step": 770
	},
	{
	"epoch": 0.06,
	"grad_norm": 363038.375,
	"learning_rate": 4.966255302738142e-05,
	"loss": 0.3085,
	"step": 780
	},
	{
	"epoch": 0.06,
	"grad_norm": 351745.78125,
	"learning_rate": 4.965050134978789e-05,
	"loss": 0.2652,
	"step": 790
	},
	{
	"epoch": 0.06,
	"grad_norm": 297461.6875,
	"learning_rate": 4.963844967219437e-05,
	"loss": 0.2211,
	"step": 800
	},
	{
	"epoch": 0.06,
	"eval_accuracy": 0.8880031885213232,
	"eval_f1": 0.8871620549900273,
	"eval_loss": 0.2910105884075165,
	"eval_precision": 0.8908776073001764,
	"eval_recall": 0.8880031885213232,
	"eval_runtime": 12.4814,
	"eval_samples_per_second": 201.018,
	"eval_steps_per_second": 3.205,
	"step": 800
	},
	{
	"epoch": 0.06,
	"grad_norm": 287442.3125,
	"learning_rate": 4.962639799460085e-05,
	"loss": 0.2431,
	"step": 810
	},
	{
	"epoch": 0.06,
	"grad_norm": 277648.125,
	"learning_rate": 4.9614346317007335e-05,
	"loss": 0.3058,
	"step": 820
	},
	{
	"epoch": 0.06,
	"grad_norm": 309109.34375,
	"learning_rate": 4.960229463941381e-05,
	"loss": 0.1934,
	"step": 830
	},
	{
	"epoch": 0.06,
	"grad_norm": 487191.03125,
	"learning_rate": 4.959024296182029e-05,
	"loss": 0.276,
	"step": 840
	},
	{
	"epoch": 0.06,
	"grad_norm": 326520.6875,
	"learning_rate": 4.9578191284226765e-05,
	"loss": 0.2385,
	"step": 850
	},
	{
	"epoch": 0.06,
	"grad_norm": 396849.90625,
	"learning_rate": 4.9566139606633246e-05,
	"loss": 0.2689,
	"step": 860
	},
	{
	"epoch": 0.06,
	"grad_norm": 405153.84375,
	"learning_rate": 4.955408792903972e-05,
	"loss": 0.2374,
	"step": 870
	},
	{
	"epoch": 0.06,
	"grad_norm": 228344.0,
	"learning_rate": 4.95420362514462e-05,
	"loss": 0.2317,
	"step": 880
	},
	{
	"epoch": 0.06,
	"grad_norm": 232430.0625,
	"learning_rate": 4.9529984573852683e-05,
	"loss": 0.2397,
	"step": 890
	},
	{
	"epoch": 0.06,
	"grad_norm": 343631.5,
	"learning_rate": 4.9517932896259165e-05,
	"loss": 0.2769,
	"step": 900
	},
	{
	"epoch": 0.06,
	"eval_accuracy": 0.8824232762056596,
	"eval_f1": 0.8810340691374341,
	"eval_loss": 0.2833768129348755,
	"eval_precision": 0.8884468905314342,
	"eval_recall": 0.8824232762056596,
	"eval_runtime": 12.4726,
	"eval_samples_per_second": 201.162,
	"eval_steps_per_second": 3.207,
	"step": 900
	},
	{
	"epoch": 0.07,
	"grad_norm": 313915.84375,
	"learning_rate": 4.950588121866564e-05,
	"loss": 0.2364,
	"step": 910
	},
	{
	"epoch": 0.07,
	"grad_norm": 216686.984375,
	"learning_rate": 4.949382954107212e-05,
	"loss": 0.1952,
	"step": 920
	},
	{
	"epoch": 0.07,
	"grad_norm": 254563.671875,
	"learning_rate": 4.94817778634786e-05,
	"loss": 0.3364,
	"step": 930
	},
	{
	"epoch": 0.07,
	"grad_norm": 446411.09375,
	"learning_rate": 4.9469726185885076e-05,
	"loss": 0.208,
	"step": 940
	},
	{
	"epoch": 0.07,
	"grad_norm": 236561.890625,
	"learning_rate": 4.945767450829156e-05,
	"loss": 0.2634,
	"step": 950
	},
	{
	"epoch": 0.07,
	"grad_norm": 255751.90625,
	"learning_rate": 4.944562283069803e-05,
	"loss": 0.2675,
	"step": 960
	},
	{
	"epoch": 0.07,
	"grad_norm": 314748.65625,
	"learning_rate": 4.943357115310451e-05,
	"loss": 0.2196,
	"step": 970
	},
	{
	"epoch": 0.07,
	"grad_norm": 439258.875,
	"learning_rate": 4.9421519475510994e-05,
	"loss": 0.1836,
	"step": 980
	},
	{
	"epoch": 0.07,
	"grad_norm": 437849.875,
	"learning_rate": 4.9409467797917476e-05,
	"loss": 0.2723,
	"step": 990
	},
	{
	"epoch": 0.07,
	"grad_norm": 232659.609375,
	"learning_rate": 4.939741612032395e-05,
	"loss": 0.2412,
	"step": 1000
	},
	{
	"epoch": 0.07,
	"eval_accuracy": 0.9063371861299322,
	"eval_f1": 0.9060552663380613,
	"eval_loss": 0.23936249315738678,
	"eval_precision": 0.9068644806871264,
	"eval_recall": 0.9063371861299322,
	"eval_runtime": 12.4655,
	"eval_samples_per_second": 201.276,
	"eval_steps_per_second": 3.209,
	"step": 1000
	},
	{
	"epoch": 0.07,
	"grad_norm": 230467.96875,
	"learning_rate": 4.938536444273043e-05,
	"loss": 0.2282,
	"step": 1010
	},
	{
	"epoch": 0.07,
	"grad_norm": 471223.4375,
	"learning_rate": 4.9373312765136906e-05,
	"loss": 0.2779,
	"step": 1020
	},
	{
	"epoch": 0.07,
	"grad_norm": 358035.625,
	"learning_rate": 4.936126108754339e-05,
	"loss": 0.3137,
	"step": 1030
	},
	{
	"epoch": 0.07,
	"grad_norm": 254541.125,
	"learning_rate": 4.934920940994986e-05,
	"loss": 0.2323,
	"step": 1040
	},
	{
	"epoch": 0.08,
	"grad_norm": 736008.625,
	"learning_rate": 4.933715773235635e-05,
	"loss": 0.281,
	"step": 1050
	},
	{
	"epoch": 0.08,
	"grad_norm": 191029.328125,
	"learning_rate": 4.9325106054762824e-05,
	"loss": 0.2438,
	"step": 1060
	},
	{
	"epoch": 0.08,
	"grad_norm": 392851.15625,
	"learning_rate": 4.9313054377169305e-05,
	"loss": 0.3204,
	"step": 1070
	},
	{
	"epoch": 0.08,
	"grad_norm": 252810.3125,
	"learning_rate": 4.930100269957578e-05,
	"loss": 0.2651,
	"step": 1080
	},
	{
	"epoch": 0.08,
	"grad_norm": 406698.71875,
	"learning_rate": 4.928895102198226e-05,
	"loss": 0.279,
	"step": 1090
	},
	{
	"epoch": 0.08,
	"grad_norm": 383913.09375,
	"learning_rate": 4.927689934438874e-05,
	"loss": 0.3386,
	"step": 1100
	},
	{
	"epoch": 0.08,
	"eval_accuracy": 0.9015544041450777,
	"eval_f1": 0.9012812455239371,
	"eval_loss": 0.2400408387184143,
	"eval_precision": 0.9019548153454997,
	"eval_recall": 0.9015544041450777,
	"eval_runtime": 12.4676,
	"eval_samples_per_second": 201.242,
	"eval_steps_per_second": 3.208,
	"step": 1100
	},
	{
	"epoch": 0.08,
	"grad_norm": 216896.21875,
	"learning_rate": 4.9264847666795224e-05,
	"loss": 0.2311,
	"step": 1110
	},
	{
	"epoch": 0.08,
	"grad_norm": 290117.3125,
	"learning_rate": 4.92527959892017e-05,
	"loss": 0.277,
	"step": 1120
	},
	{
	"epoch": 0.08,
	"grad_norm": 219654.265625,
	"learning_rate": 4.924074431160818e-05,
	"loss": 0.2339,
	"step": 1130
	},
	{
	"epoch": 0.08,
	"grad_norm": 342770.09375,
	"learning_rate": 4.9228692634014654e-05,
	"loss": 0.3051,
	"step": 1140
	},
	{
	"epoch": 0.08,
	"grad_norm": 246765.90625,
	"learning_rate": 4.9216640956421135e-05,
	"loss": 0.2695,
	"step": 1150
	},
	{
	"epoch": 0.08,
	"grad_norm": 208931.578125,
	"learning_rate": 4.9204589278827617e-05,
	"loss": 0.2747,
	"step": 1160
	},
	{
	"epoch": 0.08,
	"grad_norm": 342173.96875,
	"learning_rate": 4.91925376012341e-05,
	"loss": 0.2172,
	"step": 1170
	},
	{
	"epoch": 0.08,
	"grad_norm": 255617.609375,
	"learning_rate": 4.918048592364057e-05,
	"loss": 0.2835,
	"step": 1180
	},
	{
	"epoch": 0.09,
	"grad_norm": 149436.703125,
	"learning_rate": 4.9168434246047054e-05,
	"loss": 0.2432,
	"step": 1190
	},
	{
	"epoch": 0.09,
	"grad_norm": 225822.0625,
	"learning_rate": 4.915638256845353e-05,
	"loss": 0.2743,
	"step": 1200
	},
	{
	"epoch": 0.09,
	"eval_accuracy": 0.904742925468314,
	"eval_f1": 0.9047753527069451,
	"eval_loss": 0.24210092425346375,
	"eval_precision": 0.9048312118166199,
	"eval_recall": 0.904742925468314,
	"eval_runtime": 12.4909,
	"eval_samples_per_second": 200.866,
	"eval_steps_per_second": 3.202,
	"step": 1200
	},
	{
	"epoch": 0.09,
	"grad_norm": 156733.046875,
	"learning_rate": 4.914433089086001e-05,
	"loss": 0.2321,
	"step": 1210
	},
	{
	"epoch": 0.09,
	"grad_norm": 139717.796875,
	"learning_rate": 4.913227921326649e-05,
	"loss": 0.1887,
	"step": 1220
	},
	{
	"epoch": 0.09,
	"grad_norm": 534506.8125,
	"learning_rate": 4.912022753567297e-05,
	"loss": 0.2929,
	"step": 1230
	},
	{
	"epoch": 0.09,
	"grad_norm": 190213.25,
	"learning_rate": 4.9108175858079446e-05,
	"loss": 0.2494,
	"step": 1240
	},
	{
	"epoch": 0.09,
	"grad_norm": 462159.28125,
	"learning_rate": 4.909612418048593e-05,
	"loss": 0.3134,
	"step": 1250
	},
	{
	"epoch": 0.09,
	"grad_norm": 290829.84375,
	"learning_rate": 4.90840725028924e-05,
	"loss": 0.2327,
	"step": 1260
	},
	{
	"epoch": 0.09,
	"grad_norm": 115473.984375,
	"learning_rate": 4.907202082529889e-05,
	"loss": 0.2199,
	"step": 1270
	},
	{
	"epoch": 0.09,
	"grad_norm": 172480.3125,
	"learning_rate": 4.9059969147705365e-05,
	"loss": 0.2344,
	"step": 1280
	},
	{
	"epoch": 0.09,
	"grad_norm": 271795.9375,
	"learning_rate": 4.9047917470111846e-05,
	"loss": 0.2757,
	"step": 1290
	},
	{
	"epoch": 0.09,
	"grad_norm": 134259.4375,
	"learning_rate": 4.903586579251832e-05,
	"loss": 0.2682,
	"step": 1300
	},
	{
	"epoch": 0.09,
	"eval_accuracy": 0.8768433638899961,
	"eval_f1": 0.875214624309524,
	"eval_loss": 0.2833414375782013,
	"eval_precision": 0.8838506474460517,
	"eval_recall": 0.8768433638899961,
	"eval_runtime": 12.4785,
	"eval_samples_per_second": 201.066,
	"eval_steps_per_second": 3.206,
	"step": 1300
	},
	{
	"epoch": 0.09,
	"grad_norm": 162955.359375,
	"learning_rate": 4.90238141149248e-05,
	"loss": 0.2077,
	"step": 1310
	},
	{
	"epoch": 0.09,
	"grad_norm": 345381.34375,
	"learning_rate": 4.9011762437331276e-05,
	"loss": 0.2563,
	"step": 1320
	},
	{
	"epoch": 0.1,
	"grad_norm": 353178.6875,
	"learning_rate": 4.899971075973776e-05,
	"loss": 0.2536,
	"step": 1330
	},
	{
	"epoch": 0.1,
	"grad_norm": 341959.53125,
	"learning_rate": 4.898765908214424e-05,
	"loss": 0.2174,
	"step": 1340
	},
	{
	"epoch": 0.1,
	"grad_norm": 366022.53125,
	"learning_rate": 4.897560740455071e-05,
	"loss": 0.3057,
	"step": 1350
	},
	{
	"epoch": 0.1,
	"grad_norm": 393534.71875,
	"learning_rate": 4.8963555726957194e-05,
	"loss": 0.2376,
	"step": 1360
	},
	{
	"epoch": 0.1,
	"grad_norm": 274654.625,
	"learning_rate": 4.8951504049363676e-05,
	"loss": 0.2659,
	"step": 1370
	},
	{
	"epoch": 0.1,
	"grad_norm": 138208.84375,
	"learning_rate": 4.893945237177015e-05,
	"loss": 0.1862,
	"step": 1380
	},
	{
	"epoch": 0.1,
	"grad_norm": 467137.15625,
	"learning_rate": 4.892740069417663e-05,
	"loss": 0.2283,
	"step": 1390
	},
	{
	"epoch": 0.1,
	"grad_norm": 317242.65625,
	"learning_rate": 4.891534901658311e-05,
	"loss": 0.3219,
	"step": 1400
	},
	{
	"epoch": 0.1,
	"eval_accuracy": 0.9071343164607414,
	"eval_f1": 0.9070423350315097,
	"eval_loss": 0.23825575411319733,
	"eval_precision": 0.9071045116108353,
	"eval_recall": 0.9071343164607414,
	"eval_runtime": 12.4977,
	"eval_samples_per_second": 200.757,
	"eval_steps_per_second": 3.201,
	"step": 1400
	},
	{
	"epoch": 0.1,
	"grad_norm": 181615.84375,
	"learning_rate": 4.890329733898959e-05,
	"loss": 0.2165,
	"step": 1410
	},
	{
	"epoch": 0.1,
	"grad_norm": 161155.140625,
	"learning_rate": 4.889124566139607e-05,
	"loss": 0.2607,
	"step": 1420
	},
	{
	"epoch": 0.1,
	"grad_norm": 398813.90625,
	"learning_rate": 4.887919398380254e-05,
	"loss": 0.2696,
	"step": 1430
	},
	{
	"epoch": 0.1,
	"grad_norm": 315529.625,
	"learning_rate": 4.8867142306209024e-05,
	"loss": 0.2688,
	"step": 1440
	},
	{
	"epoch": 0.1,
	"grad_norm": 518022.09375,
	"learning_rate": 4.8855090628615505e-05,
	"loss": 0.3062,
	"step": 1450
	},
	{
	"epoch": 0.1,
	"grad_norm": 271555.0,
	"learning_rate": 4.8843038951021987e-05,
	"loss": 0.2141,
	"step": 1460
	},
	{
	"epoch": 0.11,
	"grad_norm": 287849.21875,
	"learning_rate": 4.883098727342846e-05,
	"loss": 0.2469,
	"step": 1470
	},
	{
	"epoch": 0.11,
	"grad_norm": 269480.84375,
	"learning_rate": 4.881893559583494e-05,
	"loss": 0.2037,
	"step": 1480
	},
	{
	"epoch": 0.11,
	"grad_norm": 225872.734375,
	"learning_rate": 4.880688391824142e-05,
	"loss": 0.2867,
	"step": 1490
	},
	{
	"epoch": 0.11,
	"grad_norm": 291168.03125,
	"learning_rate": 4.8794832240647905e-05,
	"loss": 0.2211,
	"step": 1500
	},
	{
	"epoch": 0.11,
	"eval_accuracy": 0.904742925468314,
	"eval_f1": 0.9047391668676202,
	"eval_loss": 0.24535924196243286,
	"eval_precision": 0.9047356979299059,
	"eval_recall": 0.904742925468314,
	"eval_runtime": 12.5209,
	"eval_samples_per_second": 200.385,
	"eval_steps_per_second": 3.195,
	"step": 1500
	},
	{
	"epoch": 0.11,
	"grad_norm": 305500.625,
	"learning_rate": 4.878278056305438e-05,
	"loss": 0.2604,
	"step": 1510
	},
	{
	"epoch": 0.11,
	"grad_norm": 322610.6875,
	"learning_rate": 4.877072888546086e-05,
	"loss": 0.2416,
	"step": 1520
	},
	{
	"epoch": 0.11,
	"grad_norm": 244146.640625,
	"learning_rate": 4.8758677207867335e-05,
	"loss": 0.2461,
	"step": 1530
	},
	{
	"epoch": 0.11,
	"grad_norm": 319704.53125,
	"learning_rate": 4.8746625530273816e-05,
	"loss": 0.2368,
	"step": 1540
	},
	{
	"epoch": 0.11,
	"grad_norm": 292252.0,
	"learning_rate": 4.873457385268029e-05,
	"loss": 0.2351,
	"step": 1550
	},
	{
	"epoch": 0.11,
	"grad_norm": 134507.875,
	"learning_rate": 4.872252217508678e-05,
	"loss": 0.2423,
	"step": 1560
	},
	{
	"epoch": 0.11,
	"grad_norm": 228724.5625,
	"learning_rate": 4.871047049749325e-05,
	"loss": 0.1909,
	"step": 1570
	},
	{
	"epoch": 0.11,
	"grad_norm": 315720.09375,
	"learning_rate": 4.8698418819899735e-05,
	"loss": 0.2611,
	"step": 1580
	},
	{
	"epoch": 0.11,
	"grad_norm": 232667.03125,
	"learning_rate": 4.868636714230621e-05,
	"loss": 0.1903,
	"step": 1590
	},
	{
	"epoch": 0.11,
	"grad_norm": 263891.90625,
	"learning_rate": 4.867431546471269e-05,
	"loss": 0.2606,
	"step": 1600
	},
	{
	"epoch": 0.11,
	"eval_accuracy": 0.9222797927461139,
	"eval_f1": 0.9220731260773486,
	"eval_loss": 0.20830760896205902,
	"eval_precision": 0.9227685265016082,
	"eval_recall": 0.9222797927461139,
	"eval_runtime": 16.2543,
	"eval_samples_per_second": 154.359,
	"eval_steps_per_second": 2.461,
	"step": 1600
	},
	{
	"epoch": 0.12,
	"grad_norm": 221386.890625,
	"learning_rate": 4.8662263787119165e-05,
	"loss": 0.2349,
	"step": 1610
	},
	{
	"epoch": 0.12,
	"grad_norm": 363135.0,
	"learning_rate": 4.865021210952565e-05,
	"loss": 0.25,
	"step": 1620
	},
	{
	"epoch": 0.12,
	"grad_norm": 264439.53125,
	"learning_rate": 4.863816043193213e-05,
	"loss": 0.1789,
	"step": 1630
	},
	{
	"epoch": 0.12,
	"grad_norm": 325613.53125,
	"learning_rate": 4.862610875433861e-05,
	"loss": 0.2143,
	"step": 1640
	},
	{
	"epoch": 0.12,
	"grad_norm": 220411.890625,
	"learning_rate": 4.861405707674508e-05,
	"loss": 0.2629,
	"step": 1650
	},
	{
	"epoch": 0.12,
	"grad_norm": 259412.40625,
	"learning_rate": 4.8602005399151564e-05,
	"loss": 0.2525,
	"step": 1660
	},
	{
	"epoch": 0.12,
	"grad_norm": 614391.375,
	"learning_rate": 4.8589953721558046e-05,
	"loss": 0.2439,
	"step": 1670
	},
	{
	"epoch": 0.12,
	"grad_norm": 275747.875,
	"learning_rate": 4.857790204396453e-05,
	"loss": 0.2651,
	"step": 1680
	},
	{
	"epoch": 0.12,
	"grad_norm": 212869.203125,
	"learning_rate": 4.8565850366371e-05,
	"loss": 0.1677,
	"step": 1690
	},
	{
	"epoch": 0.12,
	"grad_norm": 259202.96875,
	"learning_rate": 4.855379868877748e-05,
	"loss": 0.1966,
	"step": 1700
	},
	{
	"epoch": 0.12,
	"eval_accuracy": 0.9003587086488641,
	"eval_f1": 0.9000880085084791,
	"eval_loss": 0.2688085734844208,
	"eval_precision": 0.9007296682986318,
	"eval_recall": 0.9003587086488641,
	"eval_runtime": 12.4695,
	"eval_samples_per_second": 201.21,
	"eval_steps_per_second": 3.208,
	"step": 1700
	},
	{
	"epoch": 0.12,
	"grad_norm": 164794.625,
	"learning_rate": 4.854174701118396e-05,
	"loss": 0.3116,
	"step": 1710
	},
	{
	"epoch": 0.12,
	"grad_norm": 1090182.375,
	"learning_rate": 4.852969533359044e-05,
	"loss": 0.2294,
	"step": 1720
	},
	{
	"epoch": 0.12,
	"grad_norm": 393550.84375,
	"learning_rate": 4.851764365599692e-05,
	"loss": 0.2659,
	"step": 1730
	},
	{
	"epoch": 0.12,
	"grad_norm": 227773.296875,
	"learning_rate": 4.8505591978403394e-05,
	"loss": 0.2151,
	"step": 1740
	},
	{
	"epoch": 0.13,
	"grad_norm": 259306.171875,
	"learning_rate": 4.8493540300809875e-05,
	"loss": 0.2661,
	"step": 1750
	},
	{
	"epoch": 0.13,
	"grad_norm": 237662.640625,
	"learning_rate": 4.8481488623216357e-05,
	"loss": 0.2268,
	"step": 1760
	},
	{
	"epoch": 0.13,
	"grad_norm": 385510.71875,
	"learning_rate": 4.846943694562283e-05,
	"loss": 0.2745,
	"step": 1770
	},
	{
	"epoch": 0.13,
	"grad_norm": 163655.578125,
	"learning_rate": 4.845738526802931e-05,
	"loss": 0.3146,
	"step": 1780
	},
	{
	"epoch": 0.13,
	"grad_norm": 243399.0,
	"learning_rate": 4.8445333590435794e-05,
	"loss": 0.2467,
	"step": 1790
	},
	{
	"epoch": 0.13,
	"grad_norm": 327880.625,
	"learning_rate": 4.843328191284227e-05,
	"loss": 0.2205,
	"step": 1800
	},
	{
	"epoch": 0.13,
	"eval_accuracy": 0.8776404942208051,
	"eval_f1": 0.875183931389359,
	"eval_loss": 0.30761781334877014,
	"eval_precision": 0.8910948763461308,
	"eval_recall": 0.8776404942208051,
	"eval_runtime": 12.4538,
	"eval_samples_per_second": 201.465,
	"eval_steps_per_second": 3.212,
	"step": 1800
	},
	{
	"epoch": 0.13,
	"grad_norm": 256714.03125,
	"learning_rate": 4.842123023524875e-05,
	"loss": 0.2844,
	"step": 1810
	},
	{
	"epoch": 0.13,
	"grad_norm": 262816.8125,
	"learning_rate": 4.8409178557655224e-05,
	"loss": 0.2276,
	"step": 1820
	},
	{
	"epoch": 0.13,
	"grad_norm": 316480.125,
	"learning_rate": 4.8397126880061705e-05,
	"loss": 0.2421,
	"step": 1830
	},
	{
	"epoch": 0.13,
	"grad_norm": 225589.65625,
	"learning_rate": 4.8385075202468186e-05,
	"loss": 0.3464,
	"step": 1840
	},
	{
	"epoch": 0.13,
	"grad_norm": 185817.125,
	"learning_rate": 4.837302352487467e-05,
	"loss": 0.2356,
	"step": 1850
	},
	{
	"epoch": 0.13,
	"grad_norm": 88735.1875,
	"learning_rate": 4.836097184728114e-05,
	"loss": 0.182,
	"step": 1860
	},
	{
	"epoch": 0.13,
	"grad_norm": 794250.3125,
	"learning_rate": 4.834892016968762e-05,
	"loss": 0.2339,
	"step": 1870
	},
	{
	"epoch": 0.13,
	"grad_norm": 560309.375,
	"learning_rate": 4.83368684920941e-05,
	"loss": 0.2894,
	"step": 1880
	},
	{
	"epoch": 0.14,
	"grad_norm": 272938.0625,
	"learning_rate": 4.832481681450058e-05,
	"loss": 0.329,
	"step": 1890
	},
	{
	"epoch": 0.14,
	"grad_norm": 211817.265625,
	"learning_rate": 4.831276513690706e-05,
	"loss": 0.2242,
	"step": 1900
	},
	{
	"epoch": 0.14,
	"eval_accuracy": 0.9151056197688322,
	"eval_f1": 0.9149543121007149,
	"eval_loss": 0.2171379029750824,
	"eval_precision": 0.9152515101201911,
	"eval_recall": 0.9151056197688322,
	"eval_runtime": 12.4488,
	"eval_samples_per_second": 201.545,
	"eval_steps_per_second": 3.213,
	"step": 1900
	},
	{
	"epoch": 0.14,
	"grad_norm": 143415.46875,
	"learning_rate": 4.830071345931354e-05,
	"loss": 0.1574,
	"step": 1910
	},
	{
	"epoch": 0.14,
	"grad_norm": 282922.125,
	"learning_rate": 4.8288661781720016e-05,
	"loss": 0.2423,
	"step": 1920
	},
	{
	"epoch": 0.14,
	"grad_norm": 146414.75,
	"learning_rate": 4.82766101041265e-05,
	"loss": 0.2286,
	"step": 1930
	},
	{
	"epoch": 0.14,
	"grad_norm": 376618.875,
	"learning_rate": 4.826455842653297e-05,
	"loss": 0.2082,
	"step": 1940
	},
	{
	"epoch": 0.14,
	"grad_norm": 347305.625,
	"learning_rate": 4.825250674893945e-05,
	"loss": 0.2707,
	"step": 1950
	},
	{
	"epoch": 0.14,
	"grad_norm": 120735.5,
	"learning_rate": 4.8240455071345934e-05,
	"loss": 0.27,
	"step": 1960
	},
	{
	"epoch": 0.14,
	"grad_norm": 327705.75,
	"learning_rate": 4.8228403393752416e-05,
	"loss": 0.2446,
	"step": 1970
	},
	{
	"epoch": 0.14,
	"grad_norm": 204558.703125,
	"learning_rate": 4.821635171615889e-05,
	"loss": 0.2253,
	"step": 1980
	},
	{
	"epoch": 0.14,
	"grad_norm": 379880.46875,
	"learning_rate": 4.820430003856537e-05,
	"loss": 0.2475,
	"step": 1990
	},
	{
	"epoch": 0.14,
	"grad_norm": 275538.9375,
	"learning_rate": 4.8192248360971846e-05,
	"loss": 0.257,
	"step": 2000
	},
	{
	"epoch": 0.14,
	"eval_accuracy": 0.8911917098445595,
	"eval_f1": 0.8905276298091929,
	"eval_loss": 0.26427793502807617,
	"eval_precision": 0.893198513619984,
	"eval_recall": 0.8911917098445595,
	"eval_runtime": 12.4635,
	"eval_samples_per_second": 201.308,
	"eval_steps_per_second": 3.209,
	"step": 2000
	},
	{
	"epoch": 0.14,
	"grad_norm": 353166.90625,
	"learning_rate": 4.818019668337833e-05,
	"loss": 0.2724,
	"step": 2010
	},
	{
	"epoch": 0.14,
	"grad_norm": 226420.90625,
	"learning_rate": 4.816814500578481e-05,
	"loss": 0.2908,
	"step": 2020
	},
	{
	"epoch": 0.15,
	"grad_norm": 342758.125,
	"learning_rate": 4.815609332819129e-05,
	"loss": 0.2236,
	"step": 2030
	},
	{
	"epoch": 0.15,
	"grad_norm": 255585.25,
	"learning_rate": 4.8144041650597764e-05,
	"loss": 0.2951,
	"step": 2040
	},
	{
	"epoch": 0.15,
	"grad_norm": 179796.921875,
	"learning_rate": 4.8131989973004245e-05,
	"loss": 0.1814,
	"step": 2050
	},
	{
	"epoch": 0.15,
	"grad_norm": 214087.140625,
	"learning_rate": 4.811993829541072e-05,
	"loss": 0.3827,
	"step": 2060
	},
	{
	"epoch": 0.15,
	"grad_norm": 250333.71875,
	"learning_rate": 4.810788661781721e-05,
	"loss": 0.2592,
	"step": 2070
	},
	{
	"epoch": 0.15,
	"grad_norm": 334693.625,
	"learning_rate": 4.809583494022368e-05,
	"loss": 0.3138,
	"step": 2080
	},
	{
	"epoch": 0.15,
	"grad_norm": 204259.46875,
	"learning_rate": 4.8083783262630164e-05,
	"loss": 0.2725,
	"step": 2090
	},
	{
	"epoch": 0.15,
	"grad_norm": 362242.4375,
	"learning_rate": 4.807173158503664e-05,
	"loss": 0.2238,
	"step": 2100
	},
	{
	"epoch": 0.15,
	"eval_accuracy": 0.9131127939418094,
	"eval_f1": 0.9127816210997458,
	"eval_loss": 0.21650490164756775,
	"eval_precision": 0.9140733290376809,
	"eval_recall": 0.9131127939418094,
	"eval_runtime": 12.4586,
	"eval_samples_per_second": 201.386,
	"eval_steps_per_second": 3.211,
	"step": 2100
	},
	{
	"epoch": 0.15,
	"grad_norm": 427524.21875,
	"learning_rate": 4.805967990744312e-05,
	"loss": 0.1926,
	"step": 2110
	},
	{
	"epoch": 0.15,
	"grad_norm": 376668.125,
	"learning_rate": 4.8047628229849594e-05,
	"loss": 0.1828,
	"step": 2120
	},
	{
	"epoch": 0.15,
	"grad_norm": 181697.09375,
	"learning_rate": 4.803557655225608e-05,
	"loss": 0.2484,
	"step": 2130
	},
	{
	"epoch": 0.15,
	"grad_norm": 405359.8125,
	"learning_rate": 4.8023524874662556e-05,
	"loss": 0.3022,
	"step": 2140
	},
	{
	"epoch": 0.15,
	"grad_norm": 227001.171875,
	"learning_rate": 4.801147319706904e-05,
	"loss": 0.3152,
	"step": 2150
	},
	{
	"epoch": 0.15,
	"grad_norm": 291323.65625,
	"learning_rate": 4.799942151947551e-05,
	"loss": 0.2439,
	"step": 2160
	},
	{
	"epoch": 0.16,
	"grad_norm": 174109.375,
	"learning_rate": 4.7987369841881993e-05,
	"loss": 0.2465,
	"step": 2170
	},
	{
	"epoch": 0.16,
	"grad_norm": 337487.75,
	"learning_rate": 4.797531816428847e-05,
	"loss": 0.2281,
	"step": 2180
	},
	{
	"epoch": 0.16,
	"grad_norm": 225118.296875,
	"learning_rate": 4.796326648669495e-05,
	"loss": 0.2357,
	"step": 2190
	},
	{
	"epoch": 0.16,
	"grad_norm": 159729.390625,
	"learning_rate": 4.795121480910143e-05,
	"loss": 0.2313,
	"step": 2200
	},
	{
	"epoch": 0.16,
	"eval_accuracy": 0.899561578318055,
	"eval_f1": 0.8995921014681665,
	"eval_loss": 0.2312317192554474,
	"eval_precision": 0.8996410329041024,
	"eval_recall": 0.899561578318055,
	"eval_runtime": 12.481,
	"eval_samples_per_second": 201.026,
	"eval_steps_per_second": 3.205,
	"step": 2200
	},
	{
	"epoch": 0.16,
	"grad_norm": 215213.28125,
	"learning_rate": 4.7939163131507905e-05,
	"loss": 0.2576,
	"step": 2210
	},
	{
	"epoch": 0.16,
	"grad_norm": 691060.25,
	"learning_rate": 4.7927111453914386e-05,
	"loss": 0.2706,
	"step": 2220
	},
	{
	"epoch": 0.16,
	"grad_norm": 306584.34375,
	"learning_rate": 4.791505977632087e-05,
	"loss": 0.1879,
	"step": 2230
	},
	{
	"epoch": 0.16,
	"grad_norm": 60201.84375,
	"learning_rate": 4.790300809872735e-05,
	"loss": 0.2517,
	"step": 2240
	},
	{
	"epoch": 0.16,
	"grad_norm": 318122.8125,
	"learning_rate": 4.789095642113382e-05,
	"loss": 0.2004,
	"step": 2250
	},
	{
	"epoch": 0.16,
	"grad_norm": 737994.875,
	"learning_rate": 4.7878904743540304e-05,
	"loss": 0.3025,
	"step": 2260
	},
	{
	"epoch": 0.16,
	"grad_norm": 617771.5,
	"learning_rate": 4.786685306594678e-05,
	"loss": 0.2708,
	"step": 2270
	},
	{
	"epoch": 0.16,
	"grad_norm": 271784.375,
	"learning_rate": 4.785480138835326e-05,
	"loss": 0.2333,
	"step": 2280
	},
	{
	"epoch": 0.16,
	"grad_norm": 348172.15625,
	"learning_rate": 4.7842749710759735e-05,
	"loss": 0.2371,
	"step": 2290
	},
	{
	"epoch": 0.16,
	"grad_norm": 501798.375,
	"learning_rate": 4.783069803316622e-05,
	"loss": 0.1856,
	"step": 2300
	},
	{
	"epoch": 0.16,
	"eval_accuracy": 0.9107214029493822,
	"eval_f1": 0.9107676605487075,
	"eval_loss": 0.22687236964702606,
	"eval_precision": 0.9108709640812914,
	"eval_recall": 0.9107214029493822,
	"eval_runtime": 12.4871,
	"eval_samples_per_second": 200.927,
	"eval_steps_per_second": 3.203,
	"step": 2300
	},
	{
	"epoch": 0.17,
	"grad_norm": 294219.71875,
	"learning_rate": 4.78186463555727e-05,
	"loss": 0.2343,
	"step": 2310
	},
	{
	"epoch": 0.17,
	"grad_norm": 546334.75,
	"learning_rate": 4.780659467797918e-05,
	"loss": 0.2301,
	"step": 2320
	},
	{
	"epoch": 0.17,
	"grad_norm": 173881.875,
	"learning_rate": 4.779454300038565e-05,
	"loss": 0.2491,
	"step": 2330
	},
	{
	"epoch": 0.17,
	"grad_norm": 237170.28125,
	"learning_rate": 4.7782491322792134e-05,
	"loss": 0.2194,
	"step": 2340
	},
	{
	"epoch": 0.17,
	"grad_norm": 319085.8125,
	"learning_rate": 4.777043964519861e-05,
	"loss": 0.2308,
	"step": 2350
	},
	{
	"epoch": 0.17,
	"grad_norm": 365797.4375,
	"learning_rate": 4.77583879676051e-05,
	"loss": 0.2445,
	"step": 2360
	},
	{
	"epoch": 0.17,
	"grad_norm": 255985.921875,
	"learning_rate": 4.774633629001157e-05,
	"loss": 0.2578,
	"step": 2370
	},
	{
	"epoch": 0.17,
	"grad_norm": 253771.796875,
	"learning_rate": 4.773428461241805e-05,
	"loss": 0.2471,
	"step": 2380
	},
	{
	"epoch": 0.17,
	"grad_norm": 140455.671875,
	"learning_rate": 4.772223293482453e-05,
	"loss": 0.2496,
	"step": 2390
	},
	{
	"epoch": 0.17,
	"grad_norm": 356603.71875,
	"learning_rate": 4.771018125723101e-05,
	"loss": 0.2201,
	"step": 2400
	},
	{
	"epoch": 0.17,
	"eval_accuracy": 0.9059386209645277,
	"eval_f1": 0.9056498912765502,
	"eval_loss": 0.24249590933322906,
	"eval_precision": 0.9064880886538065,
	"eval_recall": 0.9059386209645277,
	"eval_runtime": 12.497,
	"eval_samples_per_second": 200.768,
	"eval_steps_per_second": 3.201,
	"step": 2400
	},
	{
	"epoch": 0.17,
	"grad_norm": 284860.53125,
	"learning_rate": 4.769812957963749e-05,
	"loss": 0.1525,
	"step": 2410
	},
	{
	"epoch": 0.17,
	"grad_norm": 250776.8125,
	"learning_rate": 4.768607790204397e-05,
	"loss": 0.2262,
	"step": 2420
	},
	{
	"epoch": 0.17,
	"grad_norm": 211438.5,
	"learning_rate": 4.7674026224450445e-05,
	"loss": 0.2277,
	"step": 2430
	},
	{
	"epoch": 0.17,
	"grad_norm": 368441.25,
	"learning_rate": 4.7661974546856926e-05,
	"loss": 0.259,
	"step": 2440
	},
	{
	"epoch": 0.18,
	"grad_norm": 241326.5,
	"learning_rate": 4.76499228692634e-05,
	"loss": 0.2286,
	"step": 2450
	},
	{
	"epoch": 0.18,
	"grad_norm": 98535.6640625,
	"learning_rate": 4.763787119166988e-05,
	"loss": 0.2078,
	"step": 2460
	},
	{
	"epoch": 0.18,
	"grad_norm": 254980.625,
	"learning_rate": 4.7625819514076363e-05,
	"loss": 0.2449,
	"step": 2470
	},
	{
	"epoch": 0.18,
	"grad_norm": 167483.0625,
	"learning_rate": 4.7613767836482845e-05,
	"loss": 0.2702,
	"step": 2480
	},
	{
	"epoch": 0.18,
	"grad_norm": 222062.484375,
	"learning_rate": 4.760171615888932e-05,
	"loss": 0.1956,
	"step": 2490
	},
	{
	"epoch": 0.18,
	"grad_norm": 405875.75,
	"learning_rate": 4.75896644812958e-05,
	"loss": 0.3332,
	"step": 2500
	},
	{
	"epoch": 0.18,
	"eval_accuracy": 0.9043443603029095,
	"eval_f1": 0.9044486833245423,
	"eval_loss": 0.22543533146381378,
	"eval_precision": 0.9048483388492391,
	"eval_recall": 0.9043443603029095,
	"eval_runtime": 12.4439,
	"eval_samples_per_second": 201.624,
	"eval_steps_per_second": 3.214,
	"step": 2500
	},
	{
	"epoch": 0.18,
	"grad_norm": 152190.84375,
	"learning_rate": 4.7577612803702275e-05,
	"loss": 0.2661,
	"step": 2510
	},
	{
	"epoch": 0.18,
	"grad_norm": 174183.640625,
	"learning_rate": 4.7565561126108756e-05,
	"loss": 0.2293,
	"step": 2520
	},
	{
	"epoch": 0.18,
	"grad_norm": 413301.1875,
	"learning_rate": 4.755350944851524e-05,
	"loss": 0.2136,
	"step": 2530
	},
	{
	"epoch": 0.18,
	"grad_norm": 536887.125,
	"learning_rate": 4.754145777092172e-05,
	"loss": 0.2134,
	"step": 2540
	},
	{
	"epoch": 0.18,
	"grad_norm": 276406.9375,
	"learning_rate": 4.752940609332819e-05,
	"loss": 0.2286,
	"step": 2550
	},
	{
	"epoch": 0.18,
	"grad_norm": 186448.703125,
	"learning_rate": 4.7517354415734674e-05,
	"loss": 0.2546,
	"step": 2560
	},
	{
	"epoch": 0.18,
	"grad_norm": 185627.4375,
	"learning_rate": 4.750530273814115e-05,
	"loss": 0.2528,
	"step": 2570
	},
	{
	"epoch": 0.18,
	"grad_norm": 368845.34375,
	"learning_rate": 4.749325106054763e-05,
	"loss": 0.2174,
	"step": 2580
	},
	{
	"epoch": 0.19,
	"grad_norm": 362864.34375,
	"learning_rate": 4.748119938295411e-05,
	"loss": 0.2209,
	"step": 2590
	},
	{
	"epoch": 0.19,
	"grad_norm": 91713.015625,
	"learning_rate": 4.7469147705360586e-05,
	"loss": 0.1843,
	"step": 2600
	},
	{
	"epoch": 0.19,
	"eval_accuracy": 0.8979673176564368,
	"eval_f1": 0.8970726226158635,
	"eval_loss": 0.2523791491985321,
	"eval_precision": 0.9019878131456466,
	"eval_recall": 0.8979673176564368,
	"eval_runtime": 12.4843,
	"eval_samples_per_second": 200.972,
	"eval_steps_per_second": 3.204,
	"step": 2600
	},
	{
	"epoch": 0.19,
	"grad_norm": 283047.71875,
	"learning_rate": 4.745709602776707e-05,
	"loss": 0.2767,
	"step": 2610
	},
	{
	"epoch": 0.19,
	"grad_norm": 256224.40625,
	"learning_rate": 4.744504435017355e-05,
	"loss": 0.2588,
	"step": 2620
	},
	{
	"epoch": 0.19,
	"grad_norm": 156059.90625,
	"learning_rate": 4.743299267258002e-05,
	"loss": 0.2688,
	"step": 2630
	},
	{
	"epoch": 0.19,
	"grad_norm": 165222.90625,
	"learning_rate": 4.7420940994986504e-05,
	"loss": 0.2281,
	"step": 2640
	},
	{
	"epoch": 0.19,
	"grad_norm": 84012.734375,
	"learning_rate": 4.7408889317392985e-05,
	"loss": 0.1764,
	"step": 2650
	},
	{
	"epoch": 0.19,
	"grad_norm": 146292.03125,
	"learning_rate": 4.739683763979946e-05,
	"loss": 0.2546,
	"step": 2660
	},
	{
	"epoch": 0.19,
	"grad_norm": 197499.578125,
	"learning_rate": 4.738478596220594e-05,
	"loss": 0.258,
	"step": 2670
	},
	{
	"epoch": 0.19,
	"grad_norm": 139515.015625,
	"learning_rate": 4.7372734284612416e-05,
	"loss": 0.2412,
	"step": 2680
	},
	{
	"epoch": 0.19,
	"grad_norm": 206191.359375,
	"learning_rate": 4.73606826070189e-05,
	"loss": 0.1909,
	"step": 2690
	},
	{
	"epoch": 0.19,
	"grad_norm": 263304.375,
	"learning_rate": 4.734863092942538e-05,
	"loss": 0.2728,
	"step": 2700
	},
	{
	"epoch": 0.19,
	"eval_accuracy": 0.8967716221602232,
	"eval_f1": 0.8957472911028488,
	"eval_loss": 0.23479728400707245,
	"eval_precision": 0.9016807725080417,
	"eval_recall": 0.8967716221602232,
	"eval_runtime": 12.4638,
	"eval_samples_per_second": 201.303,
	"eval_steps_per_second": 3.209,
	"step": 2700
	},
	{
	"epoch": 0.19,
	"grad_norm": 232704.671875,
	"learning_rate": 4.733657925183186e-05,
	"loss": 0.2076,
	"step": 2710
	},
	{
	"epoch": 0.19,
	"grad_norm": 479017.40625,
	"learning_rate": 4.7324527574238334e-05,
	"loss": 0.2137,
	"step": 2720
	},
	{
	"epoch": 0.2,
	"grad_norm": 279608.53125,
	"learning_rate": 4.7312475896644815e-05,
	"loss": 0.1979,
	"step": 2730
	},
	{
	"epoch": 0.2,
	"grad_norm": 185551.0,
	"learning_rate": 4.730042421905129e-05,
	"loss": 0.1977,
	"step": 2740
	},
	{
	"epoch": 0.2,
	"grad_norm": 222985.421875,
	"learning_rate": 4.728837254145777e-05,
	"loss": 0.2625,
	"step": 2750
	},
	{
	"epoch": 0.2,
	"grad_norm": 205608.65625,
	"learning_rate": 4.727632086386425e-05,
	"loss": 0.2073,
	"step": 2760
	},
	{
	"epoch": 0.2,
	"grad_norm": 251234.265625,
	"learning_rate": 4.7264269186270734e-05,
	"loss": 0.2447,
	"step": 2770
	},
	{
	"epoch": 0.2,
	"grad_norm": 513352.03125,
	"learning_rate": 4.725221750867721e-05,
	"loss": 0.3065,
	"step": 2780
	},
	{
	"epoch": 0.2,
	"grad_norm": 231737.0625,
	"learning_rate": 4.724016583108369e-05,
	"loss": 0.2311,
	"step": 2790
	},
	{
	"epoch": 0.2,
	"grad_norm": 309214.3125,
	"learning_rate": 4.7228114153490164e-05,
	"loss": 0.2131,
	"step": 2800
	},
	{
	"epoch": 0.2,
	"eval_accuracy": 0.913511359107214,
	"eval_f1": 0.9135765070264794,
	"eval_loss": 0.2209855616092682,
	"eval_precision": 0.9137703030306349,
	"eval_recall": 0.913511359107214,
	"eval_runtime": 12.5042,
	"eval_samples_per_second": 200.652,
	"eval_steps_per_second": 3.199,
	"step": 2800
	},
	{
	"epoch": 0.2,
	"grad_norm": 501373.90625,
	"learning_rate": 4.721606247589665e-05,
	"loss": 0.3289,
	"step": 2810
	},
	{
	"epoch": 0.2,
	"grad_norm": 121567.8046875,
	"learning_rate": 4.7204010798303126e-05,
	"loss": 0.1986,
	"step": 2820
	},
	{
	"epoch": 0.2,
	"grad_norm": 300041.3125,
	"learning_rate": 4.719195912070961e-05,
	"loss": 0.2294,
	"step": 2830
	},
	{
	"epoch": 0.2,
	"grad_norm": 458868.6875,
	"learning_rate": 4.717990744311608e-05,
	"loss": 0.2133,
	"step": 2840
	},
	{
	"epoch": 0.2,
	"grad_norm": 147848.984375,
	"learning_rate": 4.716785576552256e-05,
	"loss": 0.2769,
	"step": 2850
	},
	{
	"epoch": 0.2,
	"grad_norm": 332015.1875,
	"learning_rate": 4.715580408792904e-05,
	"loss": 0.22,
	"step": 2860
	},
	{
	"epoch": 0.21,
	"grad_norm": 472249.4375,
	"learning_rate": 4.7143752410335526e-05,
	"loss": 0.2495,
	"step": 2870
	},
	{
	"epoch": 0.21,
	"grad_norm": 967262.6875,
	"learning_rate": 4.7131700732742e-05,
	"loss": 0.2312,
	"step": 2880
	},
	{
	"epoch": 0.21,
	"grad_norm": 341954.1875,
	"learning_rate": 4.711964905514848e-05,
	"loss": 0.1765,
	"step": 2890
	},
	{
	"epoch": 0.21,
	"grad_norm": 464634.5625,
	"learning_rate": 4.7107597377554956e-05,
	"loss": 0.19,
	"step": 2900
	},
	{
	"epoch": 0.21,
	"eval_accuracy": 0.9123156636110004,
	"eval_f1": 0.9120359608178479,
	"eval_loss": 0.22591687738895416,
	"eval_precision": 0.9129663507904072,
	"eval_recall": 0.9123156636110004,
	"eval_runtime": 12.4552,
	"eval_samples_per_second": 201.442,
	"eval_steps_per_second": 3.212,
	"step": 2900
	},
	{
	"epoch": 0.21,
	"grad_norm": 241272.703125,
	"learning_rate": 4.709554569996144e-05,
	"loss": 0.1981,
	"step": 2910
	},
	{
	"epoch": 0.21,
	"grad_norm": 204981.140625,
	"learning_rate": 4.708349402236791e-05,
	"loss": 0.1911,
	"step": 2920
	},
	{
	"epoch": 0.21,
	"grad_norm": 327311.375,
	"learning_rate": 4.70714423447744e-05,
	"loss": 0.249,
	"step": 2930
	},
	{
	"epoch": 0.21,
	"grad_norm": 375379.96875,
	"learning_rate": 4.7059390667180874e-05,
	"loss": 0.1629,
	"step": 2940
	},
	{
	"epoch": 0.21,
	"grad_norm": 277301.8125,
	"learning_rate": 4.7047338989587356e-05,
	"loss": 0.2026,
	"step": 2950
	},
	{
	"epoch": 0.21,
	"grad_norm": 327376.71875,
	"learning_rate": 4.703528731199383e-05,
	"loss": 0.271,
	"step": 2960
	},
	{
	"epoch": 0.21,
	"grad_norm": 136987.484375,
	"learning_rate": 4.702323563440031e-05,
	"loss": 0.1453,
	"step": 2970
	},
	{
	"epoch": 0.21,
	"grad_norm": 353965.59375,
	"learning_rate": 4.701118395680679e-05,
	"loss": 0.2407,
	"step": 2980
	},
	{
	"epoch": 0.21,
	"grad_norm": 247193.09375,
	"learning_rate": 4.6999132279213274e-05,
	"loss": 0.1739,
	"step": 2990
	},
	{
	"epoch": 0.21,
	"grad_norm": 219308.640625,
	"learning_rate": 4.698708060161975e-05,
	"loss": 0.2099,
	"step": 3000
	},
	{
	"epoch": 0.21,
	"eval_accuracy": 0.9023515344758868,
	"eval_f1": 0.9016339685231911,
	"eval_loss": 0.2813716530799866,
	"eval_precision": 0.9054013251007967,
	"eval_recall": 0.9023515344758868,
	"eval_runtime": 12.4697,
	"eval_samples_per_second": 201.208,
	"eval_steps_per_second": 3.208,
	"step": 3000
	},
	{
	"epoch": 0.22,
	"grad_norm": 480314.5625,
	"learning_rate": 4.697502892402623e-05,
	"loss": 0.2492,
	"step": 3010
	},
	{
	"epoch": 0.22,
	"grad_norm": 327667.5,
	"learning_rate": 4.6962977246432704e-05,
	"loss": 0.2386,
	"step": 3020
	},
	{
	"epoch": 0.22,
	"grad_norm": 361772.9375,
	"learning_rate": 4.6950925568839185e-05,
	"loss": 0.2363,
	"step": 3030
	},
	{
	"epoch": 0.22,
	"grad_norm": 281198.5625,
	"learning_rate": 4.6938873891245667e-05,
	"loss": 0.2199,
	"step": 3040
	},
	{
	"epoch": 0.22,
	"grad_norm": 435042.5,
	"learning_rate": 4.692682221365214e-05,
	"loss": 0.2985,
	"step": 3050
	},
	{
	"epoch": 0.22,
	"grad_norm": 175672.875,
	"learning_rate": 4.691477053605862e-05,
	"loss": 0.2279,
	"step": 3060
	},
	{
	"epoch": 0.22,
	"grad_norm": 342795.84375,
	"learning_rate": 4.69027188584651e-05,
	"loss": 0.2441,
	"step": 3070
	},
	{
	"epoch": 0.22,
	"grad_norm": 288277.53125,
	"learning_rate": 4.689066718087158e-05,
	"loss": 0.2576,
	"step": 3080
	},
	{
	"epoch": 0.22,
	"grad_norm": 121460.078125,
	"learning_rate": 4.687861550327806e-05,
	"loss": 0.247,
	"step": 3090
	},
	{
	"epoch": 0.22,
	"grad_norm": 401488.15625,
	"learning_rate": 4.686656382568454e-05,
	"loss": 0.2209,
	"step": 3100
	},
	{
	"epoch": 0.22,
	"eval_accuracy": 0.9051414906337186,
	"eval_f1": 0.9046116025347221,
	"eval_loss": 0.2472696155309677,
	"eval_precision": 0.9070370928171988,
	"eval_recall": 0.9051414906337186,
	"eval_runtime": 12.4813,
	"eval_samples_per_second": 201.021,
	"eval_steps_per_second": 3.205,
	"step": 3100
	},
	{
	"epoch": 0.22,
	"grad_norm": 377680.78125,
	"learning_rate": 4.6854512148091015e-05,
	"loss": 0.288,
	"step": 3110
	},
	{
	"epoch": 0.22,
	"grad_norm": 233974.625,
	"learning_rate": 4.6842460470497496e-05,
	"loss": 0.2491,
	"step": 3120
	},
	{
	"epoch": 0.22,
	"grad_norm": 334937.875,
	"learning_rate": 4.683040879290397e-05,
	"loss": 0.2163,
	"step": 3130
	},
	{
	"epoch": 0.22,
	"grad_norm": 440934.28125,
	"learning_rate": 4.681835711531045e-05,
	"loss": 0.2135,
	"step": 3140
	},
	{
	"epoch": 0.23,
	"grad_norm": 103967.03125,
	"learning_rate": 4.680630543771693e-05,
	"loss": 0.1934,
	"step": 3150
	},
	{
	"epoch": 0.23,
	"grad_norm": 213988.359375,
	"learning_rate": 4.6794253760123415e-05,
	"loss": 0.2356,
	"step": 3160
	},
	{
	"epoch": 0.23,
	"grad_norm": 231522.921875,
	"learning_rate": 4.678220208252989e-05,
	"loss": 0.2235,
	"step": 3170
	},
	{
	"epoch": 0.23,
	"grad_norm": 301749.78125,
	"learning_rate": 4.677015040493637e-05,
	"loss": 0.2005,
	"step": 3180
	},
	{
	"epoch": 0.23,
	"grad_norm": 163900.3125,
	"learning_rate": 4.6758098727342845e-05,
	"loss": 0.1628,
	"step": 3190
	},
	{
	"epoch": 0.23,
	"grad_norm": 220932.828125,
	"learning_rate": 4.6746047049749326e-05,
	"loss": 0.2366,
	"step": 3200
	},
	{
	"epoch": 0.23,
	"eval_accuracy": 0.8991630131526505,
	"eval_f1": 0.8983219782452526,
	"eval_loss": 0.256120890378952,
	"eval_precision": 0.9028826072820753,
	"eval_recall": 0.8991630131526505,
	"eval_runtime": 12.4914,
	"eval_samples_per_second": 200.858,
	"eval_steps_per_second": 3.202,
	"step": 3200
	},
	{
	"epoch": 0.23,
	"grad_norm": 140245.703125,
	"learning_rate": 4.673399537215581e-05,
	"loss": 0.188,
	"step": 3210
	},
	{
	"epoch": 0.23,
	"grad_norm": 56319.390625,
	"learning_rate": 4.672194369456229e-05,
	"loss": 0.2311,
	"step": 3220
	},
	{
	"epoch": 0.23,
	"grad_norm": 417635.46875,
	"learning_rate": 4.670989201696876e-05,
	"loss": 0.2028,
	"step": 3230
	},
	{
	"epoch": 0.23,
	"grad_norm": 257533.140625,
	"learning_rate": 4.6697840339375244e-05,
	"loss": 0.2448,
	"step": 3240
	},
	{
	"epoch": 0.23,
	"grad_norm": 134527.328125,
	"learning_rate": 4.668578866178172e-05,
	"loss": 0.255,
	"step": 3250
	},
	{
	"epoch": 0.23,
	"grad_norm": 241991.234375,
	"learning_rate": 4.66737369841882e-05,
	"loss": 0.2519,
	"step": 3260
	},
	{
	"epoch": 0.23,
	"grad_norm": 292576.84375,
	"learning_rate": 4.666168530659468e-05,
	"loss": 0.2186,
	"step": 3270
	},
	{
	"epoch": 0.23,
	"grad_norm": 172253.8125,
	"learning_rate": 4.664963362900116e-05,
	"loss": 0.2119,
	"step": 3280
	},
	{
	"epoch": 0.24,
	"grad_norm": 162594.703125,
	"learning_rate": 4.663758195140764e-05,
	"loss": 0.2266,
	"step": 3290
	},
	{
	"epoch": 0.24,
	"grad_norm": 291196.75,
	"learning_rate": 4.662553027381412e-05,
	"loss": 0.3156,
	"step": 3300
	},
	{
	"epoch": 0.24,
	"eval_accuracy": 0.9095257074531686,
	"eval_f1": 0.9094360946444322,
	"eval_loss": 0.21921035647392273,
	"eval_precision": 0.9095010570473924,
	"eval_recall": 0.9095257074531686,
	"eval_runtime": 12.4898,
	"eval_samples_per_second": 200.883,
	"eval_steps_per_second": 3.203,
	"step": 3300
	},
	{
	"epoch": 0.24,
	"grad_norm": 359450.15625,
	"learning_rate": 4.661347859622059e-05,
	"loss": 0.1919,
	"step": 3310
	},
	{
	"epoch": 0.24,
	"grad_norm": 356027.1875,
	"learning_rate": 4.6601426918627074e-05,
	"loss": 0.1946,
	"step": 3320
	},
	{
	"epoch": 0.24,
	"grad_norm": 228787.578125,
	"learning_rate": 4.6589375241033555e-05,
	"loss": 0.2353,
	"step": 3330
	},
	{
	"epoch": 0.24,
	"grad_norm": 213314.375,
	"learning_rate": 4.6577323563440037e-05,
	"loss": 0.21,
	"step": 3340
	},
	{
	"epoch": 0.24,
	"grad_norm": 229541.46875,
	"learning_rate": 4.656527188584651e-05,
	"loss": 0.2157,
	"step": 3350
	},
	{
	"epoch": 0.24,
	"grad_norm": 424003.65625,
	"learning_rate": 4.655322020825299e-05,
	"loss": 0.2202,
	"step": 3360
	},
	{
	"epoch": 0.24,
	"grad_norm": 274433.0,
	"learning_rate": 4.654116853065947e-05,
	"loss": 0.2101,
	"step": 3370
	},
	{
	"epoch": 0.24,
	"grad_norm": 585877.375,
	"learning_rate": 4.6529116853065955e-05,
	"loss": 0.227,
	"step": 3380
	},
	{
	"epoch": 0.24,
	"grad_norm": 168976.125,
	"learning_rate": 4.651706517547243e-05,
	"loss": 0.2004,
	"step": 3390
	},
	{
	"epoch": 0.24,
	"grad_norm": 247893.96875,
	"learning_rate": 4.650501349787891e-05,
	"loss": 0.197,
	"step": 3400
	},
	{
	"epoch": 0.24,
	"eval_accuracy": 0.9063371861299322,
	"eval_f1": 0.9056639403550047,
	"eval_loss": 0.2382478266954422,
	"eval_precision": 0.9093486961575057,
	"eval_recall": 0.9063371861299322,
	"eval_runtime": 12.4721,
	"eval_samples_per_second": 201.168,
	"eval_steps_per_second": 3.207,
	"step": 3400
	},
	{
	"epoch": 0.24,
	"grad_norm": 418813.09375,
	"learning_rate": 4.6492961820285385e-05,
	"loss": 0.2256,
	"step": 3410
	},
	{
	"epoch": 0.24,
	"grad_norm": 273254.46875,
	"learning_rate": 4.6480910142691866e-05,
	"loss": 0.3162,
	"step": 3420
	},
	{
	"epoch": 0.25,
	"grad_norm": 222690.640625,
	"learning_rate": 4.646885846509834e-05,
	"loss": 0.2528,
	"step": 3430
	},
	{
	"epoch": 0.25,
	"grad_norm": 332726.59375,
	"learning_rate": 4.645680678750482e-05,
	"loss": 0.222,
	"step": 3440
	},
	{
	"epoch": 0.25,
	"grad_norm": 122768.3515625,
	"learning_rate": 4.64447551099113e-05,
	"loss": 0.2721,
	"step": 3450
	},
	{
	"epoch": 0.25,
	"grad_norm": 177160.875,
	"learning_rate": 4.643270343231778e-05,
	"loss": 0.2322,
	"step": 3460
	},
	{
	"epoch": 0.25,
	"grad_norm": 492673.46875,
	"learning_rate": 4.642065175472426e-05,
	"loss": 0.2355,
	"step": 3470
	},
	{
	"epoch": 0.25,
	"grad_norm": 120090.96875,
	"learning_rate": 4.640860007713074e-05,
	"loss": 0.2207,
	"step": 3480
	},
	{
	"epoch": 0.25,
	"grad_norm": 199731.515625,
	"learning_rate": 4.6396548399537215e-05,
	"loss": 0.1873,
	"step": 3490
	},
	{
	"epoch": 0.25,
	"grad_norm": 337224.9375,
	"learning_rate": 4.6384496721943696e-05,
	"loss": 0.2371,
	"step": 3500
	},
	{
	"epoch": 0.25,
	"eval_accuracy": 0.9139099242726185,
	"eval_f1": 0.9141014321392996,
	"eval_loss": 0.22432319819927216,
	"eval_precision": 0.9166452044770947,
	"eval_recall": 0.9139099242726185,
	"eval_runtime": 12.4637,
	"eval_samples_per_second": 201.305,
	"eval_steps_per_second": 3.209,
	"step": 3500
	},
	{
	"epoch": 0.25,
	"grad_norm": 144981.5625,
	"learning_rate": 4.637244504435018e-05,
	"loss": 0.2471,
	"step": 3510
	},
	{
	"epoch": 0.25,
	"grad_norm": 535936.1875,
	"learning_rate": 4.636039336675665e-05,
	"loss": 0.2198,
	"step": 3520
	},
	{
	"epoch": 0.25,
	"grad_norm": 262519.0,
	"learning_rate": 4.634834168916313e-05,
	"loss": 0.1173,
	"step": 3530
	},
	{
	"epoch": 0.25,
	"grad_norm": 408279.0625,
	"learning_rate": 4.633629001156961e-05,
	"loss": 0.2529,
	"step": 3540
	},
	{
	"epoch": 0.25,
	"grad_norm": 334028.15625,
	"learning_rate": 4.6324238333976096e-05,
	"loss": 0.2309,
	"step": 3550
	},
	{
	"epoch": 0.25,
	"grad_norm": 180496.734375,
	"learning_rate": 4.631218665638257e-05,
	"loss": 0.1904,
	"step": 3560
	},
	{
	"epoch": 0.26,
	"grad_norm": 247550.046875,
	"learning_rate": 4.630013497878905e-05,
	"loss": 0.2689,
	"step": 3570
	},
	{
	"epoch": 0.26,
	"grad_norm": 203775.171875,
	"learning_rate": 4.6288083301195526e-05,
	"loss": 0.2308,
	"step": 3580
	},
	{
	"epoch": 0.26,
	"grad_norm": 114762.5703125,
	"learning_rate": 4.627603162360201e-05,
	"loss": 0.1804,
	"step": 3590
	},
	{
	"epoch": 0.26,
	"grad_norm": 333855.78125,
	"learning_rate": 4.626397994600848e-05,
	"loss": 0.2273,
	"step": 3600
	},
	{
	"epoch": 0.26,
	"eval_accuracy": 0.913511359107214,
	"eval_f1": 0.9130592850413116,
	"eval_loss": 0.23622463643550873,
	"eval_precision": 0.9152968112748071,
	"eval_recall": 0.913511359107214,
	"eval_runtime": 12.479,
	"eval_samples_per_second": 201.057,
	"eval_steps_per_second": 3.205,
	"step": 3600
	},
	{
	"epoch": 0.26,
	"grad_norm": 156201.640625,
	"learning_rate": 4.625192826841497e-05,
	"loss": 0.1892,
	"step": 3610
	},
	{
	"epoch": 0.26,
	"grad_norm": 208585.484375,
	"learning_rate": 4.6239876590821444e-05,
	"loss": 0.2036,
	"step": 3620
	},
	{
	"epoch": 0.26,
	"grad_norm": 457924.40625,
	"learning_rate": 4.6227824913227925e-05,
	"loss": 0.2847,
	"step": 3630
	},
	{
	"epoch": 0.26,
	"grad_norm": 255040.125,
	"learning_rate": 4.62157732356344e-05,
	"loss": 0.1938,
	"step": 3640
	},
	{
	"epoch": 0.26,
	"grad_norm": 183455.359375,
	"learning_rate": 4.620372155804088e-05,
	"loss": 0.1977,
	"step": 3650
	},
	{
	"epoch": 0.26,
	"grad_norm": 344806.9375,
	"learning_rate": 4.6191669880447356e-05,
	"loss": 0.255,
	"step": 3660
	},
	{
	"epoch": 0.26,
	"grad_norm": 445422.90625,
	"learning_rate": 4.6179618202853844e-05,
	"loss": 0.167,
	"step": 3670
	},
	{
	"epoch": 0.26,
	"grad_norm": 228799.640625,
	"learning_rate": 4.616756652526032e-05,
	"loss": 0.1926,
	"step": 3680
	},
	{
	"epoch": 0.26,
	"grad_norm": 211847.53125,
	"learning_rate": 4.61555148476668e-05,
	"loss": 0.1977,
	"step": 3690
	},
	{
	"epoch": 0.26,
	"grad_norm": 337014.65625,
	"learning_rate": 4.6143463170073274e-05,
	"loss": 0.2504,
	"step": 3700
	},
	{
	"epoch": 0.26,
	"eval_accuracy": 0.8888003188521323,
	"eval_f1": 0.8873066761801871,
	"eval_loss": 0.2670985162258148,
	"eval_precision": 0.8964616545609316,
	"eval_recall": 0.8888003188521323,
	"eval_runtime": 12.4722,
	"eval_samples_per_second": 201.168,
	"eval_steps_per_second": 3.207,
	"step": 3700
	},
	{
	"epoch": 0.27,
	"grad_norm": 168669.875,
	"learning_rate": 4.6131411492479755e-05,
	"loss": 0.2568,
	"step": 3710
	},
	{
	"epoch": 0.27,
	"grad_norm": 390192.53125,
	"learning_rate": 4.6119359814886236e-05,
	"loss": 0.292,
	"step": 3720
	},
	{
	"epoch": 0.27,
	"grad_norm": 381233.5,
	"learning_rate": 4.610730813729272e-05,
	"loss": 0.2383,
	"step": 3730
	},
	{
	"epoch": 0.27,
	"grad_norm": 201262.109375,
	"learning_rate": 4.609525645969919e-05,
	"loss": 0.2706,
	"step": 3740
	},
	{
	"epoch": 0.27,
	"grad_norm": 159978.65625,
	"learning_rate": 4.6083204782105673e-05,
	"loss": 0.2194,
	"step": 3750
	},
	{
	"epoch": 0.27,
	"grad_norm": 334120.59375,
	"learning_rate": 4.607115310451215e-05,
	"loss": 0.2306,
	"step": 3760
	},
	{
	"epoch": 0.27,
	"grad_norm": 204698.265625,
	"learning_rate": 4.605910142691863e-05,
	"loss": 0.1931,
	"step": 3770
	},
	{
	"epoch": 0.27,
	"grad_norm": 354762.46875,
	"learning_rate": 4.604704974932511e-05,
	"loss": 0.2498,
	"step": 3780
	},
	{
	"epoch": 0.27,
	"grad_norm": 279956.8125,
	"learning_rate": 4.603499807173159e-05,
	"loss": 0.238,
	"step": 3790
	},
	{
	"epoch": 0.27,
	"grad_norm": 204264.0625,
	"learning_rate": 4.6022946394138066e-05,
	"loss": 0.1978,
	"step": 3800
	},
	{
	"epoch": 0.27,
	"eval_accuracy": 0.917098445595855,
	"eval_f1": 0.9169802729066538,
	"eval_loss": 0.20485247671604156,
	"eval_precision": 0.9171643432118469,
	"eval_recall": 0.917098445595855,
	"eval_runtime": 12.4749,
	"eval_samples_per_second": 201.125,
	"eval_steps_per_second": 3.206,
	"step": 3800
	},
	{
	"epoch": 0.27,
	"grad_norm": 224777.34375,
	"learning_rate": 4.601089471654455e-05,
	"loss": 0.1953,
	"step": 3810
	},
	{
	"epoch": 0.27,
	"grad_norm": 233138.46875,
	"learning_rate": 4.599884303895102e-05,
	"loss": 0.2356,
	"step": 3820
	},
	{
	"epoch": 0.27,
	"grad_norm": 130433.8515625,
	"learning_rate": 4.59867913613575e-05,
	"loss": 0.2269,
	"step": 3830
	},
	{
	"epoch": 0.27,
	"grad_norm": 208775.78125,
	"learning_rate": 4.5974739683763984e-05,
	"loss": 0.2384,
	"step": 3840
	},
	{
	"epoch": 0.28,
	"grad_norm": 195953.21875,
	"learning_rate": 4.5962688006170466e-05,
	"loss": 0.1926,
	"step": 3850
	},
	{
	"epoch": 0.28,
	"grad_norm": 169765.890625,
	"learning_rate": 4.595063632857694e-05,
	"loss": 0.2259,
	"step": 3860
	},
	{
	"epoch": 0.28,
	"grad_norm": 216638.4375,
	"learning_rate": 4.593858465098342e-05,
	"loss": 0.2306,
	"step": 3870
	},
	{
	"epoch": 0.28,
	"grad_norm": 219986.3125,
	"learning_rate": 4.5926532973389896e-05,
	"loss": 0.2169,
	"step": 3880
	},
	{
	"epoch": 0.28,
	"grad_norm": 525753.625,
	"learning_rate": 4.591448129579638e-05,
	"loss": 0.1942,
	"step": 3890
	},
	{
	"epoch": 0.28,
	"grad_norm": 207980.359375,
	"learning_rate": 4.590242961820286e-05,
	"loss": 0.2189,
	"step": 3900
	},
	{
	"epoch": 0.28,
	"eval_accuracy": 0.9099242726185731,
	"eval_f1": 0.9098638649336764,
	"eval_loss": 0.22675587236881256,
	"eval_precision": 0.9098782103745078,
	"eval_recall": 0.9099242726185731,
	"eval_runtime": 12.4751,
	"eval_samples_per_second": 201.121,
	"eval_steps_per_second": 3.206,
	"step": 3900
	},
	{
	"epoch": 0.28,
	"grad_norm": 167927.484375,
	"learning_rate": 4.589037794060933e-05,
	"loss": 0.2138,
	"step": 3910
	},
	{
	"epoch": 0.28,
	"grad_norm": 549348.0,
	"learning_rate": 4.5878326263015814e-05,
	"loss": 0.2528,
	"step": 3920
	},
	{
	"epoch": 0.28,
	"grad_norm": 86471.5546875,
	"learning_rate": 4.586627458542229e-05,
	"loss": 0.188,
	"step": 3930
	},
	{
	"epoch": 0.28,
	"grad_norm": 349328.78125,
	"learning_rate": 4.585422290782877e-05,
	"loss": 0.215,
	"step": 3940
	},
	{
	"epoch": 0.28,
	"grad_norm": 222607.4375,
	"learning_rate": 4.584217123023525e-05,
	"loss": 0.2179,
	"step": 3950
	},
	{
	"epoch": 0.28,
	"grad_norm": 304011.5,
	"learning_rate": 4.583011955264173e-05,
	"loss": 0.2179,
	"step": 3960
	},
	{
	"epoch": 0.28,
	"grad_norm": 150350.171875,
	"learning_rate": 4.581806787504821e-05,
	"loss": 0.2505,
	"step": 3970
	},
	{
	"epoch": 0.28,
	"grad_norm": 212958.984375,
	"learning_rate": 4.580601619745469e-05,
	"loss": 0.2408,
	"step": 3980
	},
	{
	"epoch": 0.29,
	"grad_norm": 118683.5703125,
	"learning_rate": 4.579396451986116e-05,
	"loss": 0.2103,
	"step": 3990
	},
	{
	"epoch": 0.29,
	"grad_norm": 160386.796875,
	"learning_rate": 4.5781912842267644e-05,
	"loss": 0.2171,
	"step": 4000
	},
	{
	"epoch": 0.29,
	"eval_accuracy": 0.9163013152650459,
	"eval_f1": 0.9161651055562922,
	"eval_loss": 0.213547021150589,
	"eval_precision": 0.9164113566074957,
	"eval_recall": 0.9163013152650459,
	"eval_runtime": 12.4758,
	"eval_samples_per_second": 201.11,
	"eval_steps_per_second": 3.206,
	"step": 4000
	},
	{
	"epoch": 0.29,
	"grad_norm": 284341.65625,
	"learning_rate": 4.5769861164674125e-05,
	"loss": 0.2502,
	"step": 4010
	},
	{
	"epoch": 0.29,
	"grad_norm": 210621.484375,
	"learning_rate": 4.5757809487080606e-05,
	"loss": 0.2148,
	"step": 4020
	},
	{
	"epoch": 0.29,
	"grad_norm": 437063.46875,
	"learning_rate": 4.574575780948708e-05,
	"loss": 0.2505,
	"step": 4030
	},
	{
	"epoch": 0.29,
	"grad_norm": 212374.59375,
	"learning_rate": 4.573370613189356e-05,
	"loss": 0.213,
	"step": 4040
	},
	{
	"epoch": 0.29,
	"grad_norm": 158491.328125,
	"learning_rate": 4.572165445430004e-05,
	"loss": 0.2041,
	"step": 4050
	},
	{
	"epoch": 0.29,
	"grad_norm": 386332.40625,
	"learning_rate": 4.570960277670652e-05,
	"loss": 0.2476,
	"step": 4060
	},
	{
	"epoch": 0.29,
	"grad_norm": 100670.15625,
	"learning_rate": 4.5697551099113e-05,
	"loss": 0.1967,
	"step": 4070
	},
	{
	"epoch": 0.29,
	"grad_norm": 486919.75,
	"learning_rate": 4.568549942151948e-05,
	"loss": 0.1781,
	"step": 4080
	},
	{
	"epoch": 0.29,
	"grad_norm": 261833.109375,
	"learning_rate": 4.5673447743925955e-05,
	"loss": 0.2773,
	"step": 4090
	},
	{
	"epoch": 0.29,
	"grad_norm": 290765.3125,
	"learning_rate": 4.5661396066332436e-05,
	"loss": 0.2325,
	"step": 4100
	},
	{
	"epoch": 0.29,
	"eval_accuracy": 0.8915902750099641,
	"eval_f1": 0.8904847371544249,
	"eval_loss": 0.26240846514701843,
	"eval_precision": 0.8965748968593881,
	"eval_recall": 0.8915902750099641,
	"eval_runtime": 12.4947,
	"eval_samples_per_second": 200.805,
	"eval_steps_per_second": 3.201,
	"step": 4100
	},
	{
	"epoch": 0.29,
	"grad_norm": 645535.5,
	"learning_rate": 4.564934438873891e-05,
	"loss": 0.1845,
	"step": 4110
	},
	{
	"epoch": 0.29,
	"grad_norm": 709512.5,
	"learning_rate": 4.56372927111454e-05,
	"loss": 0.2641,
	"step": 4120
	},
	{
	"epoch": 0.3,
	"grad_norm": 194677.859375,
	"learning_rate": 4.562524103355187e-05,
	"loss": 0.275,
	"step": 4130
	},
	{
	"epoch": 0.3,
	"grad_norm": 153537.4375,
	"learning_rate": 4.5613189355958354e-05,
	"loss": 0.2616,
	"step": 4140
	},
	{
	"epoch": 0.3,
	"grad_norm": 168272.890625,
	"learning_rate": 4.560113767836483e-05,
	"loss": 0.2226,
	"step": 4150
	},
	{
	"epoch": 0.3,
	"grad_norm": 311794.625,
	"learning_rate": 4.558908600077131e-05,
	"loss": 0.2237,
	"step": 4160
	},
	{
	"epoch": 0.3,
	"grad_norm": 312384.03125,
	"learning_rate": 4.5577034323177785e-05,
	"loss": 0.2552,
	"step": 4170
	},
	{
	"epoch": 0.3,
	"grad_norm": 177459.375,
	"learning_rate": 4.556498264558427e-05,
	"loss": 0.1759,
	"step": 4180
	},
	{
	"epoch": 0.3,
	"grad_norm": 281611.59375,
	"learning_rate": 4.555293096799075e-05,
	"loss": 0.2031,
	"step": 4190
	},
	{
	"epoch": 0.3,
	"grad_norm": 201760.8125,
	"learning_rate": 4.554087929039723e-05,
	"loss": 0.1888,
	"step": 4200
	},
	{
	"epoch": 0.3,
	"eval_accuracy": 0.8923874053407732,
	"eval_f1": 0.8911264735256401,
	"eval_loss": 0.2877594530582428,
	"eval_precision": 0.8986690061249697,
	"eval_recall": 0.8923874053407732,
	"eval_runtime": 12.4645,
	"eval_samples_per_second": 201.292,
	"eval_steps_per_second": 3.209,
	"step": 4200
	},
	{
	"epoch": 0.3,
	"grad_norm": 120513.65625,
	"learning_rate": 4.55288276128037e-05,
	"loss": 0.1995,
	"step": 4210
	},
	{
	"epoch": 0.3,
	"grad_norm": 236276.1875,
	"learning_rate": 4.5516775935210184e-05,
	"loss": 0.1812,
	"step": 4220
	},
	{
	"epoch": 0.3,
	"grad_norm": 315676.4375,
	"learning_rate": 4.550472425761666e-05,
	"loss": 0.2993,
	"step": 4230
	},
	{
	"epoch": 0.3,
	"grad_norm": 184856.0,
	"learning_rate": 4.549267258002315e-05,
	"loss": 0.2441,
	"step": 4240
	},
	{
	"epoch": 0.3,
	"grad_norm": 636716.1875,
	"learning_rate": 4.548062090242962e-05,
	"loss": 0.2447,
	"step": 4250
	},
	{
	"epoch": 0.3,
	"grad_norm": 235927.671875,
	"learning_rate": 4.54685692248361e-05,
	"loss": 0.2051,
	"step": 4260
	},
	{
	"epoch": 0.31,
	"grad_norm": 243305.515625,
	"learning_rate": 4.545651754724258e-05,
	"loss": 0.2596,
	"step": 4270
	},
	{
	"epoch": 0.31,
	"grad_norm": 370063.59375,
	"learning_rate": 4.544446586964906e-05,
	"loss": 0.2223,
	"step": 4280
	},
	{
	"epoch": 0.31,
	"grad_norm": 585004.625,
	"learning_rate": 4.543241419205554e-05,
	"loss": 0.2075,
	"step": 4290
	},
	{
	"epoch": 0.31,
	"grad_norm": 262047.875,
	"learning_rate": 4.5420362514462014e-05,
	"loss": 0.2345,
	"step": 4300
	},
	{
	"epoch": 0.31,
	"eval_accuracy": 0.8963730569948186,
	"eval_f1": 0.8953353148714563,
	"eval_loss": 0.24442929029464722,
	"eval_precision": 0.9013455886413335,
	"eval_recall": 0.8963730569948186,
	"eval_runtime": 12.4824,
	"eval_samples_per_second": 201.004,
	"eval_steps_per_second": 3.205,
	"step": 4300
	},
	{
	"epoch": 0.31,
	"grad_norm": 127394.015625,
	"learning_rate": 4.5408310836868495e-05,
	"loss": 0.1995,
	"step": 4310
	},
	{
	"epoch": 0.31,
	"grad_norm": 405064.8125,
	"learning_rate": 4.539625915927497e-05,
	"loss": 0.2691,
	"step": 4320
	},
	{
	"epoch": 0.31,
	"grad_norm": 632551.125,
	"learning_rate": 4.538420748168145e-05,
	"loss": 0.2758,
	"step": 4330
	},
	{
	"epoch": 0.31,
	"grad_norm": 103708.234375,
	"learning_rate": 4.537215580408793e-05,
	"loss": 0.2373,
	"step": 4340
	},
	{
	"epoch": 0.31,
	"grad_norm": 231929.875,
	"learning_rate": 4.5360104126494414e-05,
	"loss": 0.2152,
	"step": 4350
	},
	{
	"epoch": 0.31,
	"grad_norm": 302502.03125,
	"learning_rate": 4.534805244890089e-05,
	"loss": 0.2068,
	"step": 4360
	},
	{
	"epoch": 0.31,
	"grad_norm": 278650.0625,
	"learning_rate": 4.533600077130737e-05,
	"loss": 0.2494,
	"step": 4370
	},
	{
	"epoch": 0.31,
	"grad_norm": 224905.484375,
	"learning_rate": 4.5323949093713844e-05,
	"loss": 0.2022,
	"step": 4380
	},
	{
	"epoch": 0.31,
	"grad_norm": 279063.75,
	"learning_rate": 4.5311897416120325e-05,
	"loss": 0.2295,
	"step": 4390
	},
	{
	"epoch": 0.31,
	"grad_norm": 163691.515625,
	"learning_rate": 4.52998457385268e-05,
	"loss": 0.1688,
	"step": 4400
	},
	{
	"epoch": 0.31,
	"eval_accuracy": 0.908330011956955,
	"eval_f1": 0.9077357266944889,
	"eval_loss": 0.2479422241449356,
	"eval_precision": 0.9108744090612344,
	"eval_recall": 0.908330011956955,
	"eval_runtime": 12.5049,
	"eval_samples_per_second": 200.641,
	"eval_steps_per_second": 3.199,
	"step": 4400
	},
	{
	"epoch": 0.32,
	"grad_norm": 327312.96875,
	"learning_rate": 4.528779406093329e-05,
	"loss": 0.1556,
	"step": 4410
	},
	{
	"epoch": 0.32,
	"grad_norm": 274013.09375,
	"learning_rate": 4.527574238333976e-05,
	"loss": 0.2903,
	"step": 4420
	},
	{
	"epoch": 0.32,
	"grad_norm": 227320.96875,
	"learning_rate": 4.526369070574624e-05,
	"loss": 0.2432,
	"step": 4430
	},
	{
	"epoch": 0.32,
	"grad_norm": 101987.640625,
	"learning_rate": 4.525163902815272e-05,
	"loss": 0.2176,
	"step": 4440
	},
	{
	"epoch": 0.32,
	"grad_norm": 225351.109375,
	"learning_rate": 4.52395873505592e-05,
	"loss": 0.1864,
	"step": 4450
	},
	{
	"epoch": 0.32,
	"grad_norm": 208051.765625,
	"learning_rate": 4.5227535672965674e-05,
	"loss": 0.2659,
	"step": 4460
	},
	{
	"epoch": 0.32,
	"grad_norm": 342590.03125,
	"learning_rate": 4.521548399537216e-05,
	"loss": 0.2199,
	"step": 4470
	},
	{
	"epoch": 0.32,
	"grad_norm": 216820.671875,
	"learning_rate": 4.5203432317778636e-05,
	"loss": 0.2149,
	"step": 4480
	},
	{
	"epoch": 0.32,
	"grad_norm": 138170.34375,
	"learning_rate": 4.519138064018512e-05,
	"loss": 0.2442,
	"step": 4490
	},
	{
	"epoch": 0.32,
	"grad_norm": 247797.890625,
	"learning_rate": 4.517932896259159e-05,
	"loss": 0.2083,
	"step": 4500
	},
	{
	"epoch": 0.32,
	"eval_accuracy": 0.913511359107214,
	"eval_f1": 0.9130955830993255,
	"eval_loss": 0.21996097266674042,
	"eval_precision": 0.9150368156806639,
	"eval_recall": 0.913511359107214,
	"eval_runtime": 12.4935,
	"eval_samples_per_second": 200.824,
	"eval_steps_per_second": 3.202,
	"step": 4500
	},
	{
	"epoch": 0.32,
	"grad_norm": 120234.546875,
	"learning_rate": 4.516727728499807e-05,
	"loss": 0.1768,
	"step": 4510
	},
	{
	"epoch": 0.32,
	"grad_norm": 195769.40625,
	"learning_rate": 4.5155225607404554e-05,
	"loss": 0.2422,
	"step": 4520
	},
	{
	"epoch": 0.32,
	"grad_norm": 142246.734375,
	"learning_rate": 4.5143173929811036e-05,
	"loss": 0.1863,
	"step": 4530
	},
	{
	"epoch": 0.32,
	"grad_norm": 208686.890625,
	"learning_rate": 4.513112225221751e-05,
	"loss": 0.1961,
	"step": 4540
	},
	{
	"epoch": 0.33,
	"grad_norm": 344615.53125,
	"learning_rate": 4.511907057462399e-05,
	"loss": 0.2392,
	"step": 4550
	},
	{
	"epoch": 0.33,
	"grad_norm": 542719.9375,
	"learning_rate": 4.5107018897030466e-05,
	"loss": 0.2497,
	"step": 4560
	},
	{
	"epoch": 0.33,
	"grad_norm": 308383.09375,
	"learning_rate": 4.509496721943695e-05,
	"loss": 0.1903,
	"step": 4570
	},
	{
	"epoch": 0.33,
	"grad_norm": 246131.765625,
	"learning_rate": 4.508291554184343e-05,
	"loss": 0.2518,
	"step": 4580
	},
	{
	"epoch": 0.33,
	"grad_norm": 441606.1875,
	"learning_rate": 4.507086386424991e-05,
	"loss": 0.2086,
	"step": 4590
	},
	{
	"epoch": 0.33,
	"grad_norm": 181527.40625,
	"learning_rate": 4.5058812186656384e-05,
	"loss": 0.2475,
	"step": 4600
	},
	{
	"epoch": 0.33,
	"eval_accuracy": 0.9035472299721005,
	"eval_f1": 0.9030499023997222,
	"eval_loss": 0.23530976474285126,
	"eval_precision": 0.9051551236736851,
	"eval_recall": 0.9035472299721005,
	"eval_runtime": 12.5089,
	"eval_samples_per_second": 200.577,
	"eval_steps_per_second": 3.198,
	"step": 4600
	},
	{
	"epoch": 0.33,
	"grad_norm": 202878.53125,
	"learning_rate": 4.5046760509062865e-05,
	"loss": 0.2055,
	"step": 4610
	},
	{
	"epoch": 0.33,
	"grad_norm": 233816.40625,
	"learning_rate": 4.503470883146934e-05,
	"loss": 0.1779,
	"step": 4620
	},
	{
	"epoch": 0.33,
	"grad_norm": 177604.296875,
	"learning_rate": 4.502265715387582e-05,
	"loss": 0.2305,
	"step": 4630
	},
	{
	"epoch": 0.33,
	"grad_norm": 364165.34375,
	"learning_rate": 4.50106054762823e-05,
	"loss": 0.2123,
	"step": 4640
	},
	{
	"epoch": 0.33,
	"grad_norm": 155471.65625,
	"learning_rate": 4.4998553798688784e-05,
	"loss": 0.1939,
	"step": 4650
	},
	{
	"epoch": 0.33,
	"grad_norm": 337500.03125,
	"learning_rate": 4.498650212109526e-05,
	"loss": 0.2682,
	"step": 4660
	},
	{
	"epoch": 0.33,
	"grad_norm": 128476.1171875,
	"learning_rate": 4.497445044350174e-05,
	"loss": 0.1988,
	"step": 4670
	},
	{
	"epoch": 0.33,
	"grad_norm": 275538.78125,
	"learning_rate": 4.4962398765908214e-05,
	"loss": 0.2333,
	"step": 4680
	},
	{
	"epoch": 0.34,
	"grad_norm": 249258.46875,
	"learning_rate": 4.4950347088314695e-05,
	"loss": 0.1944,
	"step": 4690
	},
	{
	"epoch": 0.34,
	"grad_norm": 266623.78125,
	"learning_rate": 4.4938295410721176e-05,
	"loss": 0.1928,
	"step": 4700
	},
	{
	"epoch": 0.34,
	"eval_accuracy": 0.894380231167796,
	"eval_f1": 0.8933321704334167,
	"eval_loss": 0.2986622750759125,
	"eval_precision": 0.8992220854769614,
	"eval_recall": 0.894380231167796,
	"eval_runtime": 12.4701,
	"eval_samples_per_second": 201.202,
	"eval_steps_per_second": 3.208,
	"step": 4700
	},
	{
	"epoch": 0.34,
	"grad_norm": 536207.0,
	"learning_rate": 4.492624373312766e-05,
	"loss": 0.2723,
	"step": 4710
	},
	{
	"epoch": 0.34,
	"grad_norm": 152929.5,
	"learning_rate": 4.491419205553413e-05,
	"loss": 0.204,
	"step": 4720
	},
	{
	"epoch": 0.34,
	"grad_norm": 249052.25,
	"learning_rate": 4.490214037794061e-05,
	"loss": 0.2062,
	"step": 4730
	},
	{
	"epoch": 0.34,
	"grad_norm": 420176.1875,
	"learning_rate": 4.489008870034709e-05,
	"loss": 0.243,
	"step": 4740
	},
	{
	"epoch": 0.34,
	"grad_norm": 225057.75,
	"learning_rate": 4.487803702275357e-05,
	"loss": 0.2047,
	"step": 4750
	},
	{
	"epoch": 0.34,
	"grad_norm": 322600.46875,
	"learning_rate": 4.486598534516005e-05,
	"loss": 0.2563,
	"step": 4760
	},
	{
	"epoch": 0.34,
	"grad_norm": 215948.890625,
	"learning_rate": 4.4853933667566525e-05,
	"loss": 0.2187,
	"step": 4770
	},
	{
	"epoch": 0.34,
	"grad_norm": 304164.59375,
	"learning_rate": 4.4841881989973006e-05,
	"loss": 0.1994,
	"step": 4780
	},
	{
	"epoch": 0.34,
	"grad_norm": 435468.0625,
	"learning_rate": 4.482983031237948e-05,
	"loss": 0.2137,
	"step": 4790
	},
	{
	"epoch": 0.34,
	"grad_norm": 185575.71875,
	"learning_rate": 4.481777863478596e-05,
	"loss": 0.2008,
	"step": 4800
	},
	{
	"epoch": 0.34,
	"eval_accuracy": 0.876046233559187,
	"eval_f1": 0.8735264940770283,
	"eval_loss": 0.299306720495224,
	"eval_precision": 0.8896518291860559,
	"eval_recall": 0.876046233559187,
	"eval_runtime": 12.4793,
	"eval_samples_per_second": 201.052,
	"eval_steps_per_second": 3.205,
	"step": 4800
	},
	{
	"epoch": 0.34,
	"grad_norm": 115670.9296875,
	"learning_rate": 4.480572695719244e-05,
	"loss": 0.1804,
	"step": 4810
	},
	{
	"epoch": 0.34,
	"grad_norm": 192260.875,
	"learning_rate": 4.4793675279598924e-05,
	"loss": 0.2982,
	"step": 4820
	},
	{
	"epoch": 0.35,
	"grad_norm": 145098.75,
	"learning_rate": 4.47816236020054e-05,
	"loss": 0.2516,
	"step": 4830
	},
	{
	"epoch": 0.35,
	"grad_norm": 107989.4609375,
	"learning_rate": 4.476957192441188e-05,
	"loss": 0.1921,
	"step": 4840
	},
	{
	"epoch": 0.35,
	"grad_norm": 378746.71875,
	"learning_rate": 4.4757520246818355e-05,
	"loss": 0.2296,
	"step": 4850
	},
	{
	"epoch": 0.35,
	"grad_norm": 236829.796875,
	"learning_rate": 4.474546856922484e-05,
	"loss": 0.2355,
	"step": 4860
	},
	{
	"epoch": 0.35,
	"grad_norm": 226571.203125,
	"learning_rate": 4.473341689163132e-05,
	"loss": 0.2038,
	"step": 4870
	},
	{
	"epoch": 0.35,
	"grad_norm": 206681.625,
	"learning_rate": 4.47213652140378e-05,
	"loss": 0.2086,
	"step": 4880
	},
	{
	"epoch": 0.35,
	"grad_norm": 347856.59375,
	"learning_rate": 4.470931353644427e-05,
	"loss": 0.2322,
	"step": 4890
	},
	{
	"epoch": 0.35,
	"grad_norm": 251549.421875,
	"learning_rate": 4.4697261858850754e-05,
	"loss": 0.22,
	"step": 4900
	},
	{
	"epoch": 0.35,
	"eval_accuracy": 0.9035472299721005,
	"eval_f1": 0.9032851922362077,
	"eval_loss": 0.24311725795269012,
	"eval_precision": 0.9039388604136059,
	"eval_recall": 0.9035472299721005,
	"eval_runtime": 12.509,
	"eval_samples_per_second": 200.576,
	"eval_steps_per_second": 3.198,
	"step": 4900
	},
	{
	"epoch": 0.35,
	"grad_norm": 365455.96875,
	"learning_rate": 4.468521018125723e-05,
	"loss": 0.1983,
	"step": 4910
	},
	{
	"epoch": 0.35,
	"grad_norm": 135693.59375,
	"learning_rate": 4.4673158503663717e-05,
	"loss": 0.1764,
	"step": 4920
	},
	{
	"epoch": 0.35,
	"grad_norm": 332106.21875,
	"learning_rate": 4.466110682607019e-05,
	"loss": 0.2139,
	"step": 4930
	},
	{
	"epoch": 0.35,
	"grad_norm": 162781.546875,
	"learning_rate": 4.464905514847667e-05,
	"loss": 0.2205,
	"step": 4940
	},
	{
	"epoch": 0.35,
	"grad_norm": 167004.28125,
	"learning_rate": 4.463700347088315e-05,
	"loss": 0.2255,
	"step": 4950
	},
	{
	"epoch": 0.35,
	"grad_norm": 217623.34375,
	"learning_rate": 4.462495179328963e-05,
	"loss": 0.2438,
	"step": 4960
	},
	{
	"epoch": 0.36,
	"grad_norm": 191213.296875,
	"learning_rate": 4.46129001156961e-05,
	"loss": 0.2283,
	"step": 4970
	},
	{
	"epoch": 0.36,
	"grad_norm": 244383.078125,
	"learning_rate": 4.460084843810259e-05,
	"loss": 0.2034,
	"step": 4980
	},
	{
	"epoch": 0.36,
	"grad_norm": 260674.09375,
	"learning_rate": 4.4588796760509065e-05,
	"loss": 0.1769,
	"step": 4990
	},
	{
	"epoch": 0.36,
	"grad_norm": 363888.0625,
	"learning_rate": 4.4576745082915546e-05,
	"loss": 0.1844,
	"step": 5000
	},
	{
	"epoch": 0.36,
	"eval_accuracy": 0.917098445595855,
	"eval_f1": 0.9170851985417201,
	"eval_loss": 0.2590126693248749,
	"eval_precision": 0.9170766527573011,
	"eval_recall": 0.917098445595855,
	"eval_runtime": 12.478,
	"eval_samples_per_second": 201.074,
	"eval_steps_per_second": 3.206,
	"step": 5000
	},
	{
	"epoch": 0.36,
	"grad_norm": 219406.3125,
	"learning_rate": 4.456469340532202e-05,
	"loss": 0.2647,
	"step": 5010
	},
	{
	"epoch": 0.36,
	"grad_norm": 289715.0,
	"learning_rate": 4.45526417277285e-05,
	"loss": 0.2315,
	"step": 5020
	},
	{
	"epoch": 0.36,
	"grad_norm": 300951.78125,
	"learning_rate": 4.4540590050134977e-05,
	"loss": 0.2044,
	"step": 5030
	},
	{
	"epoch": 0.36,
	"grad_norm": 228631.484375,
	"learning_rate": 4.4528538372541465e-05,
	"loss": 0.1395,
	"step": 5040
	},
	{
	"epoch": 0.36,
	"grad_norm": 258748.0625,
	"learning_rate": 4.451648669494794e-05,
	"loss": 0.2106,
	"step": 5050
	},
	{
	"epoch": 0.36,
	"grad_norm": 261900.28125,
	"learning_rate": 4.450443501735442e-05,
	"loss": 0.1891,
	"step": 5060
	},
	{
	"epoch": 0.36,
	"grad_norm": 567360.5,
	"learning_rate": 4.4492383339760895e-05,
	"loss": 0.1796,
	"step": 5070
	},
	{
	"epoch": 0.36,
	"grad_norm": 247367.140625,
	"learning_rate": 4.4480331662167376e-05,
	"loss": 0.2354,
	"step": 5080
	},
	{
	"epoch": 0.36,
	"grad_norm": 180764.234375,
	"learning_rate": 4.446827998457386e-05,
	"loss": 0.2308,
	"step": 5090
	},
	{
	"epoch": 0.36,
	"grad_norm": 143473.34375,
	"learning_rate": 4.445622830698034e-05,
	"loss": 0.2235,
	"step": 5100
	},
	{
	"epoch": 0.36,
	"eval_accuracy": 0.904742925468314,
	"eval_f1": 0.9041326842192928,
	"eval_loss": 0.2420862317085266,
	"eval_precision": 0.9071727983486801,
	"eval_recall": 0.904742925468314,
	"eval_runtime": 12.4566,
	"eval_samples_per_second": 201.419,
	"eval_steps_per_second": 3.211,
	"step": 5100
	},
	{
	"epoch": 0.37,
	"grad_norm": 142405.03125,
	"learning_rate": 4.444417662938681e-05,
	"loss": 0.2276,
	"step": 5110
	},
	{
	"epoch": 0.37,
	"grad_norm": 245076.640625,
	"learning_rate": 4.4432124951793294e-05,
	"loss": 0.2051,
	"step": 5120
	},
	{
	"epoch": 0.37,
	"grad_norm": 313735.53125,
	"learning_rate": 4.442007327419977e-05,
	"loss": 0.2259,
	"step": 5130
	},
	{
	"epoch": 0.37,
	"grad_norm": 423567.96875,
	"learning_rate": 4.440802159660625e-05,
	"loss": 0.2329,
	"step": 5140
	},
	{
	"epoch": 0.37,
	"grad_norm": 220593.828125,
	"learning_rate": 4.439596991901273e-05,
	"loss": 0.1839,
	"step": 5150
	},
	{
	"epoch": 0.37,
	"grad_norm": 300864.0,
	"learning_rate": 4.4383918241419206e-05,
	"loss": 0.2598,
	"step": 5160
	},
	{
	"epoch": 0.37,
	"grad_norm": 338582.8125,
	"learning_rate": 4.437186656382569e-05,
	"loss": 0.2564,
	"step": 5170
	},
	{
	"epoch": 0.37,
	"grad_norm": 225039.421875,
	"learning_rate": 4.435981488623216e-05,
	"loss": 0.2375,
	"step": 5180
	},
	{
	"epoch": 0.37,
	"grad_norm": 306696.875,
	"learning_rate": 4.434776320863864e-05,
	"loss": 0.1867,
	"step": 5190
	},
	{
	"epoch": 0.37,
	"grad_norm": 175457.875,
	"learning_rate": 4.4335711531045124e-05,
	"loss": 0.2222,
	"step": 5200
	},
	{
	"epoch": 0.37,
	"eval_accuracy": 0.8947787963332005,
	"eval_f1": 0.8940640494290631,
	"eval_loss": 0.2958182394504547,
	"eval_precision": 0.8972950995667646,
	"eval_recall": 0.8947787963332005,
	"eval_runtime": 12.4883,
	"eval_samples_per_second": 200.907,
	"eval_steps_per_second": 3.203,
	"step": 5200
	},
	{
	"epoch": 0.37,
	"grad_norm": 274502.125,
	"learning_rate": 4.4323659853451605e-05,
	"loss": 0.2213,
	"step": 5210
	},
	{
	"epoch": 0.37,
	"grad_norm": 143913.453125,
	"learning_rate": 4.431160817585808e-05,
	"loss": 0.2485,
	"step": 5220
	},
	{
	"epoch": 0.37,
	"grad_norm": 134518.640625,
	"learning_rate": 4.429955649826456e-05,
	"loss": 0.215,
	"step": 5230
	},
	{
	"epoch": 0.37,
	"grad_norm": 203820.625,
	"learning_rate": 4.4287504820671036e-05,
	"loss": 0.2146,
	"step": 5240
	},
	{
	"epoch": 0.38,
	"grad_norm": 322863.5625,
	"learning_rate": 4.427545314307752e-05,
	"loss": 0.2328,
	"step": 5250
	},
	{
	"epoch": 0.38,
	"grad_norm": 356002.96875,
	"learning_rate": 4.4263401465484e-05,
	"loss": 0.2083,
	"step": 5260
	},
	{
	"epoch": 0.38,
	"grad_norm": 703977.0625,
	"learning_rate": 4.425134978789048e-05,
	"loss": 0.1654,
	"step": 5270
	},
	{
	"epoch": 0.38,
	"grad_norm": 221094.734375,
	"learning_rate": 4.4239298110296954e-05,
	"loss": 0.2014,
	"step": 5280
	},
	{
	"epoch": 0.38,
	"grad_norm": 273416.5625,
	"learning_rate": 4.4227246432703435e-05,
	"loss": 0.2901,
	"step": 5290
	},
	{
	"epoch": 0.38,
	"grad_norm": 188345.46875,
	"learning_rate": 4.421519475510991e-05,
	"loss": 0.2241,
	"step": 5300
	},
	{
	"epoch": 0.38,
	"eval_accuracy": 0.9210840972499004,
	"eval_f1": 0.9208697027387154,
	"eval_loss": 0.2031262218952179,
	"eval_precision": 0.9215894170459646,
	"eval_recall": 0.9210840972499004,
	"eval_runtime": 16.2579,
	"eval_samples_per_second": 154.325,
	"eval_steps_per_second": 2.46,
	"step": 5300
	}
	],
	"logging_steps": 10,
	"max_steps": 41988,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 100,
	"total_flos": 4.46240356466688e+16,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}