carted-nlp/categorization-finetuned-20220721-164940-distilled-20220811-013354

Browse files

Files changed (5) hide show

all_results.json +15 -0
runs/Aug11_01-34-27_product-categorization/events.out.tfevents.1660201727.product-categorization.2923.2 +3 -0
test_results.json +10 -0
train_results.json +8 -0
trainer_state.json +873 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 30.0,
+    "eval_accuracy": 0.8775628491620112,
+    "eval_f1": 0.8768335428087971,
+    "eval_loss": 0.06446786969900131,
+    "eval_runtime": 36.0103,
+    "eval_samples_per_second": 3976.641,
+    "eval_steps_per_second": 41.433,
+    "test_samples": 143200,
+    "train_loss": 0.06639543622843883,
+    "train_runtime": 19911.3581,
+    "train_samples": 1138117,
+    "train_samples_per_second": 1714.776,
+    "train_steps_per_second": 6.699
+}

runs/Aug11_01-34-27_product-categorization/events.out.tfevents.1660201727.product-categorization.2923.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70a1274eb11cc975ac731a8bc855ff76898e266004b91e8620ed9413333c410f
+size 416

test_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 30.0,
+    "eval_accuracy": 0.8775628491620112,
+    "eval_f1": 0.8768335428087971,
+    "eval_loss": 0.06446786969900131,
+    "eval_runtime": 36.0103,
+    "eval_samples_per_second": 3976.641,
+    "eval_steps_per_second": 41.433,
+    "test_samples": 143200
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 30.0,
+    "train_loss": 0.06639543622843883,
+    "train_runtime": 19911.3581,
+    "train_samples": 1138117,
+    "train_samples_per_second": 1714.776,
+    "train_steps_per_second": 6.699
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,873 @@

+{
+  "best_metric": 0.06449923664331436,
+  "best_model_checkpoint": "./categorization-finetuned-20220721-164940-distilled-20220811-013354/checkpoint-127500",
+  "epoch": 30.0,
+  "global_step": 133380,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.56,
+      "learning_rate": 1.999716279095759e-05,
+      "loss": 0.2702,
+      "step": 2500
+    },
+    {
+      "epoch": 0.56,
+      "eval_accuracy": 0.7832328973737684,
+      "eval_f1": 0.7782592459057264,
+      "eval_loss": 0.12900541722774506,
+      "eval_runtime": 33.288,
+      "eval_samples_per_second": 4302.123,
+      "eval_steps_per_second": 44.821,
+      "step": 2500
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 1.9965262675626726e-05,
+      "loss": 0.1246,
+      "step": 5000
+    },
+    {
+      "epoch": 1.12,
+      "eval_accuracy": 0.8168830171288117,
+      "eval_f1": 0.8137001385896282,
+      "eval_loss": 0.10469090193510056,
+      "eval_runtime": 35.1587,
+      "eval_samples_per_second": 4073.218,
+      "eval_steps_per_second": 42.436,
+      "step": 5000
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1.9898029417041328e-05,
+      "loss": 0.1066,
+      "step": 7500
+    },
+    {
+      "epoch": 1.69,
+      "eval_accuracy": 0.8300665460969632,
+      "eval_f1": 0.8276076020101577,
+      "eval_loss": 0.09453058242797852,
+      "eval_runtime": 34.7428,
+      "eval_samples_per_second": 4121.976,
+      "eval_steps_per_second": 42.944,
+      "step": 7500
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 1.979570139952044e-05,
+      "loss": 0.0975,
+      "step": 10000
+    },
+    {
+      "epoch": 2.25,
+      "eval_accuracy": 0.838564615352387,
+      "eval_f1": 0.8366911235307668,
+      "eval_loss": 0.0888088271021843,
+      "eval_runtime": 33.4588,
+      "eval_samples_per_second": 4280.16,
+      "eval_steps_per_second": 44.592,
+      "step": 10000
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.965864144044478e-05,
+      "loss": 0.0917,
+      "step": 12500
+    },
+    {
+      "epoch": 2.81,
+      "eval_accuracy": 0.844548876118121,
+      "eval_f1": 0.8428155480829799,
+      "eval_loss": 0.08494799584150314,
+      "eval_runtime": 33.2026,
+      "eval_samples_per_second": 4313.187,
+      "eval_steps_per_second": 44.936,
+      "step": 12500
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 1.9487335503840186e-05,
+      "loss": 0.0865,
+      "step": 15000
+    },
+    {
+      "epoch": 3.37,
+      "eval_accuracy": 0.8495625274947803,
+      "eval_f1": 0.8483980426142682,
+      "eval_loss": 0.08176358044147491,
+      "eval_runtime": 34.1293,
+      "eval_samples_per_second": 4196.068,
+      "eval_steps_per_second": 43.716,
+      "step": 15000
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 1.9282390977328586e-05,
+      "loss": 0.0835,
+      "step": 17500
+    },
+    {
+      "epoch": 3.94,
+      "eval_accuracy": 0.852572114881048,
+      "eval_f1": 0.8508615234241726,
+      "eval_loss": 0.07959919422864914,
+      "eval_runtime": 33.0925,
+      "eval_samples_per_second": 4327.54,
+      "eval_steps_per_second": 45.086,
+      "step": 17500
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 1.904453451855566e-05,
+      "loss": 0.08,
+      "step": 20000
+    },
+    {
+      "epoch": 4.5,
+      "eval_accuracy": 0.8552255793979429,
+      "eval_f1": 0.8541677666238712,
+      "eval_loss": 0.07768898457288742,
+      "eval_runtime": 35.7876,
+      "eval_samples_per_second": 4001.64,
+      "eval_steps_per_second": 41.69,
+      "step": 20000
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 1.8774609478731048e-05,
+      "loss": 0.0778,
+      "step": 22500
+    },
+    {
+      "epoch": 5.06,
+      "eval_accuracy": 0.8580117171406825,
+      "eval_f1": 0.856711042073328,
+      "eval_loss": 0.0763072520494461,
+      "eval_runtime": 35.4902,
+      "eval_samples_per_second": 4035.173,
+      "eval_steps_per_second": 42.04,
+      "step": 22500
+    },
+    {
+      "epoch": 5.62,
+      "learning_rate": 1.8473572912416232e-05,
+      "loss": 0.0753,
+      "step": 25000
+    },
+    {
+      "epoch": 5.62,
+      "eval_accuracy": 0.8603509555963661,
+      "eval_f1": 0.859160334506478,
+      "eval_loss": 0.07438770681619644,
+      "eval_runtime": 35.3837,
+      "eval_samples_per_second": 4047.317,
+      "eval_steps_per_second": 42.166,
+      "step": 25000
+    },
+    {
+      "epoch": 6.19,
+      "learning_rate": 1.8142492184162323e-05,
+      "loss": 0.0739,
+      "step": 27500
+    },
+    {
+      "epoch": 6.19,
+      "eval_accuracy": 0.8613844101976831,
+      "eval_f1": 0.8603226866244833,
+      "eval_loss": 0.07380488514900208,
+      "eval_runtime": 33.7385,
+      "eval_samples_per_second": 4244.676,
+      "eval_steps_per_second": 44.222,
+      "step": 27500
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 1.7782541184029316e-05,
+      "loss": 0.0716,
+      "step": 30000
+    },
+    {
+      "epoch": 6.75,
+      "eval_accuracy": 0.863032351318702,
+      "eval_f1": 0.8620277221500123,
+      "eval_loss": 0.0729290321469307,
+      "eval_runtime": 33.5267,
+      "eval_samples_per_second": 4271.486,
+      "eval_steps_per_second": 44.502,
+      "step": 30000
+    },
+    {
+      "epoch": 7.31,
+      "learning_rate": 1.7394996165405244e-05,
+      "loss": 0.0701,
+      "step": 32500
+    },
+    {
+      "epoch": 7.31,
+      "eval_accuracy": 0.8645196880084353,
+      "eval_f1": 0.8638326806071638,
+      "eval_loss": 0.07191809266805649,
+      "eval_runtime": 35.0686,
+      "eval_samples_per_second": 4083.685,
+      "eval_steps_per_second": 42.545,
+      "step": 32500
+    },
+    {
+      "epoch": 7.87,
+      "learning_rate": 1.69812312198827e-05,
+      "loss": 0.0689,
+      "step": 35000
+    },
+    {
+      "epoch": 7.87,
+      "eval_accuracy": 0.8656578846301559,
+      "eval_f1": 0.8646806211498433,
+      "eval_loss": 0.07080969214439392,
+      "eval_runtime": 33.9508,
+      "eval_samples_per_second": 4218.132,
+      "eval_steps_per_second": 43.946,
+      "step": 35000
+    },
+    {
+      "epoch": 8.43,
+      "learning_rate": 1.6542713405237254e-05,
+      "loss": 0.067,
+      "step": 37500
+    },
+    {
+      "epoch": 8.43,
+      "eval_accuracy": 0.8670823761076468,
+      "eval_f1": 0.8660045143213903,
+      "eval_loss": 0.07053036987781525,
+      "eval_runtime": 33.5221,
+      "eval_samples_per_second": 4272.077,
+      "eval_steps_per_second": 44.508,
+      "step": 37500
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 1.6080997543782063e-05,
+      "loss": 0.0669,
+      "step": 40000
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.8681158307089638,
+      "eval_f1": 0.8673702293109924,
+      "eval_loss": 0.06987718492746353,
+      "eval_runtime": 33.3948,
+      "eval_samples_per_second": 4288.361,
+      "eval_steps_per_second": 44.678,
+      "step": 40000
+    },
+    {
+      "epoch": 9.56,
+      "learning_rate": 1.5597720709541834e-05,
+      "loss": 0.0647,
+      "step": 42500
+    },
+    {
+      "epoch": 9.56,
+      "eval_accuracy": 0.8683392803524919,
+      "eval_f1": 0.8673043954616042,
+      "eval_loss": 0.06969144195318222,
+      "eval_runtime": 33.3931,
+      "eval_samples_per_second": 4288.583,
+      "eval_steps_per_second": 44.68,
+      "step": 42500
+    },
+    {
+      "epoch": 10.12,
+      "learning_rate": 1.509459642379259e-05,
+      "loss": 0.0641,
+      "step": 45000
+    },
+    {
+      "epoch": 10.12,
+      "eval_accuracy": 0.8690515260912373,
+      "eval_f1": 0.8680669250266475,
+      "eval_loss": 0.06932760030031204,
+      "eval_runtime": 33.6285,
+      "eval_samples_per_second": 4258.561,
+      "eval_steps_per_second": 44.367,
+      "step": 45000
+    },
+    {
+      "epoch": 10.68,
+      "learning_rate": 1.4573408579547676e-05,
+      "loss": 0.063,
+      "step": 47500
+    },
+    {
+      "epoch": 10.68,
+      "eval_accuracy": 0.8701827399115978,
+      "eval_f1": 0.8693810704654683,
+      "eval_loss": 0.06850136071443558,
+      "eval_runtime": 33.1134,
+      "eval_samples_per_second": 4324.805,
+      "eval_steps_per_second": 45.057,
+      "step": 47500
+    },
+    {
+      "epoch": 11.25,
+      "learning_rate": 1.4036005116531579e-05,
+      "loss": 0.0618,
+      "step": 50000
+    },
+    {
+      "epoch": 11.25,
+      "eval_accuracy": 0.8709089512530637,
+      "eval_f1": 0.8700675299699858,
+      "eval_loss": 0.06813304871320724,
+      "eval_runtime": 33.5088,
+      "eval_samples_per_second": 4273.778,
+      "eval_steps_per_second": 44.526,
+      "step": 50000
+    },
+    {
+      "epoch": 11.81,
+      "learning_rate": 1.3484291469067736e-05,
+      "loss": 0.0614,
+      "step": 52500
+    },
+    {
+      "epoch": 11.81,
+      "eval_accuracy": 0.8719843026625421,
+      "eval_f1": 0.8711736208762333,
+      "eval_loss": 0.0674930214881897,
+      "eval_runtime": 33.3571,
+      "eval_samples_per_second": 4293.204,
+      "eval_steps_per_second": 44.728,
+      "step": 52500
+    },
+    {
+      "epoch": 12.37,
+      "learning_rate": 1.2920223810111731e-05,
+      "loss": 0.0601,
+      "step": 55000
+    },
+    {
+      "epoch": 12.37,
+      "eval_accuracy": 0.8723543911346354,
+      "eval_f1": 0.8713242180501024,
+      "eval_loss": 0.06780188530683517,
+      "eval_runtime": 33.8602,
+      "eval_samples_per_second": 4229.414,
+      "eval_steps_per_second": 44.063,
+      "step": 55000
+    },
+    {
+      "epoch": 12.93,
+      "learning_rate": 1.2345802115384014e-05,
+      "loss": 0.0598,
+      "step": 57500
+    },
+    {
+      "epoch": 12.93,
+      "eval_accuracy": 0.8731853444965051,
+      "eval_f1": 0.8725266467114048,
+      "eval_loss": 0.06704463809728622,
+      "eval_runtime": 34.9394,
+      "eval_samples_per_second": 4098.78,
+      "eval_steps_per_second": 42.702,
+      "step": 57500
+    },
+    {
+      "epoch": 13.5,
+      "learning_rate": 1.1763063072194181e-05,
+      "loss": 0.0584,
+      "step": 60000
+    },
+    {
+      "epoch": 13.5,
+      "eval_accuracy": 0.8731713788937846,
+      "eval_f1": 0.8723142764159807,
+      "eval_loss": 0.06695400178432465,
+      "eval_runtime": 33.3284,
+      "eval_samples_per_second": 4296.9,
+      "eval_steps_per_second": 44.767,
+      "step": 60000
+    },
+    {
+      "epoch": 14.06,
+      "learning_rate": 1.1174072858099545e-05,
+      "loss": 0.0584,
+      "step": 62500
+    },
+    {
+      "epoch": 14.06,
+      "eval_accuracy": 0.8740023322556543,
+      "eval_f1": 0.8732025404369645,
+      "eval_loss": 0.0664532408118248,
+      "eval_runtime": 36.3142,
+      "eval_samples_per_second": 3943.604,
+      "eval_steps_per_second": 41.086,
+      "step": 62500
+    },
+    {
+      "epoch": 14.62,
+      "learning_rate": 1.0580919815002126e-05,
+      "loss": 0.0572,
+      "step": 65000
+    },
+    {
+      "epoch": 14.62,
+      "eval_accuracy": 0.8744282831386295,
+      "eval_f1": 0.8734337495737768,
+      "eval_loss": 0.06649637967348099,
+      "eval_runtime": 33.7341,
+      "eval_samples_per_second": 4245.227,
+      "eval_steps_per_second": 44.228,
+      "step": 65000
+    },
+    {
+      "epoch": 15.18,
+      "learning_rate": 9.98570704465907e-06,
+      "loss": 0.0567,
+      "step": 67500
+    },
+    {
+      "epoch": 15.18,
+      "eval_accuracy": 0.8752732021032198,
+      "eval_f1": 0.8744599630053497,
+      "eval_loss": 0.06611284613609314,
+      "eval_runtime": 33.3726,
+      "eval_samples_per_second": 4291.211,
+      "eval_steps_per_second": 44.707,
+      "step": 67500
+    },
+    {
+      "epoch": 15.74,
+      "learning_rate": 9.390544951860105e-06,
+      "loss": 0.0561,
+      "step": 70000
+    },
+    {
+      "epoch": 15.74,
+      "eval_accuracy": 0.8756293249725925,
+      "eval_f1": 0.8749748466805782,
+      "eval_loss": 0.06604801118373871,
+      "eval_runtime": 33.5726,
+      "eval_samples_per_second": 4265.656,
+      "eval_steps_per_second": 44.441,
+      "step": 70000
+    },
+    {
+      "epoch": 16.31,
+      "learning_rate": 8.797543761711079e-06,
+      "loss": 0.0554,
+      "step": 72500
+    },
+    {
+      "epoch": 16.31,
+      "eval_accuracy": 0.8758876886229218,
+      "eval_f1": 0.8750835415020012,
+      "eval_loss": 0.06606367230415344,
+      "eval_runtime": 35.9562,
+      "eval_samples_per_second": 3982.87,
+      "eval_steps_per_second": 41.495,
+      "step": 72500
+    },
+    {
+      "epoch": 16.87,
+      "learning_rate": 8.208806037554645e-06,
+      "loss": 0.0552,
+      "step": 75000
+    },
+    {
+      "epoch": 16.87,
+      "eval_accuracy": 0.875503634548108,
+      "eval_f1": 0.8748588561400703,
+      "eval_loss": 0.06561503559350967,
+      "eval_runtime": 33.3706,
+      "eval_samples_per_second": 4291.466,
+      "eval_steps_per_second": 44.71,
+      "step": 75000
+    },
+    {
+      "epoch": 17.43,
+      "learning_rate": 7.6264192260566915e-06,
+      "loss": 0.0544,
+      "step": 77500
+    },
+    {
+      "epoch": 17.43,
+      "eval_accuracy": 0.8761670006773318,
+      "eval_f1": 0.875430169191633,
+      "eval_loss": 0.06571561098098755,
+      "eval_runtime": 33.8002,
+      "eval_samples_per_second": 4236.932,
+      "eval_steps_per_second": 44.142,
+      "step": 77500
+    },
+    {
+      "epoch": 17.99,
+      "learning_rate": 7.052448255890958e-06,
+      "loss": 0.0544,
+      "step": 80000
+    },
+    {
+      "epoch": 17.99,
+      "eval_accuracy": 0.8766627795739095,
+      "eval_f1": 0.8759974000823453,
+      "eval_loss": 0.06542336195707321,
+      "eval_runtime": 34.4239,
+      "eval_samples_per_second": 4160.157,
+      "eval_steps_per_second": 43.342,
+      "step": 80000
+    },
+    {
+      "epoch": 18.56,
+      "learning_rate": 6.488928216264112e-06,
+      "loss": 0.0534,
+      "step": 82500
+    },
+    {
+      "epoch": 18.56,
+      "eval_accuracy": 0.8767116591834312,
+      "eval_f1": 0.8759135326151816,
+      "eval_loss": 0.06542443484067917,
+      "eval_runtime": 33.2655,
+      "eval_samples_per_second": 4305.035,
+      "eval_steps_per_second": 44.851,
+      "step": 82500
+    },
+    {
+      "epoch": 19.12,
+      "learning_rate": 5.93785714124059e-06,
+      "loss": 0.0534,
+      "step": 85000
+    },
+    {
+      "epoch": 19.12,
+      "eval_accuracy": 0.8773470941072139,
+      "eval_f1": 0.8766532567238048,
+      "eval_loss": 0.06530272215604782,
+      "eval_runtime": 35.0124,
+      "eval_samples_per_second": 4090.241,
+      "eval_steps_per_second": 42.614,
+      "step": 85000
+    },
+    {
+      "epoch": 19.68,
+      "learning_rate": 5.401188925451274e-06,
+      "loss": 0.0528,
+      "step": 87500
+    },
+    {
+      "epoch": 19.68,
+      "eval_accuracy": 0.8775146813398599,
+      "eval_f1": 0.8768256135826535,
+      "eval_loss": 0.06490106880664825,
+      "eval_runtime": 33.5689,
+      "eval_samples_per_second": 4266.118,
+      "eval_steps_per_second": 44.446,
+      "step": 87500
+    },
+    {
+      "epoch": 20.24,
+      "learning_rate": 4.880826396304312e-06,
+      "loss": 0.0525,
+      "step": 90000
+    },
+    {
+      "epoch": 20.24,
+      "eval_accuracy": 0.8776264061616239,
+      "eval_f1": 0.8768652778836793,
+      "eval_loss": 0.06507841497659683,
+      "eval_runtime": 33.3247,
+      "eval_samples_per_second": 4297.383,
+      "eval_steps_per_second": 44.772,
+      "step": 90000
+    },
+    {
+      "epoch": 20.81,
+      "learning_rate": 4.378614567261487e-06,
+      "loss": 0.0523,
+      "step": 92500
+    },
+    {
+      "epoch": 20.81,
+      "eval_accuracy": 0.8775007157371394,
+      "eval_f1": 0.8767952508584296,
+      "eval_loss": 0.06489618122577667,
+      "eval_runtime": 36.2651,
+      "eval_samples_per_second": 3948.949,
+      "eval_steps_per_second": 41.141,
+      "step": 92500
+    },
+    {
+      "epoch": 21.37,
+      "learning_rate": 3.896334096101447e-06,
+      "loss": 0.0517,
+      "step": 95000
+    },
+    {
+      "epoch": 21.37,
+      "eval_accuracy": 0.8782339098799656,
+      "eval_f1": 0.877492038187804,
+      "eval_loss": 0.06479762494564056,
+      "eval_runtime": 33.4015,
+      "eval_samples_per_second": 4287.5,
+      "eval_steps_per_second": 44.669,
+      "step": 95000
+    },
+    {
+      "epoch": 21.93,
+      "learning_rate": 3.4356949713644915e-06,
+      "loss": 0.0516,
+      "step": 97500
+    },
+    {
+      "epoch": 21.93,
+      "eval_accuracy": 0.8782897722908476,
+      "eval_f1": 0.8775965653086075,
+      "eval_loss": 0.06478870660066605,
+      "eval_runtime": 33.7278,
+      "eval_samples_per_second": 4246.021,
+      "eval_steps_per_second": 44.236,
+      "step": 97500
+    },
+    {
+      "epoch": 22.49,
+      "learning_rate": 2.9983304493643495e-06,
+      "loss": 0.0511,
+      "step": 100000
+    },
+    {
+      "epoch": 22.49,
+      "eval_accuracy": 0.8780523570445992,
+      "eval_f1": 0.8773587469443522,
+      "eval_loss": 0.06483691185712814,
+      "eval_runtime": 33.3746,
+      "eval_samples_per_second": 4290.959,
+      "eval_steps_per_second": 44.705,
+      "step": 100000
+    },
+    {
+      "epoch": 23.05,
+      "learning_rate": 2.5857912632641447e-06,
+      "loss": 0.0511,
+      "step": 102500
+    },
+    {
+      "epoch": 23.05,
+      "eval_accuracy": 0.8783246862976489,
+      "eval_f1": 0.8776168302082048,
+      "eval_loss": 0.06472069770097733,
+      "eval_runtime": 33.1429,
+      "eval_samples_per_second": 4320.953,
+      "eval_steps_per_second": 45.017,
+      "step": 102500
+    },
+    {
+      "epoch": 23.62,
+      "learning_rate": 2.199540124748957e-06,
+      "loss": 0.0508,
+      "step": 105000
+    },
+    {
+      "epoch": 23.62,
+      "eval_accuracy": 0.8785062391330154,
+      "eval_f1": 0.8777938106114025,
+      "eval_loss": 0.06474106758832932,
+      "eval_runtime": 33.3508,
+      "eval_samples_per_second": 4294.023,
+      "eval_steps_per_second": 44.737,
+      "step": 105000
+    },
+    {
+      "epoch": 24.18,
+      "learning_rate": 1.8409465377900981e-06,
+      "loss": 0.0505,
+      "step": 107500
+    },
+    {
+      "epoch": 24.18,
+      "eval_accuracy": 0.8785341703384564,
+      "eval_f1": 0.8777444031001141,
+      "eval_loss": 0.0646664947271347,
+      "eval_runtime": 33.8974,
+      "eval_samples_per_second": 4224.776,
+      "eval_steps_per_second": 44.015,
+      "step": 107500
+    },
+    {
+      "epoch": 24.74,
+      "learning_rate": 1.5112819428894976e-06,
+      "loss": 0.0505,
+      "step": 110000
+    },
+    {
+      "epoch": 24.74,
+      "eval_accuracy": 0.8787855511874254,
+      "eval_f1": 0.8780881956947786,
+      "eval_loss": 0.06458932906389236,
+      "eval_runtime": 33.1686,
+      "eval_samples_per_second": 4317.613,
+      "eval_steps_per_second": 44.982,
+      "step": 110000
+    },
+    {
+      "epoch": 25.3,
+      "learning_rate": 1.2117152090209806e-06,
+      "loss": 0.0503,
+      "step": 112500
+    },
+    {
+      "epoch": 25.3,
+      "eval_accuracy": 0.8786389123588602,
+      "eval_f1": 0.8779011228018737,
+      "eval_loss": 0.06458309292793274,
+      "eval_runtime": 33.1934,
+      "eval_samples_per_second": 4314.381,
+      "eval_steps_per_second": 44.949,
+      "step": 112500
+    },
+    {
+      "epoch": 25.87,
+      "learning_rate": 9.433084892523181e-07,
+      "loss": 0.0502,
+      "step": 115000
+    },
+    {
+      "epoch": 25.87,
+      "eval_accuracy": 0.8788623620023881,
+      "eval_f1": 0.878161188935205,
+      "eval_loss": 0.06459838151931763,
+      "eval_runtime": 35.5543,
+      "eval_samples_per_second": 4027.899,
+      "eval_steps_per_second": 41.964,
+      "step": 115000
+    },
+    {
+      "epoch": 26.43,
+      "learning_rate": 7.070134547424945e-07,
+      "loss": 0.0501,
+      "step": 117500
+    },
+    {
+      "epoch": 26.43,
+      "eval_accuracy": 0.8787995167901459,
+      "eval_f1": 0.8780747579631859,
+      "eval_loss": 0.06461162865161896,
+      "eval_runtime": 33.4871,
+      "eval_samples_per_second": 4276.544,
+      "eval_steps_per_second": 44.554,
+      "step": 117500
+    },
+    {
+      "epoch": 26.99,
+      "learning_rate": 5.036679204670313e-07,
+      "loss": 0.0501,
+      "step": 120000
+    },
+    {
+      "epoch": 26.99,
+      "eval_accuracy": 0.8791067600499969,
+      "eval_f1": 0.8784083866618659,
+      "eval_loss": 0.06452779471874237,
+      "eval_runtime": 33.2577,
+      "eval_samples_per_second": 4306.037,
+      "eval_steps_per_second": 44.862,
+      "step": 120000
+    },
+    {
+      "epoch": 27.55,
+      "learning_rate": 3.339928746353327e-07,
+      "loss": 0.05,
+      "step": 122500
+    },
+    {
+      "epoch": 27.55,
+      "eval_accuracy": 0.8790439148377546,
+      "eval_f1": 0.8783328357475545,
+      "eval_loss": 0.06455225497484207,
+      "eval_runtime": 33.5082,
+      "eval_samples_per_second": 4273.851,
+      "eval_steps_per_second": 44.526,
+      "step": 122500
+    },
+    {
+      "epoch": 28.12,
+      "learning_rate": 1.9858992233260598e-07,
+      "loss": 0.0497,
+      "step": 125000
+    },
+    {
+      "epoch": 28.12,
+      "eval_accuracy": 0.8791626224608788,
+      "eval_f1": 0.8784598679092687,
+      "eval_loss": 0.06452032178640366,
+      "eval_runtime": 33.4248,
+      "eval_samples_per_second": 4284.51,
+      "eval_steps_per_second": 44.637,
+      "step": 125000
+    },
+    {
+      "epoch": 28.68,
+      "learning_rate": 9.793915245028595e-08,
+      "loss": 0.0499,
+      "step": 127500
+    },
+    {
+      "epoch": 28.68,
+      "eval_accuracy": 0.8791277084540776,
+      "eval_f1": 0.8784333454818922,
+      "eval_loss": 0.06449923664331436,
+      "eval_runtime": 35.6969,
+      "eval_samples_per_second": 4011.8,
+      "eval_steps_per_second": 41.796,
+      "step": 127500
+    },
+    {
+      "epoch": 29.24,
+      "learning_rate": 3.239743546802565e-08,
+      "loss": 0.0499,
+      "step": 130000
+    },
+    {
+      "epoch": 29.24,
+      "eval_accuracy": 0.8791556396595186,
+      "eval_f1": 0.8784619602482451,
+      "eval_loss": 0.06451133638620377,
+      "eval_runtime": 33.3523,
+      "eval_samples_per_second": 4293.833,
+      "eval_steps_per_second": 44.735,
+      "step": 130000
+    },
+    {
+      "epoch": 29.8,
+      "learning_rate": 2.197158122699827e-09,
+      "loss": 0.0497,
+      "step": 132500
+    },
+    {
+      "epoch": 29.8,
+      "eval_accuracy": 0.8791137428513571,
+      "eval_f1": 0.8784195035720077,
+      "eval_loss": 0.06450776755809784,
+      "eval_runtime": 33.5967,
+      "eval_samples_per_second": 4262.595,
+      "eval_steps_per_second": 44.409,
+      "step": 132500
+    },
+    {
+      "epoch": 30.0,
+      "step": 133380,
+      "total_flos": 1.6627855289686797e+17,
+      "train_loss": 0.06639543622843883,
+      "train_runtime": 19911.3581,
+      "train_samples_per_second": 1714.776,
+      "train_steps_per_second": 6.699
+    }
+  ],
+  "max_steps": 133380,
+  "num_train_epochs": 30,
+  "total_flos": 1.6627855289686797e+17,
+  "trial_name": null,
+  "trial_params": null
+}