End of training

Browse files

Files changed (6) hide show

README.md +2 -2
all_results.json +15 -0
eval_results.json +9 -0
predict_results.txt +0 -0
train_results.json +9 -0
trainer_state.json +976 -0

README.md CHANGED Viewed

@@ -18,8 +18,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [vinai/phobert-large](https://huggingface.co/vinai/phobert-large) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.8918
-- F1: 0.6410
 ## Model description

 This model is a fine-tuned version of [vinai/phobert-large](https://huggingface.co/vinai/phobert-large) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2752
+- F1: 0.9361
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 40.0,
+    "eval_f1": 0.9360692350642099,
+    "eval_loss": 0.2751626968383789,
+    "eval_runtime": 29.5871,
+    "eval_samples": 3582,
+    "eval_samples_per_second": 121.066,
+    "eval_steps_per_second": 5.07,
+    "total_flos": 2.3084949799922688e+17,
+    "train_loss": 0.688100525762774,
+    "train_runtime": 30496.5649,
+    "train_samples": 24771,
+    "train_samples_per_second": 32.49,
+    "train_steps_per_second": 1.355
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 40.0,
+    "eval_f1": 0.9360692350642099,
+    "eval_loss": 0.2751626968383789,
+    "eval_runtime": 29.5871,
+    "eval_samples": 3582,
+    "eval_samples_per_second": 121.066,
+    "eval_steps_per_second": 5.07
+}

predict_results.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 40.0,
+    "total_flos": 2.3084949799922688e+17,
+    "train_loss": 0.688100525762774,
+    "train_runtime": 30496.5649,
+    "train_samples": 24771,
+    "train_samples_per_second": 32.49,
+    "train_steps_per_second": 1.355
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,976 @@

+{
+  "best_metric": 0.9360692350642099,
+  "best_model_checkpoint": "/tmp/classification_phobertlarge/checkpoint-6198",
+  "epoch": 40.0,
+  "eval_steps": 500,
+  "global_step": 41320,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.484027105517909,
+      "grad_norm": 107.85002136230469,
+      "learning_rate": 2.9636979670861567e-05,
+      "loss": 0.4143,
+      "step": 500
+    },
+    {
+      "epoch": 0.968054211035818,
+      "grad_norm": 15.951617240905762,
+      "learning_rate": 2.927395934172314e-05,
+      "loss": 0.3094,
+      "step": 1000
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.9327191513121161,
+      "eval_loss": 0.22949737310409546,
+      "eval_runtime": 30.2358,
+      "eval_samples_per_second": 118.469,
+      "eval_steps_per_second": 4.961,
+      "step": 1033
+    },
+    {
+      "epoch": 1.452081316553727,
+      "grad_norm": 0.18993481993675232,
+      "learning_rate": 2.8910939012584705e-05,
+      "loss": 0.2335,
+      "step": 1500
+    },
+    {
+      "epoch": 1.936108422071636,
+      "grad_norm": 2.2120251655578613,
+      "learning_rate": 2.8547918683446275e-05,
+      "loss": 0.2346,
+      "step": 2000
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.9279731993299832,
+      "eval_loss": 0.2650923430919647,
+      "eval_runtime": 30.2762,
+      "eval_samples_per_second": 118.311,
+      "eval_steps_per_second": 4.954,
+      "step": 2066
+    },
+    {
+      "epoch": 2.420135527589545,
+      "grad_norm": 1.64552640914917,
+      "learning_rate": 2.818489835430784e-05,
+      "loss": 0.1957,
+      "step": 2500
+    },
+    {
+      "epoch": 2.904162633107454,
+      "grad_norm": 1.3047701120376587,
+      "learning_rate": 2.7821878025169413e-05,
+      "loss": 0.2359,
+      "step": 3000
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.9338358458961474,
+      "eval_loss": 0.2357342690229416,
+      "eval_runtime": 30.2251,
+      "eval_samples_per_second": 118.511,
+      "eval_steps_per_second": 4.963,
+      "step": 3099
+    },
+    {
+      "epoch": 3.388189738625363,
+      "grad_norm": 21.052520751953125,
+      "learning_rate": 2.745885769603098e-05,
+      "loss": 0.179,
+      "step": 3500
+    },
+    {
+      "epoch": 3.872216844143272,
+      "grad_norm": 0.44238439202308655,
+      "learning_rate": 2.7095837366892545e-05,
+      "loss": 0.1734,
+      "step": 4000
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.9276940256839754,
+      "eval_loss": 0.2720405161380768,
+      "eval_runtime": 30.1857,
+      "eval_samples_per_second": 118.666,
+      "eval_steps_per_second": 4.969,
+      "step": 4132
+    },
+    {
+      "epoch": 4.356243949661181,
+      "grad_norm": 0.10865873098373413,
+      "learning_rate": 2.6732817037754114e-05,
+      "loss": 0.1593,
+      "step": 4500
+    },
+    {
+      "epoch": 4.84027105517909,
+      "grad_norm": 35.33164978027344,
+      "learning_rate": 2.6369796708615684e-05,
+      "loss": 0.1551,
+      "step": 5000
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.9349525404801786,
+      "eval_loss": 0.29397937655448914,
+      "eval_runtime": 30.2085,
+      "eval_samples_per_second": 118.576,
+      "eval_steps_per_second": 4.965,
+      "step": 5165
+    },
+    {
+      "epoch": 5.3242981606969995,
+      "grad_norm": 0.6579780578613281,
+      "learning_rate": 2.6006776379477253e-05,
+      "loss": 0.1434,
+      "step": 5500
+    },
+    {
+      "epoch": 5.808325266214908,
+      "grad_norm": 0.2094825804233551,
+      "learning_rate": 2.564375605033882e-05,
+      "loss": 0.1282,
+      "step": 6000
+    },
+    {
+      "epoch": 6.0,
+      "eval_f1": 0.9360692350642099,
+      "eval_loss": 0.2751626968383789,
+      "eval_runtime": 30.1054,
+      "eval_samples_per_second": 118.982,
+      "eval_steps_per_second": 4.983,
+      "step": 6198
+    },
+    {
+      "epoch": 6.292352371732817,
+      "grad_norm": 0.12414942681789398,
+      "learning_rate": 2.5280735721200388e-05,
+      "loss": 0.1158,
+      "step": 6500
+    },
+    {
+      "epoch": 6.776379477250726,
+      "grad_norm": 4.030830383300781,
+      "learning_rate": 2.4917715392061957e-05,
+      "loss": 0.1208,
+      "step": 7000
+    },
+    {
+      "epoch": 7.0,
+      "eval_f1": 0.9346733668341709,
+      "eval_loss": 0.3136898875236511,
+      "eval_runtime": 30.2127,
+      "eval_samples_per_second": 118.559,
+      "eval_steps_per_second": 4.965,
+      "step": 7231
+    },
+    {
+      "epoch": 7.260406582768635,
+      "grad_norm": 4.0914530754089355,
+      "learning_rate": 2.4554695062923523e-05,
+      "loss": 0.1127,
+      "step": 7500
+    },
+    {
+      "epoch": 7.744433688286544,
+      "grad_norm": 0.10396777093410492,
+      "learning_rate": 2.4191674733785093e-05,
+      "loss": 0.1074,
+      "step": 8000
+    },
+    {
+      "epoch": 8.0,
+      "eval_f1": 0.9355108877721943,
+      "eval_loss": 0.2966548800468445,
+      "eval_runtime": 30.2555,
+      "eval_samples_per_second": 118.392,
+      "eval_steps_per_second": 4.958,
+      "step": 8264
+    },
+    {
+      "epoch": 8.228460793804453,
+      "grad_norm": 0.22765442728996277,
+      "learning_rate": 2.382865440464666e-05,
+      "loss": 0.0993,
+      "step": 8500
+    },
+    {
+      "epoch": 8.712487899322362,
+      "grad_norm": 0.5725598931312561,
+      "learning_rate": 2.346563407550823e-05,
+      "loss": 0.2719,
+      "step": 9000
+    },
+    {
+      "epoch": 9.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8269146084785461,
+      "eval_runtime": 30.1812,
+      "eval_samples_per_second": 118.683,
+      "eval_steps_per_second": 4.97,
+      "step": 9297
+    },
+    {
+      "epoch": 9.196515004840272,
+      "grad_norm": 1.2485491037368774,
+      "learning_rate": 2.3102613746369797e-05,
+      "loss": 0.8488,
+      "step": 9500
+    },
+    {
+      "epoch": 9.68054211035818,
+      "grad_norm": 0.6287474036216736,
+      "learning_rate": 2.2739593417231366e-05,
+      "loss": 0.8456,
+      "step": 10000
+    },
+    {
+      "epoch": 10.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8219632506370544,
+      "eval_runtime": 30.1694,
+      "eval_samples_per_second": 118.729,
+      "eval_steps_per_second": 4.972,
+      "step": 10330
+    },
+    {
+      "epoch": 10.164569215876089,
+      "grad_norm": 1.4201635122299194,
+      "learning_rate": 2.2376573088092936e-05,
+      "loss": 0.8446,
+      "step": 10500
+    },
+    {
+      "epoch": 10.648596321393999,
+      "grad_norm": 1.115445613861084,
+      "learning_rate": 2.20135527589545e-05,
+      "loss": 0.84,
+      "step": 11000
+    },
+    {
+      "epoch": 11.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8211880922317505,
+      "eval_runtime": 30.1617,
+      "eval_samples_per_second": 118.76,
+      "eval_steps_per_second": 4.973,
+      "step": 11363
+    },
+    {
+      "epoch": 11.132623426911907,
+      "grad_norm": 1.784400463104248,
+      "learning_rate": 2.165053242981607e-05,
+      "loss": 0.8435,
+      "step": 11500
+    },
+    {
+      "epoch": 11.616650532429816,
+      "grad_norm": 1.7544752359390259,
+      "learning_rate": 2.1287512100677637e-05,
+      "loss": 0.841,
+      "step": 12000
+    },
+    {
+      "epoch": 12.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8207370042800903,
+      "eval_runtime": 30.1494,
+      "eval_samples_per_second": 118.808,
+      "eval_steps_per_second": 4.975,
+      "step": 12396
+    },
+    {
+      "epoch": 12.100677637947726,
+      "grad_norm": 0.660882830619812,
+      "learning_rate": 2.092449177153921e-05,
+      "loss": 0.8421,
+      "step": 12500
+    },
+    {
+      "epoch": 12.584704743465634,
+      "grad_norm": 0.5564029812812805,
+      "learning_rate": 2.0561471442400775e-05,
+      "loss": 0.8383,
+      "step": 13000
+    },
+    {
+      "epoch": 13.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8198010325431824,
+      "eval_runtime": 30.2024,
+      "eval_samples_per_second": 118.6,
+      "eval_steps_per_second": 4.966,
+      "step": 13429
+    },
+    {
+      "epoch": 13.068731848983543,
+      "grad_norm": 0.45510706305503845,
+      "learning_rate": 2.019845111326234e-05,
+      "loss": 0.8494,
+      "step": 13500
+    },
+    {
+      "epoch": 13.552758954501453,
+      "grad_norm": 0.9993030428886414,
+      "learning_rate": 1.983543078412391e-05,
+      "loss": 0.8371,
+      "step": 14000
+    },
+    {
+      "epoch": 14.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8276057839393616,
+      "eval_runtime": 30.1498,
+      "eval_samples_per_second": 118.807,
+      "eval_steps_per_second": 4.975,
+      "step": 14462
+    },
+    {
+      "epoch": 14.036786060019361,
+      "grad_norm": 0.8151612281799316,
+      "learning_rate": 1.947241045498548e-05,
+      "loss": 0.8465,
+      "step": 14500
+    },
+    {
+      "epoch": 14.52081316553727,
+      "grad_norm": 1.312504768371582,
+      "learning_rate": 1.910939012584705e-05,
+      "loss": 0.8486,
+      "step": 15000
+    },
+    {
+      "epoch": 15.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8243775367736816,
+      "eval_runtime": 30.177,
+      "eval_samples_per_second": 118.7,
+      "eval_steps_per_second": 4.971,
+      "step": 15495
+    },
+    {
+      "epoch": 15.00484027105518,
+      "grad_norm": 1.09600031375885,
+      "learning_rate": 1.8746369796708615e-05,
+      "loss": 0.8345,
+      "step": 15500
+    },
+    {
+      "epoch": 15.488867376573088,
+      "grad_norm": 1.3698476552963257,
+      "learning_rate": 1.8383349467570184e-05,
+      "loss": 0.8365,
+      "step": 16000
+    },
+    {
+      "epoch": 15.972894482090997,
+      "grad_norm": 0.5735417008399963,
+      "learning_rate": 1.8020329138431754e-05,
+      "loss": 0.844,
+      "step": 16500
+    },
+    {
+      "epoch": 16.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8390949964523315,
+      "eval_runtime": 30.2033,
+      "eval_samples_per_second": 118.596,
+      "eval_steps_per_second": 4.966,
+      "step": 16528
+    },
+    {
+      "epoch": 16.456921587608907,
+      "grad_norm": 1.3362003564834595,
+      "learning_rate": 1.765730880929332e-05,
+      "loss": 0.8349,
+      "step": 17000
+    },
+    {
+      "epoch": 16.940948693126813,
+      "grad_norm": 0.4842800796031952,
+      "learning_rate": 1.729428848015489e-05,
+      "loss": 0.837,
+      "step": 17500
+    },
+    {
+      "epoch": 17.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8234853744506836,
+      "eval_runtime": 30.2033,
+      "eval_samples_per_second": 118.596,
+      "eval_steps_per_second": 4.966,
+      "step": 17561
+    },
+    {
+      "epoch": 17.424975798644724,
+      "grad_norm": 0.564506471157074,
+      "learning_rate": 1.6931268151016455e-05,
+      "loss": 0.8368,
+      "step": 18000
+    },
+    {
+      "epoch": 17.909002904162634,
+      "grad_norm": 1.0698164701461792,
+      "learning_rate": 1.6568247821878027e-05,
+      "loss": 0.8438,
+      "step": 18500
+    },
+    {
+      "epoch": 18.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8246738314628601,
+      "eval_runtime": 30.1891,
+      "eval_samples_per_second": 118.652,
+      "eval_steps_per_second": 4.969,
+      "step": 18594
+    },
+    {
+      "epoch": 18.393030009680544,
+      "grad_norm": 0.8105427026748657,
+      "learning_rate": 1.6205227492739593e-05,
+      "loss": 0.8367,
+      "step": 19000
+    },
+    {
+      "epoch": 18.87705711519845,
+      "grad_norm": 0.630368173122406,
+      "learning_rate": 1.5842207163601163e-05,
+      "loss": 0.8418,
+      "step": 19500
+    },
+    {
+      "epoch": 19.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8236768841743469,
+      "eval_runtime": 30.1711,
+      "eval_samples_per_second": 118.723,
+      "eval_steps_per_second": 4.972,
+      "step": 19627
+    },
+    {
+      "epoch": 19.36108422071636,
+      "grad_norm": 0.884172797203064,
+      "learning_rate": 1.5479186834462732e-05,
+      "loss": 0.8503,
+      "step": 20000
+    },
+    {
+      "epoch": 19.845111326234267,
+      "grad_norm": 0.585003674030304,
+      "learning_rate": 1.51161665053243e-05,
+      "loss": 0.8384,
+      "step": 20500
+    },
+    {
+      "epoch": 20.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8199198246002197,
+      "eval_runtime": 30.1335,
+      "eval_samples_per_second": 118.871,
+      "eval_steps_per_second": 4.978,
+      "step": 20660
+    },
+    {
+      "epoch": 20.329138431752177,
+      "grad_norm": 1.194004774093628,
+      "learning_rate": 1.4753146176185867e-05,
+      "loss": 0.845,
+      "step": 21000
+    },
+    {
+      "epoch": 20.813165537270088,
+      "grad_norm": 0.378979355096817,
+      "learning_rate": 1.4390125847047436e-05,
+      "loss": 0.8387,
+      "step": 21500
+    },
+    {
+      "epoch": 21.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8225679993629456,
+      "eval_runtime": 29.9919,
+      "eval_samples_per_second": 119.432,
+      "eval_steps_per_second": 5.001,
+      "step": 21693
+    },
+    {
+      "epoch": 21.297192642787998,
+      "grad_norm": 0.6615312099456787,
+      "learning_rate": 1.4027105517909002e-05,
+      "loss": 0.833,
+      "step": 22000
+    },
+    {
+      "epoch": 21.781219748305904,
+      "grad_norm": 0.4334174394607544,
+      "learning_rate": 1.3664085188770572e-05,
+      "loss": 0.8478,
+      "step": 22500
+    },
+    {
+      "epoch": 22.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8205086588859558,
+      "eval_runtime": 29.9624,
+      "eval_samples_per_second": 119.55,
+      "eval_steps_per_second": 5.006,
+      "step": 22726
+    },
+    {
+      "epoch": 22.265246853823815,
+      "grad_norm": 0.8907693028450012,
+      "learning_rate": 1.3301064859632139e-05,
+      "loss": 0.8442,
+      "step": 23000
+    },
+    {
+      "epoch": 22.749273959341725,
+      "grad_norm": 0.5629915595054626,
+      "learning_rate": 1.2938044530493708e-05,
+      "loss": 0.8364,
+      "step": 23500
+    },
+    {
+      "epoch": 23.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8259473443031311,
+      "eval_runtime": 29.9524,
+      "eval_samples_per_second": 119.59,
+      "eval_steps_per_second": 5.008,
+      "step": 23759
+    },
+    {
+      "epoch": 23.23330106485963,
+      "grad_norm": 0.47178810834884644,
+      "learning_rate": 1.2575024201355276e-05,
+      "loss": 0.83,
+      "step": 24000
+    },
+    {
+      "epoch": 23.71732817037754,
+      "grad_norm": 0.5889131426811218,
+      "learning_rate": 1.2212003872216845e-05,
+      "loss": 0.8325,
+      "step": 24500
+    },
+    {
+      "epoch": 24.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8245280385017395,
+      "eval_runtime": 29.9556,
+      "eval_samples_per_second": 119.577,
+      "eval_steps_per_second": 5.007,
+      "step": 24792
+    },
+    {
+      "epoch": 24.20135527589545,
+      "grad_norm": 0.8042486310005188,
+      "learning_rate": 1.1848983543078413e-05,
+      "loss": 0.8357,
+      "step": 25000
+    },
+    {
+      "epoch": 24.68538238141336,
+      "grad_norm": 0.7427254319190979,
+      "learning_rate": 1.148596321393998e-05,
+      "loss": 0.8289,
+      "step": 25500
+    },
+    {
+      "epoch": 25.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8248125314712524,
+      "eval_runtime": 30.0337,
+      "eval_samples_per_second": 119.266,
+      "eval_steps_per_second": 4.994,
+      "step": 25825
+    },
+    {
+      "epoch": 25.16940948693127,
+      "grad_norm": 1.4444160461425781,
+      "learning_rate": 1.1122942884801548e-05,
+      "loss": 0.8344,
+      "step": 26000
+    },
+    {
+      "epoch": 25.65343659244918,
+      "grad_norm": 1.6647661924362183,
+      "learning_rate": 1.0759922555663117e-05,
+      "loss": 0.8251,
+      "step": 26500
+    },
+    {
+      "epoch": 26.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8246968984603882,
+      "eval_runtime": 30.0343,
+      "eval_samples_per_second": 119.263,
+      "eval_steps_per_second": 4.994,
+      "step": 26858
+    },
+    {
+      "epoch": 26.137463697967085,
+      "grad_norm": 0.560504138469696,
+      "learning_rate": 1.0396902226524685e-05,
+      "loss": 0.8265,
+      "step": 27000
+    },
+    {
+      "epoch": 26.621490803484996,
+      "grad_norm": 2.6784770488739014,
+      "learning_rate": 1.0033881897386254e-05,
+      "loss": 0.824,
+      "step": 27500
+    },
+    {
+      "epoch": 27.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.821439802646637,
+      "eval_runtime": 29.9327,
+      "eval_samples_per_second": 119.668,
+      "eval_steps_per_second": 5.011,
+      "step": 27891
+    },
+    {
+      "epoch": 27.105517909002906,
+      "grad_norm": 0.9694743156433105,
+      "learning_rate": 9.670861568247822e-06,
+      "loss": 0.8304,
+      "step": 28000
+    },
+    {
+      "epoch": 27.589545014520812,
+      "grad_norm": 0.8298953771591187,
+      "learning_rate": 9.307841239109391e-06,
+      "loss": 0.8197,
+      "step": 28500
+    },
+    {
+      "epoch": 28.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8281795382499695,
+      "eval_runtime": 29.9052,
+      "eval_samples_per_second": 119.778,
+      "eval_steps_per_second": 5.016,
+      "step": 28924
+    },
+    {
+      "epoch": 28.073572120038722,
+      "grad_norm": 1.530045986175537,
+      "learning_rate": 8.944820909970959e-06,
+      "loss": 0.8214,
+      "step": 29000
+    },
+    {
+      "epoch": 28.557599225556633,
+      "grad_norm": 1.6190696954727173,
+      "learning_rate": 8.581800580832526e-06,
+      "loss": 0.8241,
+      "step": 29500
+    },
+    {
+      "epoch": 29.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8340330123901367,
+      "eval_runtime": 29.9993,
+      "eval_samples_per_second": 119.403,
+      "eval_steps_per_second": 5.0,
+      "step": 29957
+    },
+    {
+      "epoch": 29.04162633107454,
+      "grad_norm": 0.6487633585929871,
+      "learning_rate": 8.218780251694096e-06,
+      "loss": 0.8209,
+      "step": 30000
+    },
+    {
+      "epoch": 29.52565343659245,
+      "grad_norm": 1.1463664770126343,
+      "learning_rate": 7.855759922555663e-06,
+      "loss": 0.8285,
+      "step": 30500
+    },
+    {
+      "epoch": 30.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8359894156455994,
+      "eval_runtime": 29.9709,
+      "eval_samples_per_second": 119.516,
+      "eval_steps_per_second": 5.005,
+      "step": 30990
+    },
+    {
+      "epoch": 30.00968054211036,
+      "grad_norm": 1.2427114248275757,
+      "learning_rate": 7.492739593417232e-06,
+      "loss": 0.8103,
+      "step": 31000
+    },
+    {
+      "epoch": 30.493707647628266,
+      "grad_norm": 1.2282146215438843,
+      "learning_rate": 7.129719264278799e-06,
+      "loss": 0.814,
+      "step": 31500
+    },
+    {
+      "epoch": 30.977734753146176,
+      "grad_norm": 1.6168450117111206,
+      "learning_rate": 6.766698935140368e-06,
+      "loss": 0.8169,
+      "step": 32000
+    },
+    {
+      "epoch": 31.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8400696516036987,
+      "eval_runtime": 29.9824,
+      "eval_samples_per_second": 119.47,
+      "eval_steps_per_second": 5.003,
+      "step": 32023
+    },
+    {
+      "epoch": 31.461761858664087,
+      "grad_norm": 2.838101863861084,
+      "learning_rate": 6.403678606001936e-06,
+      "loss": 0.8113,
+      "step": 32500
+    },
+    {
+      "epoch": 31.945788964181993,
+      "grad_norm": 1.7709537744522095,
+      "learning_rate": 6.040658276863505e-06,
+      "loss": 0.811,
+      "step": 33000
+    },
+    {
+      "epoch": 32.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.853431224822998,
+      "eval_runtime": 30.0224,
+      "eval_samples_per_second": 119.311,
+      "eval_steps_per_second": 4.996,
+      "step": 33056
+    },
+    {
+      "epoch": 32.4298160696999,
+      "grad_norm": 1.901810646057129,
+      "learning_rate": 5.677637947725073e-06,
+      "loss": 0.8153,
+      "step": 33500
+    },
+    {
+      "epoch": 32.91384317521781,
+      "grad_norm": 3.1245410442352295,
+      "learning_rate": 5.3146176185866415e-06,
+      "loss": 0.8056,
+      "step": 34000
+    },
+    {
+      "epoch": 33.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.869020938873291,
+      "eval_runtime": 29.9807,
+      "eval_samples_per_second": 119.477,
+      "eval_steps_per_second": 5.003,
+      "step": 34089
+    },
+    {
+      "epoch": 33.397870280735724,
+      "grad_norm": 2.18399977684021,
+      "learning_rate": 4.951597289448209e-06,
+      "loss": 0.8193,
+      "step": 34500
+    },
+    {
+      "epoch": 33.88189738625363,
+      "grad_norm": 0.905960202217102,
+      "learning_rate": 4.588576960309778e-06,
+      "loss": 0.8023,
+      "step": 35000
+    },
+    {
+      "epoch": 34.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.863983154296875,
+      "eval_runtime": 29.8457,
+      "eval_samples_per_second": 120.017,
+      "eval_steps_per_second": 5.026,
+      "step": 35122
+    },
+    {
+      "epoch": 34.36592449177154,
+      "grad_norm": 2.841273069381714,
+      "learning_rate": 4.225556631171346e-06,
+      "loss": 0.8067,
+      "step": 35500
+    },
+    {
+      "epoch": 34.84995159728945,
+      "grad_norm": 0.9258007407188416,
+      "learning_rate": 3.8625363020329145e-06,
+      "loss": 0.8146,
+      "step": 36000
+    },
+    {
+      "epoch": 35.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.870430052280426,
+      "eval_runtime": 29.8816,
+      "eval_samples_per_second": 119.873,
+      "eval_steps_per_second": 5.02,
+      "step": 36155
+    },
+    {
+      "epoch": 35.33397870280736,
+      "grad_norm": 0.954750120639801,
+      "learning_rate": 3.499515972894482e-06,
+      "loss": 0.7988,
+      "step": 36500
+    },
+    {
+      "epoch": 35.81800580832527,
+      "grad_norm": 1.9225430488586426,
+      "learning_rate": 3.1364956437560505e-06,
+      "loss": 0.8079,
+      "step": 37000
+    },
+    {
+      "epoch": 36.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8958960175514221,
+      "eval_runtime": 29.9806,
+      "eval_samples_per_second": 119.477,
+      "eval_steps_per_second": 5.003,
+      "step": 37188
+    },
+    {
+      "epoch": 36.30203291384318,
+      "grad_norm": 1.3240045309066772,
+      "learning_rate": 2.7734753146176185e-06,
+      "loss": 0.8054,
+      "step": 37500
+    },
+    {
+      "epoch": 36.78606001936109,
+      "grad_norm": 5.058154106140137,
+      "learning_rate": 2.410454985479187e-06,
+      "loss": 0.8081,
+      "step": 38000
+    },
+    {
+      "epoch": 37.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8801546692848206,
+      "eval_runtime": 29.8881,
+      "eval_samples_per_second": 119.847,
+      "eval_steps_per_second": 5.019,
+      "step": 38221
+    },
+    {
+      "epoch": 37.27008712487899,
+      "grad_norm": 2.5231587886810303,
+      "learning_rate": 2.047434656340755e-06,
+      "loss": 0.8066,
+      "step": 38500
+    },
+    {
+      "epoch": 37.7541142303969,
+      "grad_norm": 1.007765769958496,
+      "learning_rate": 1.6844143272023235e-06,
+      "loss": 0.8059,
+      "step": 39000
+    },
+    {
+      "epoch": 38.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.890051543712616,
+      "eval_runtime": 29.9175,
+      "eval_samples_per_second": 119.729,
+      "eval_steps_per_second": 5.014,
+      "step": 39254
+    },
+    {
+      "epoch": 38.23814133591481,
+      "grad_norm": 1.9777470827102661,
+      "learning_rate": 1.3213939980638917e-06,
+      "loss": 0.8077,
+      "step": 39500
+    },
+    {
+      "epoch": 38.72216844143272,
+      "grad_norm": 2.1567304134368896,
+      "learning_rate": 9.5837366892546e-07,
+      "loss": 0.8045,
+      "step": 40000
+    },
+    {
+      "epoch": 39.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.888158917427063,
+      "eval_runtime": 29.9571,
+      "eval_samples_per_second": 119.571,
+      "eval_steps_per_second": 5.007,
+      "step": 40287
+    },
+    {
+      "epoch": 39.20619554695063,
+      "grad_norm": 1.4379490613937378,
+      "learning_rate": 5.953533397870282e-07,
+      "loss": 0.7972,
+      "step": 40500
+    },
+    {
+      "epoch": 39.690222652468535,
+      "grad_norm": 1.5997909307479858,
+      "learning_rate": 2.3233301064859634e-07,
+      "loss": 0.8024,
+      "step": 41000
+    },
+    {
+      "epoch": 40.0,
+      "eval_f1": 0.6409826912339475,
+      "eval_loss": 0.8918312788009644,
+      "eval_runtime": 29.6532,
+      "eval_samples_per_second": 120.796,
+      "eval_steps_per_second": 5.058,
+      "step": 41320
+    },
+    {
+      "epoch": 40.0,
+      "step": 41320,
+      "total_flos": 2.3084949799922688e+17,
+      "train_loss": 0.688100525762774,
+      "train_runtime": 30496.5649,
+      "train_samples_per_second": 32.49,
+      "train_steps_per_second": 1.355
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 41320,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 40,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.3084949799922688e+17,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": null
+}