Model save

Browse files

Files changed (10) hide show

README.md +1 -1
all_results.json +13 -13
generated_predictions (copy).txt +0 -0
generated_predictions.txt +0 -0
mbart_generated_predictions (copy).txt +0 -0
model.safetensors +1 -1
predict_results.json +7 -7
train_results.json +6 -6
trainer_state.json +236 -908
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -37,7 +37,7 @@ The following hyperparameters were used during training:
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 3.0
 ### Training results

 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 7.0
 ### Training results

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 7.0,
-    "predict_bleu": 46.7681,
-    "predict_gen_len": 12.5226,
-    "predict_loss": 1.1072814464569092,
-    "predict_runtime": 32.3808,
-    "predict_samples": 1263,
-    "predict_samples_per_second": 39.005,
-    "predict_steps_per_second": 9.759,
-    "train_loss": 0.024883948061263487,
-    "train_runtime": 1768.5377,
-    "train_samples": 53559,
-    "train_samples_per_second": 211.99,
-    "train_steps_per_second": 52.999
 }

 {
+    "epoch": 3.0,
+    "predict_bleu": 40.9816,
+    "predict_gen_len": 13.035,
+    "predict_loss": 1.048066258430481,
+    "predict_runtime": 51.9598,
+    "predict_samples": 2000,
+    "predict_samples_per_second": 38.491,
+    "predict_steps_per_second": 9.623,
+    "train_loss": 1.5174339204652274,
+    "train_runtime": 9956.4506,
+    "train_samples": 50418,
+    "train_samples_per_second": 15.192,
+    "train_steps_per_second": 3.798
 }

generated_predictions (copy).txt ADDED Viewed

The diff for this file is too large to render. See raw diff

generated_predictions.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

mbart_generated_predictions (copy).txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:267aa3c6ede55e3ce5387e8cf3a33b920d351547908c529bf859c698a4675387
 size 2444578688

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc97ea71b777a76b3859b80fd38c68693292c37553bdcb67d37368d88334b6d0
 size 2444578688

predict_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "predict_bleu": 46.7681,
-    "predict_gen_len": 12.5226,
-    "predict_loss": 1.1072814464569092,
-    "predict_runtime": 32.3808,
-    "predict_samples": 1263,
-    "predict_samples_per_second": 39.005,
-    "predict_steps_per_second": 9.759
 }

 {
+    "predict_bleu": 40.9816,
+    "predict_gen_len": 13.035,
+    "predict_loss": 1.048066258430481,
+    "predict_runtime": 51.9598,
+    "predict_samples": 2000,
+    "predict_samples_per_second": 38.491,
+    "predict_steps_per_second": 9.623
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 7.0,
-    "train_loss": 0.024883948061263487,
-    "train_runtime": 1768.5377,
-    "train_samples": 53559,
-    "train_samples_per_second": 211.99,
-    "train_steps_per_second": 52.999
 }

 {
+    "epoch": 3.0,
+    "train_loss": 1.5174339204652274,
+    "train_runtime": 9956.4506,
+    "train_samples": 50418,
+    "train_samples_per_second": 15.192,
+    "train_steps_per_second": 3.798
 }

trainer_state.json CHANGED Viewed

@@ -1,1151 +1,479 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.0,
   "eval_steps": 500,
-  "global_step": 93730,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
-      "learning_rate": 4.813293502613891e-05,
-      "loss": 3.4729,
       "step": 500
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 4.626587005227782e-05,
-      "loss": 3.0263,
       "step": 1000
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 4.439880507841673e-05,
-      "loss": 2.8813,
       "step": 1500
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 4.253174010455564e-05,
-      "loss": 2.7034,
       "step": 2000
     },
     {
-      "epoch": 0.19,
-      "learning_rate": 4.066467513069455e-05,
-      "loss": 2.7308,
       "step": 2500
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 3.879761015683346e-05,
-      "loss": 2.6246,
       "step": 3000
     },
     {
-      "epoch": 0.26,
-      "learning_rate": 3.693054518297237e-05,
-      "loss": 2.5404,
       "step": 3500
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 3.506348020911128e-05,
-      "loss": 2.543,
       "step": 4000
     },
     {
-      "epoch": 0.34,
-      "learning_rate": 3.319641523525019e-05,
-      "loss": 2.4337,
       "step": 4500
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 3.13293502613891e-05,
-      "loss": 2.5003,
       "step": 5000
     },
     {
-      "epoch": 0.41,
-      "learning_rate": 2.9462285287528007e-05,
-      "loss": 2.4064,
       "step": 5500
     },
     {
-      "epoch": 0.45,
-      "learning_rate": 2.759522031366692e-05,
-      "loss": 2.3045,
       "step": 6000
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 2.5728155339805826e-05,
-      "loss": 2.3047,
       "step": 6500
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 2.3861090365944735e-05,
-      "loss": 2.2855,
       "step": 7000
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 2.1994025392083645e-05,
-      "loss": 2.3088,
       "step": 7500
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 2.0126960418222554e-05,
-      "loss": 2.2434,
       "step": 8000
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 1.8259895444361464e-05,
-      "loss": 2.215,
       "step": 8500
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 1.6392830470500377e-05,
-      "loss": 2.2731,
       "step": 9000
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 1.4525765496639285e-05,
-      "loss": 2.1623,
       "step": 9500
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 1.2658700522778194e-05,
-      "loss": 2.1395,
       "step": 10000
     },
     {
-      "epoch": 0.78,
-      "learning_rate": 1.0791635548917104e-05,
-      "loss": 2.2036,
       "step": 10500
     },
     {
-      "epoch": 0.82,
-      "learning_rate": 8.924570575056013e-06,
-      "loss": 2.1406,
       "step": 11000
     },
     {
-      "epoch": 0.86,
-      "learning_rate": 7.057505601194922e-06,
-      "loss": 2.0425,
       "step": 11500
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 5.190440627333831e-06,
-      "loss": 2.0832,
       "step": 12000
     },
     {
-      "epoch": 0.93,
-      "learning_rate": 3.3233756534727413e-06,
-      "loss": 2.0409,
       "step": 12500
     },
     {
-      "epoch": 0.97,
-      "learning_rate": 1.4563106796116506e-06,
-      "loss": 2.0602,
       "step": 13000
     },
     {
-      "epoch": 1.01,
-      "learning_rate": 3.991784914115011e-05,
-      "loss": 2.1169,
       "step": 13500
     },
     {
-      "epoch": 1.05,
-      "learning_rate": 3.95444361463779e-05,
-      "loss": 1.9384,
       "step": 14000
     },
     {
-      "epoch": 1.08,
-      "learning_rate": 3.917102315160568e-05,
-      "loss": 1.9064,
       "step": 14500
     },
     {
-      "epoch": 1.12,
-      "learning_rate": 3.879761015683346e-05,
-      "loss": 1.9263,
       "step": 15000
     },
     {
-      "epoch": 1.16,
-      "learning_rate": 3.8424197162061244e-05,
-      "loss": 1.984,
       "step": 15500
     },
     {
-      "epoch": 1.19,
-      "learning_rate": 3.805078416728902e-05,
-      "loss": 1.9026,
       "step": 16000
     },
     {
-      "epoch": 1.23,
-      "learning_rate": 3.7677371172516806e-05,
-      "loss": 1.9688,
       "step": 16500
     },
     {
-      "epoch": 1.27,
-      "learning_rate": 3.7303958177744584e-05,
-      "loss": 1.9084,
       "step": 17000
     },
     {
-      "epoch": 1.31,
-      "learning_rate": 3.693054518297237e-05,
-      "loss": 1.9521,
       "step": 17500
     },
     {
-      "epoch": 1.34,
-      "learning_rate": 3.655713218820015e-05,
-      "loss": 1.9084,
       "step": 18000
     },
     {
-      "epoch": 1.38,
-      "learning_rate": 3.618371919342793e-05,
-      "loss": 1.957,
       "step": 18500
     },
     {
-      "epoch": 1.42,
-      "learning_rate": 3.5810306198655716e-05,
-      "loss": 1.9216,
       "step": 19000
     },
     {
-      "epoch": 1.46,
-      "learning_rate": 3.54368932038835e-05,
-      "loss": 1.9009,
       "step": 19500
     },
     {
-      "epoch": 1.49,
-      "learning_rate": 3.506348020911128e-05,
-      "loss": 1.9264,
       "step": 20000
     },
     {
-      "epoch": 1.53,
-      "learning_rate": 3.469006721433906e-05,
-      "loss": 1.9279,
       "step": 20500
     },
     {
-      "epoch": 1.57,
-      "learning_rate": 3.431665421956684e-05,
-      "loss": 1.8553,
       "step": 21000
     },
     {
-      "epoch": 1.61,
-      "learning_rate": 3.3943241224794625e-05,
-      "loss": 1.9544,
       "step": 21500
     },
     {
-      "epoch": 1.64,
-      "learning_rate": 3.35698282300224e-05,
-      "loss": 1.8713,
       "step": 22000
     },
     {
-      "epoch": 1.68,
-      "learning_rate": 3.319641523525019e-05,
-      "loss": 1.877,
       "step": 22500
     },
     {
-      "epoch": 1.72,
-      "learning_rate": 3.2823002240477966e-05,
-      "loss": 1.8483,
       "step": 23000
     },
     {
-      "epoch": 1.76,
-      "learning_rate": 3.244958924570575e-05,
-      "loss": 1.8154,
       "step": 23500
     },
     {
-      "epoch": 1.79,
-      "learning_rate": 3.2076176250933535e-05,
-      "loss": 1.897,
       "step": 24000
     },
     {
-      "epoch": 1.83,
-      "learning_rate": 3.170276325616132e-05,
-      "loss": 1.8807,
       "step": 24500
     },
     {
-      "epoch": 1.87,
-      "learning_rate": 3.13293502613891e-05,
-      "loss": 1.8696,
       "step": 25000
     },
     {
-      "epoch": 1.9,
-      "learning_rate": 3.095593726661688e-05,
-      "loss": 1.8949,
       "step": 25500
     },
     {
-      "epoch": 1.94,
-      "learning_rate": 3.058252427184466e-05,
-      "loss": 1.8808,
       "step": 26000
     },
     {
-      "epoch": 1.98,
-      "learning_rate": 3.0209111277072444e-05,
-      "loss": 1.8257,
       "step": 26500
     },
     {
-      "epoch": 2.02,
-      "learning_rate": 2.9835698282300222e-05,
-      "loss": 1.6733,
       "step": 27000
     },
     {
-      "epoch": 2.05,
-      "learning_rate": 2.9462285287528007e-05,
-      "loss": 1.3824,
       "step": 27500
     },
     {
-      "epoch": 2.09,
-      "learning_rate": 2.9088872292755788e-05,
-      "loss": 1.4268,
       "step": 28000
     },
     {
-      "epoch": 2.13,
-      "learning_rate": 2.8715459297983573e-05,
-      "loss": 1.3661,
       "step": 28500
     },
     {
-      "epoch": 2.17,
-      "learning_rate": 2.834204630321135e-05,
-      "loss": 1.3921,
       "step": 29000
     },
     {
-      "epoch": 2.2,
-      "learning_rate": 2.7968633308439135e-05,
-      "loss": 1.381,
       "step": 29500
     },
     {
-      "epoch": 2.24,
-      "learning_rate": 2.759522031366692e-05,
-      "loss": 1.4431,
       "step": 30000
     },
     {
-      "epoch": 2.28,
-      "learning_rate": 2.7221807318894698e-05,
-      "loss": 1.4092,
       "step": 30500
     },
     {
-      "epoch": 2.32,
-      "learning_rate": 2.6848394324122482e-05,
-      "loss": 1.3834,
       "step": 31000
     },
     {
-      "epoch": 2.35,
-      "learning_rate": 2.6474981329350264e-05,
-      "loss": 1.3976,
       "step": 31500
     },
     {
-      "epoch": 2.39,
-      "learning_rate": 2.6101568334578048e-05,
-      "loss": 1.4163,
       "step": 32000
     },
     {
-      "epoch": 2.43,
-      "learning_rate": 2.5728155339805826e-05,
-      "loss": 1.463,
       "step": 32500
     },
     {
-      "epoch": 2.46,
-      "learning_rate": 2.535474234503361e-05,
-      "loss": 1.3829,
       "step": 33000
     },
     {
-      "epoch": 2.5,
-      "learning_rate": 2.498132935026139e-05,
-      "loss": 1.4267,
       "step": 33500
     },
     {
-      "epoch": 2.54,
-      "learning_rate": 2.4607916355489173e-05,
-      "loss": 1.4251,
       "step": 34000
     },
     {
-      "epoch": 2.58,
-      "learning_rate": 2.4234503360716954e-05,
-      "loss": 1.3971,
       "step": 34500
     },
     {
-      "epoch": 2.61,
-      "learning_rate": 2.3861090365944735e-05,
-      "loss": 1.4307,
       "step": 35000
     },
     {
-      "epoch": 2.65,
-      "learning_rate": 2.3487677371172517e-05,
-      "loss": 1.3797,
       "step": 35500
     },
     {
-      "epoch": 2.69,
-      "learning_rate": 2.3114264376400298e-05,
-      "loss": 1.4136,
       "step": 36000
     },
     {
-      "epoch": 2.73,
-      "learning_rate": 2.2740851381628083e-05,
-      "loss": 1.3923,
       "step": 36500
     },
     {
-      "epoch": 2.76,
-      "learning_rate": 2.2367438386855864e-05,
-      "loss": 1.4402,
       "step": 37000
     },
     {
-      "epoch": 2.8,
-      "learning_rate": 2.1994025392083645e-05,
-      "loss": 1.4485,
       "step": 37500
     },
     {
-      "epoch": 2.84,
-      "learning_rate": 2.1620612397311426e-05,
-      "loss": 1.3766,
-      "step": 38000
-    },
-    {
-      "epoch": 2.88,
-      "learning_rate": 2.1247199402539207e-05,
-      "loss": 1.3877,
-      "step": 38500
-    },
-    {
-      "epoch": 2.91,
-      "learning_rate": 2.0873786407766992e-05,
-      "loss": 1.4218,
-      "step": 39000
-    },
-    {
-      "epoch": 2.95,
-      "learning_rate": 2.0500373412994773e-05,
-      "loss": 1.4167,
-      "step": 39500
-    },
-    {
-      "epoch": 2.99,
-      "learning_rate": 2.0126960418222554e-05,
-      "loss": 1.3621,
-      "step": 40000
-    },
-    {
-      "epoch": 3.02,
-      "learning_rate": 1.9753547423450336e-05,
-      "loss": 1.0586,
-      "step": 40500
-    },
-    {
-      "epoch": 3.06,
-      "learning_rate": 1.9380134428678117e-05,
-      "loss": 0.9882,
-      "step": 41000
-    },
-    {
-      "epoch": 3.1,
-      "learning_rate": 1.9006721433905898e-05,
-      "loss": 0.9795,
-      "step": 41500
-    },
-    {
-      "epoch": 3.14,
-      "learning_rate": 1.8633308439133683e-05,
-      "loss": 0.9992,
-      "step": 42000
-    },
-    {
-      "epoch": 3.17,
-      "learning_rate": 1.8259895444361464e-05,
-      "loss": 0.9474,
-      "step": 42500
-    },
-    {
-      "epoch": 3.21,
-      "learning_rate": 1.7886482449589245e-05,
-      "loss": 0.9975,
-      "step": 43000
-    },
-    {
-      "epoch": 3.25,
-      "learning_rate": 1.7513069454817026e-05,
-      "loss": 0.9606,
-      "step": 43500
-    },
-    {
-      "epoch": 3.29,
-      "learning_rate": 1.713965646004481e-05,
-      "loss": 0.9781,
-      "step": 44000
-    },
-    {
-      "epoch": 3.32,
-      "learning_rate": 1.6766243465272592e-05,
-      "loss": 1.0437,
-      "step": 44500
-    },
-    {
-      "epoch": 3.36,
-      "learning_rate": 1.6392830470500377e-05,
-      "loss": 0.963,
-      "step": 45000
-    },
-    {
-      "epoch": 3.4,
-      "learning_rate": 1.6019417475728158e-05,
-      "loss": 1.0407,
-      "step": 45500
-    },
-    {
-      "epoch": 3.44,
-      "learning_rate": 1.564600448095594e-05,
-      "loss": 1.0054,
-      "step": 46000
-    },
-    {
-      "epoch": 3.47,
-      "learning_rate": 1.527259148618372e-05,
-      "loss": 1.0396,
-      "step": 46500
-    },
-    {
-      "epoch": 3.51,
-      "learning_rate": 1.4899178491411503e-05,
-      "loss": 1.0051,
-      "step": 47000
-    },
-    {
-      "epoch": 3.55,
-      "learning_rate": 1.4525765496639285e-05,
-      "loss": 0.9828,
-      "step": 47500
-    },
-    {
-      "epoch": 3.58,
-      "learning_rate": 1.4152352501867066e-05,
-      "loss": 0.9976,
-      "step": 48000
-    },
-    {
-      "epoch": 3.62,
-      "learning_rate": 1.3778939507094849e-05,
-      "loss": 1.0251,
-      "step": 48500
-    },
-    {
-      "epoch": 3.66,
-      "learning_rate": 1.340552651232263e-05,
-      "loss": 1.0432,
-      "step": 49000
-    },
-    {
-      "epoch": 3.7,
-      "learning_rate": 1.3032113517550413e-05,
-      "loss": 0.9727,
-      "step": 49500
-    },
-    {
-      "epoch": 3.73,
-      "learning_rate": 1.2658700522778194e-05,
-      "loss": 0.9822,
-      "step": 50000
-    },
-    {
-      "epoch": 3.77,
-      "learning_rate": 1.2285287528005974e-05,
-      "loss": 1.0392,
-      "step": 50500
-    },
-    {
-      "epoch": 3.81,
-      "learning_rate": 1.1911874533233758e-05,
-      "loss": 0.9943,
-      "step": 51000
-    },
-    {
-      "epoch": 3.85,
-      "learning_rate": 1.153846153846154e-05,
-      "loss": 1.0256,
-      "step": 51500
-    },
-    {
-      "epoch": 3.88,
-      "learning_rate": 1.116504854368932e-05,
-      "loss": 1.0166,
-      "step": 52000
-    },
-    {
-      "epoch": 3.92,
-      "learning_rate": 1.0791635548917104e-05,
-      "loss": 0.9493,
-      "step": 52500
-    },
-    {
-      "epoch": 3.96,
-      "learning_rate": 1.0418222554144885e-05,
-      "loss": 1.0561,
-      "step": 53000
-    },
-    {
-      "epoch": 4.0,
-      "learning_rate": 1.0044809559372668e-05,
-      "loss": 0.976,
-      "step": 53500
-    },
-    {
-      "epoch": 4.03,
-      "learning_rate": 9.671396564600449e-06,
-      "loss": 0.7222,
-      "step": 54000
-    },
-    {
-      "epoch": 4.07,
-      "learning_rate": 9.29798356982823e-06,
-      "loss": 0.6606,
-      "step": 54500
-    },
-    {
-      "epoch": 4.11,
-      "learning_rate": 8.924570575056013e-06,
-      "loss": 0.6666,
-      "step": 55000
-    },
-    {
-      "epoch": 4.14,
-      "learning_rate": 8.551157580283794e-06,
-      "loss": 0.6524,
-      "step": 55500
-    },
-    {
-      "epoch": 4.18,
-      "learning_rate": 8.177744585511576e-06,
-      "loss": 0.6646,
-      "step": 56000
-    },
-    {
-      "epoch": 4.22,
-      "learning_rate": 7.804331590739359e-06,
-      "loss": 0.7429,
-      "step": 56500
-    },
-    {
-      "epoch": 4.26,
-      "learning_rate": 7.43091859596714e-06,
-      "loss": 0.711,
-      "step": 57000
-    },
-    {
-      "epoch": 4.29,
-      "learning_rate": 7.057505601194922e-06,
-      "loss": 0.6983,
-      "step": 57500
-    },
-    {
-      "epoch": 4.33,
-      "learning_rate": 6.684092606422704e-06,
-      "loss": 0.6639,
-      "step": 58000
-    },
-    {
-      "epoch": 4.37,
-      "learning_rate": 6.310679611650486e-06,
-      "loss": 0.7254,
-      "step": 58500
-    },
-    {
-      "epoch": 4.41,
-      "learning_rate": 5.937266616878267e-06,
-      "loss": 0.701,
-      "step": 59000
-    },
-    {
-      "epoch": 4.44,
-      "learning_rate": 5.563853622106049e-06,
-      "loss": 0.7424,
-      "step": 59500
-    },
-    {
-      "epoch": 4.48,
-      "learning_rate": 5.190440627333831e-06,
-      "loss": 0.6679,
-      "step": 60000
-    },
-    {
-      "epoch": 4.52,
-      "learning_rate": 4.817027632561613e-06,
-      "loss": 0.6413,
-      "step": 60500
-    },
-    {
-      "epoch": 4.56,
-      "learning_rate": 4.443614637789395e-06,
-      "loss": 0.7014,
-      "step": 61000
-    },
-    {
-      "epoch": 4.59,
-      "learning_rate": 4.070201643017177e-06,
-      "loss": 0.6786,
-      "step": 61500
-    },
-    {
-      "epoch": 4.63,
-      "learning_rate": 3.6967886482449596e-06,
-      "loss": 0.6792,
-      "step": 62000
-    },
-    {
-      "epoch": 4.67,
-      "learning_rate": 3.3233756534727413e-06,
-      "loss": 0.7148,
-      "step": 62500
-    },
-    {
-      "epoch": 4.71,
-      "learning_rate": 2.949962658700523e-06,
-      "loss": 0.6512,
-      "step": 63000
-    },
-    {
-      "epoch": 4.74,
-      "learning_rate": 2.5765496639283046e-06,
-      "loss": 0.681,
-      "step": 63500
-    },
-    {
-      "epoch": 4.78,
-      "learning_rate": 2.203136669156087e-06,
-      "loss": 0.7019,
-      "step": 64000
-    },
-    {
-      "epoch": 4.82,
-      "learning_rate": 1.8297236743838687e-06,
-      "loss": 0.5755,
-      "step": 64500
-    },
-    {
-      "epoch": 4.85,
-      "learning_rate": 1.4563106796116506e-06,
-      "loss": 0.5506,
-      "step": 65000
-    },
-    {
-      "epoch": 4.89,
-      "learning_rate": 1.0828976848394324e-06,
-      "loss": 0.5695,
-      "step": 65500
-    },
-    {
-      "epoch": 4.93,
-      "learning_rate": 7.094846900672144e-07,
-      "loss": 0.5534,
-      "step": 66000
-    },
-    {
-      "epoch": 4.97,
-      "learning_rate": 3.360716952949963e-07,
-      "loss": 0.5473,
-      "step": 66500
-    },
-    {
-      "epoch": 5.0,
-      "learning_rate": 1.425904192894484e-05,
-      "loss": 0.5644,
-      "step": 67000
-    },
-    {
-      "epoch": 5.04,
-      "learning_rate": 1.39923183612504e-05,
-      "loss": 0.574,
-      "step": 67500
-    },
-    {
-      "epoch": 5.08,
-      "learning_rate": 1.3725594793555959e-05,
-      "loss": 0.5951,
-      "step": 68000
-    },
-    {
-      "epoch": 5.12,
-      "learning_rate": 1.345887122586152e-05,
-      "loss": 0.6167,
-      "step": 68500
-    },
-    {
-      "epoch": 5.15,
-      "learning_rate": 1.3192147658167076e-05,
-      "loss": 0.6116,
-      "step": 69000
-    },
-    {
-      "epoch": 5.19,
-      "learning_rate": 1.2925424090472635e-05,
-      "loss": 0.6739,
-      "step": 69500
-    },
-    {
-      "epoch": 5.23,
-      "learning_rate": 1.2658700522778194e-05,
-      "loss": 0.6638,
-      "step": 70000
-    },
-    {
-      "epoch": 5.27,
-      "learning_rate": 1.2391976955083752e-05,
-      "loss": 0.6339,
-      "step": 70500
-    },
-    {
-      "epoch": 5.3,
-      "learning_rate": 1.212525338738931e-05,
-      "loss": 0.6601,
-      "step": 71000
-    },
-    {
-      "epoch": 5.34,
-      "learning_rate": 1.1858529819694868e-05,
-      "loss": 0.6563,
-      "step": 71500
-    },
-    {
-      "epoch": 5.38,
-      "learning_rate": 1.1591806252000428e-05,
-      "loss": 0.6491,
-      "step": 72000
-    },
-    {
-      "epoch": 5.41,
-      "learning_rate": 1.1325082684305987e-05,
-      "loss": 0.6026,
-      "step": 72500
-    },
-    {
-      "epoch": 5.45,
-      "learning_rate": 1.1058359116611544e-05,
-      "loss": 0.6851,
-      "step": 73000
-    },
-    {
-      "epoch": 5.49,
-      "learning_rate": 1.0791635548917104e-05,
-      "loss": 0.6337,
-      "step": 73500
-    },
-    {
-      "epoch": 5.53,
-      "learning_rate": 1.0524911981222661e-05,
-      "loss": 0.6659,
-      "step": 74000
-    },
-    {
-      "epoch": 5.56,
-      "learning_rate": 1.025818841352822e-05,
-      "loss": 0.6691,
-      "step": 74500
-    },
-    {
-      "epoch": 5.6,
-      "learning_rate": 9.991464845833778e-06,
-      "loss": 0.6611,
-      "step": 75000
-    },
-    {
-      "epoch": 5.64,
-      "learning_rate": 9.724741278139336e-06,
-      "loss": 0.6542,
-      "step": 75500
-    },
-    {
-      "epoch": 5.68,
-      "learning_rate": 9.458017710444895e-06,
-      "loss": 0.6849,
-      "step": 76000
-    },
-    {
-      "epoch": 5.71,
-      "learning_rate": 9.191294142750454e-06,
-      "loss": 0.6552,
-      "step": 76500
-    },
-    {
-      "epoch": 5.75,
-      "learning_rate": 8.924570575056013e-06,
-      "loss": 0.6636,
-      "step": 77000
-    },
-    {
-      "epoch": 5.79,
-      "learning_rate": 8.65784700736157e-06,
-      "loss": 0.6323,
-      "step": 77500
-    },
-    {
-      "epoch": 5.83,
-      "learning_rate": 8.39112343966713e-06,
-      "loss": 0.6581,
-      "step": 78000
-    },
-    {
-      "epoch": 5.86,
-      "learning_rate": 8.124399871972687e-06,
-      "loss": 0.6613,
-      "step": 78500
-    },
-    {
-      "epoch": 5.9,
-      "learning_rate": 7.857676304278247e-06,
-      "loss": 0.6816,
-      "step": 79000
-    },
-    {
-      "epoch": 5.94,
-      "learning_rate": 7.590952736583805e-06,
-      "loss": 0.6908,
-      "step": 79500
-    },
-    {
-      "epoch": 5.97,
-      "learning_rate": 7.324229168889363e-06,
-      "loss": 0.6854,
-      "step": 80000
-    },
-    {
-      "epoch": 6.01,
-      "learning_rate": 7.057505601194922e-06,
-      "loss": 0.5705,
-      "step": 80500
-    },
-    {
-      "epoch": 6.05,
-      "learning_rate": 6.79078203350048e-06,
-      "loss": 0.4532,
-      "step": 81000
-    },
-    {
-      "epoch": 6.09,
-      "learning_rate": 6.5240584658060394e-06,
-      "loss": 0.4785,
-      "step": 81500
-    },
-    {
-      "epoch": 6.12,
-      "learning_rate": 6.257334898111597e-06,
-      "loss": 0.4568,
-      "step": 82000
-    },
-    {
-      "epoch": 6.16,
-      "learning_rate": 5.990611330417156e-06,
-      "loss": 0.4415,
-      "step": 82500
-    },
-    {
-      "epoch": 6.2,
-      "learning_rate": 5.723887762722714e-06,
-      "loss": 0.4598,
-      "step": 83000
-    },
-    {
-      "epoch": 6.24,
-      "learning_rate": 5.457164195028273e-06,
-      "loss": 0.4661,
-      "step": 83500
-    },
-    {
-      "epoch": 6.27,
-      "learning_rate": 5.190440627333831e-06,
-      "loss": 0.437,
-      "step": 84000
-    },
-    {
-      "epoch": 6.31,
-      "learning_rate": 4.92371705963939e-06,
-      "loss": 0.4782,
-      "step": 84500
-    },
-    {
-      "epoch": 6.35,
-      "learning_rate": 4.656993491944948e-06,
-      "loss": 0.465,
-      "step": 85000
-    },
-    {
-      "epoch": 6.39,
-      "learning_rate": 4.390269924250507e-06,
-      "loss": 0.4491,
-      "step": 85500
-    },
-    {
-      "epoch": 6.42,
-      "learning_rate": 4.123546356556066e-06,
-      "loss": 0.4727,
-      "step": 86000
-    },
-    {
-      "epoch": 6.46,
-      "learning_rate": 3.856822788861624e-06,
-      "loss": 0.4576,
-      "step": 86500
-    },
-    {
-      "epoch": 6.5,
-      "learning_rate": 3.590099221167183e-06,
-      "loss": 0.4565,
-      "step": 87000
-    },
-    {
-      "epoch": 6.53,
-      "learning_rate": 3.3233756534727413e-06,
-      "loss": 0.4646,
-      "step": 87500
-    },
-    {
-      "epoch": 6.57,
-      "learning_rate": 3.0566520857782996e-06,
-      "loss": 0.4749,
-      "step": 88000
-    },
-    {
-      "epoch": 6.61,
-      "learning_rate": 2.789928518083858e-06,
-      "loss": 0.3821,
-      "step": 88500
-    },
-    {
-      "epoch": 6.65,
-      "learning_rate": 2.523204950389417e-06,
-      "loss": 0.4083,
-      "step": 89000
-    },
-    {
-      "epoch": 6.68,
-      "learning_rate": 2.2564813826949748e-06,
-      "loss": 0.4041,
-      "step": 89500
-    },
-    {
-      "epoch": 6.72,
-      "learning_rate": 1.9897578150005336e-06,
-      "loss": 0.4081,
-      "step": 90000
-    },
-    {
-      "epoch": 6.76,
-      "learning_rate": 1.723034247306092e-06,
-      "loss": 0.4027,
-      "step": 90500
-    },
-    {
-      "epoch": 6.8,
-      "learning_rate": 1.4563106796116506e-06,
-      "loss": 0.4354,
-      "step": 91000
-    },
-    {
-      "epoch": 6.83,
-      "learning_rate": 1.189587111917209e-06,
-      "loss": 0.4193,
-      "step": 91500
-    },
-    {
-      "epoch": 6.87,
-      "learning_rate": 9.228635442227675e-07,
-      "loss": 0.3877,
-      "step": 92000
-    },
-    {
-      "epoch": 6.91,
-      "learning_rate": 6.56139976528326e-07,
-      "loss": 0.4322,
-      "step": 92500
-    },
-    {
-      "epoch": 6.95,
-      "learning_rate": 3.894164088338846e-07,
-      "loss": 0.4068,
-      "step": 93000
-    },
-    {
-      "epoch": 6.98,
-      "learning_rate": 1.226928411394431e-07,
-      "loss": 0.3968,
-      "step": 93500
-    },
-    {
-      "epoch": 7.0,
-      "step": 93730,
-      "total_flos": 2.490638010831667e+16,
-      "train_loss": 0.024883948061263487,
-      "train_runtime": 1768.5377,
-      "train_samples_per_second": 211.99,
-      "train_steps_per_second": 52.999
     }
   ],
   "logging_steps": 500,
-  "max_steps": 93730,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 7,
   "save_steps": 500,
-  "total_flos": 2.490638010831667e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 37815,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
+      "learning_rate": 4.9338886685177844e-05,
+      "loss": 3.2991,
       "step": 500
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 4.8677773370355686e-05,
+      "loss": 2.7662,
       "step": 1000
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 4.801666005553352e-05,
+      "loss": 2.662,
       "step": 1500
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 4.735554674071136e-05,
+      "loss": 2.5305,
       "step": 2000
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 4.66944334258892e-05,
+      "loss": 2.4368,
       "step": 2500
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 4.603332011106704e-05,
+      "loss": 2.4286,
       "step": 3000
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 4.5372206796244874e-05,
+      "loss": 2.3404,
       "step": 3500
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 4.4711093481422716e-05,
+      "loss": 2.2398,
       "step": 4000
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 4.404998016660056e-05,
+      "loss": 2.2966,
       "step": 4500
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 4.33888668517784e-05,
+      "loss": 2.2255,
       "step": 5000
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 4.272775353695624e-05,
+      "loss": 2.2713,
       "step": 5500
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 4.2066640222134076e-05,
+      "loss": 2.2018,
       "step": 6000
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 4.140552690731192e-05,
+      "loss": 2.1203,
       "step": 6500
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 4.074441359248975e-05,
+      "loss": 2.1148,
       "step": 7000
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 4.0083300277667595e-05,
+      "loss": 2.1149,
       "step": 7500
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 3.942218696284543e-05,
+      "loss": 2.0219,
       "step": 8000
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 3.876107364802327e-05,
+      "loss": 2.0354,
       "step": 8500
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 3.809996033320111e-05,
+      "loss": 2.0341,
       "step": 9000
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 3.7438847018378955e-05,
+      "loss": 1.9972,
       "step": 9500
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 3.6777733703556796e-05,
+      "loss": 1.9654,
       "step": 10000
     },
     {
+      "epoch": 0.83,
+      "learning_rate": 3.611662038873463e-05,
+      "loss": 1.9853,
       "step": 10500
     },
     {
+      "epoch": 0.87,
+      "learning_rate": 3.5455507073912466e-05,
+      "loss": 1.9487,
       "step": 11000
     },
     {
+      "epoch": 0.91,
+      "learning_rate": 3.479439375909031e-05,
+      "loss": 1.9498,
       "step": 11500
     },
     {
+      "epoch": 0.95,
+      "learning_rate": 3.413328044426815e-05,
+      "loss": 1.8963,
       "step": 12000
     },
     {
+      "epoch": 0.99,
+      "learning_rate": 3.3472167129445985e-05,
+      "loss": 1.9259,
       "step": 12500
     },
     {
+      "epoch": 1.03,
+      "learning_rate": 3.2811053814623827e-05,
+      "loss": 1.5878,
       "step": 13000
     },
     {
+      "epoch": 1.07,
+      "learning_rate": 3.214994049980167e-05,
+      "loss": 1.4017,
       "step": 13500
     },
     {
+      "epoch": 1.11,
+      "learning_rate": 3.148882718497951e-05,
+      "loss": 1.4809,
       "step": 14000
     },
     {
+      "epoch": 1.15,
+      "learning_rate": 3.082771387015735e-05,
+      "loss": 1.4646,
       "step": 14500
     },
     {
+      "epoch": 1.19,
+      "learning_rate": 3.0166600555335183e-05,
+      "loss": 1.5017,
       "step": 15000
     },
     {
+      "epoch": 1.23,
+      "learning_rate": 2.9505487240513025e-05,
+      "loss": 1.4745,
       "step": 15500
     },
     {
+      "epoch": 1.27,
+      "learning_rate": 2.8844373925690867e-05,
+      "loss": 1.4496,
       "step": 16000
     },
     {
+      "epoch": 1.31,
+      "learning_rate": 2.8183260610868705e-05,
+      "loss": 1.4599,
       "step": 16500
     },
     {
+      "epoch": 1.35,
+      "learning_rate": 2.752214729604654e-05,
+      "loss": 1.3974,
       "step": 17000
     },
     {
+      "epoch": 1.39,
+      "learning_rate": 2.6861033981224382e-05,
+      "loss": 1.397,
       "step": 17500
     },
     {
+      "epoch": 1.43,
+      "learning_rate": 2.6199920666402224e-05,
+      "loss": 1.436,
       "step": 18000
     },
     {
+      "epoch": 1.47,
+      "learning_rate": 2.5538807351580062e-05,
+      "loss": 1.4359,
       "step": 18500
     },
     {
+      "epoch": 1.51,
+      "learning_rate": 2.48776940367579e-05,
+      "loss": 1.4215,
       "step": 19000
     },
     {
+      "epoch": 1.55,
+      "learning_rate": 2.4216580721935742e-05,
+      "loss": 1.3611,
       "step": 19500
     },
     {
+      "epoch": 1.59,
+      "learning_rate": 2.355546740711358e-05,
+      "loss": 1.4515,
       "step": 20000
     },
     {
+      "epoch": 1.63,
+      "learning_rate": 2.289435409229142e-05,
+      "loss": 1.3923,
       "step": 20500
     },
     {
+      "epoch": 1.67,
+      "learning_rate": 2.2233240777469257e-05,
+      "loss": 1.3968,
       "step": 21000
     },
     {
+      "epoch": 1.71,
+      "learning_rate": 2.15721274626471e-05,
+      "loss": 1.4511,
       "step": 21500
     },
     {
+      "epoch": 1.75,
+      "learning_rate": 2.091101414782494e-05,
+      "loss": 1.3736,
       "step": 22000
     },
     {
+      "epoch": 1.79,
+      "learning_rate": 2.024990083300278e-05,
+      "loss": 1.4196,
       "step": 22500
     },
     {
+      "epoch": 1.82,
+      "learning_rate": 1.9588787518180617e-05,
+      "loss": 1.4012,
       "step": 23000
     },
     {
+      "epoch": 1.86,
+      "learning_rate": 1.8927674203358456e-05,
+      "loss": 1.3995,
       "step": 23500
     },
     {
+      "epoch": 1.9,
+      "learning_rate": 1.8266560888536297e-05,
+      "loss": 1.3706,
       "step": 24000
     },
     {
+      "epoch": 1.94,
+      "learning_rate": 1.7605447573714136e-05,
+      "loss": 1.357,
       "step": 24500
     },
     {
+      "epoch": 1.98,
+      "learning_rate": 1.6944334258891974e-05,
+      "loss": 1.3894,
       "step": 25000
     },
     {
+      "epoch": 2.02,
+      "learning_rate": 1.6283220944069812e-05,
+      "loss": 1.1266,
       "step": 25500
     },
     {
+      "epoch": 2.06,
+      "learning_rate": 1.5622107629247654e-05,
+      "loss": 0.9034,
       "step": 26000
     },
     {
+      "epoch": 2.1,
+      "learning_rate": 1.4960994314425494e-05,
+      "loss": 0.88,
       "step": 26500
     },
     {
+      "epoch": 2.14,
+      "learning_rate": 1.4299880999603333e-05,
+      "loss": 0.9379,
       "step": 27000
     },
     {
+      "epoch": 2.18,
+      "learning_rate": 1.3638767684781173e-05,
+      "loss": 0.9224,
       "step": 27500
     },
     {
+      "epoch": 2.22,
+      "learning_rate": 1.2977654369959011e-05,
+      "loss": 0.9108,
       "step": 28000
     },
     {
+      "epoch": 2.26,
+      "learning_rate": 1.2316541055136851e-05,
+      "loss": 0.9068,
       "step": 28500
     },
     {
+      "epoch": 2.3,
+      "learning_rate": 1.1655427740314691e-05,
+      "loss": 0.9158,
       "step": 29000
     },
     {
+      "epoch": 2.34,
+      "learning_rate": 1.099431442549253e-05,
+      "loss": 0.901,
       "step": 29500
     },
     {
+      "epoch": 2.38,
+      "learning_rate": 1.033320111067037e-05,
+      "loss": 0.8898,
       "step": 30000
     },
     {
+      "epoch": 2.42,
+      "learning_rate": 9.67208779584821e-06,
+      "loss": 0.9295,
       "step": 30500
     },
     {
+      "epoch": 2.46,
+      "learning_rate": 9.010974481026048e-06,
+      "loss": 0.9325,
       "step": 31000
     },
     {
+      "epoch": 2.5,
+      "learning_rate": 8.349861166203888e-06,
+      "loss": 0.9357,
       "step": 31500
     },
     {
+      "epoch": 2.54,
+      "learning_rate": 7.688747851381726e-06,
+      "loss": 0.8832,
       "step": 32000
     },
     {
+      "epoch": 2.58,
+      "learning_rate": 7.027634536559567e-06,
+      "loss": 0.9101,
       "step": 32500
     },
     {
+      "epoch": 2.62,
+      "learning_rate": 6.366521221737406e-06,
+      "loss": 0.9018,
       "step": 33000
     },
     {
+      "epoch": 2.66,
+      "learning_rate": 5.7054079069152455e-06,
+      "loss": 0.8886,
       "step": 33500
     },
     {
+      "epoch": 2.7,
+      "learning_rate": 5.044294592093085e-06,
+      "loss": 0.8771,
       "step": 34000
     },
     {
+      "epoch": 2.74,
+      "learning_rate": 4.383181277270925e-06,
+      "loss": 0.8956,
       "step": 34500
     },
     {
+      "epoch": 2.78,
+      "learning_rate": 3.7220679624487635e-06,
+      "loss": 0.8586,
       "step": 35000
     },
     {
+      "epoch": 2.82,
+      "learning_rate": 3.060954647626603e-06,
+      "loss": 0.9039,
       "step": 35500
     },
     {
+      "epoch": 2.86,
+      "learning_rate": 2.3998413328044427e-06,
+      "loss": 0.8817,
       "step": 36000
     },
     {
+      "epoch": 2.9,
+      "learning_rate": 1.7387280179822822e-06,
+      "loss": 0.8601,
       "step": 36500
     },
     {
+      "epoch": 2.94,
+      "learning_rate": 1.0776147031601218e-06,
+      "loss": 0.8837,
       "step": 37000
     },
     {
+      "epoch": 2.98,
+      "learning_rate": 4.165013883379611e-07,
+      "loss": 0.8894,
       "step": 37500
     },
     {
+      "epoch": 3.0,
+      "step": 37815,
+      "total_flos": 9288563680542720.0,
+      "train_loss": 1.5174339204652274,
+      "train_runtime": 9956.4506,
+      "train_samples_per_second": 15.192,
+      "train_steps_per_second": 3.798
     }
   ],
   "logging_steps": 500,
+  "max_steps": 37815,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 9288563680542720.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81764c2f689a4b3fc5fb3c2433c16a2b363d6e376aada1aded503088659c121f
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:a56bee8fa4e14938cb95192439c644b615e9dd68f07ea8d99031a4d251338efc
 size 5048