using new run, 70k checkpoint (should be the same but this guarantees)

Files changed (3) hide show

rng_state.pth +1 -1
trainer_state.json +77 -21
training_args.bin +1 -1

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22c126a33cdf631e32f75c5cd6cce3986014431bc42bcead797ac3878b196a58
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:79dddf5af28e0163f55619fe2d2e41d04d1bcfd16c1a57046c4421d73397e19a
 size 14503

trainer_state.json CHANGED Viewed

@@ -157,6 +157,14 @@
       "loss": 0.8922,
       "step": 5000
     },
     {
       "epoch": 0.67,
       "learning_rate": 0.001,
@@ -310,9 +318,9 @@
     {
       "epoch": 1.28,
       "eval_loss": 1.0378576517105103,
-      "eval_runtime": 226.1856,
-      "eval_samples_per_second": 540.6,
-      "eval_steps_per_second": 2.113,
       "step": 10000
     },
     {
@@ -465,6 +473,14 @@
       "loss": 0.7486,
       "step": 15000
     },
     {
       "epoch": 1.95,
       "learning_rate": 0.001,
@@ -618,9 +634,9 @@
     {
       "epoch": 2.56,
       "eval_loss": 1.0125058889389038,
-      "eval_runtime": 225.9641,
-      "eval_samples_per_second": 541.13,
-      "eval_steps_per_second": 2.115,
       "step": 20000
     },
     {
@@ -773,6 +789,14 @@
       "loss": 0.6766,
       "step": 25000
     },
     {
       "epoch": 3.23,
       "learning_rate": 0.001,
@@ -926,9 +950,9 @@
     {
       "epoch": 3.84,
       "eval_loss": 0.9890710711479187,
-      "eval_runtime": 226.0587,
-      "eval_samples_per_second": 540.904,
-      "eval_steps_per_second": 2.114,
       "step": 30000
     },
     {
@@ -1081,6 +1105,14 @@
       "loss": 0.6458,
       "step": 35000
     },
     {
       "epoch": 4.51,
       "learning_rate": 0.001,
@@ -1234,9 +1266,9 @@
     {
       "epoch": 5.12,
       "eval_loss": 0.9902318716049194,
-      "eval_runtime": 225.8841,
-      "eval_samples_per_second": 541.322,
-      "eval_steps_per_second": 2.116,
       "step": 40000
     },
     {
@@ -1389,6 +1421,14 @@
       "loss": 0.6393,
       "step": 45000
     },
     {
       "epoch": 5.79,
       "learning_rate": 0.001,
@@ -1542,9 +1582,9 @@
     {
       "epoch": 6.41,
       "eval_loss": 0.9930422902107239,
-      "eval_runtime": 225.7854,
-      "eval_samples_per_second": 541.558,
-      "eval_steps_per_second": 2.117,
       "step": 50000
     },
     {
@@ -1697,6 +1737,14 @@
       "loss": 0.5916,
       "step": 55000
     },
     {
       "epoch": 7.07,
       "learning_rate": 0.001,
@@ -1850,9 +1898,9 @@
     {
       "epoch": 7.69,
       "eval_loss": 0.9817278981208801,
-      "eval_runtime": 225.5322,
-      "eval_samples_per_second": 542.166,
-      "eval_steps_per_second": 2.119,
       "step": 60000
     },
     {
@@ -2005,6 +2053,14 @@
       "loss": 0.5928,
       "step": 65000
     },
     {
       "epoch": 8.35,
       "learning_rate": 0.001,
@@ -2158,9 +2214,9 @@
     {
       "epoch": 8.97,
       "eval_loss": 0.9769449234008789,
-      "eval_runtime": 225.6256,
-      "eval_samples_per_second": 541.942,
-      "eval_steps_per_second": 2.119,
       "step": 70000
     }
   ],

       "loss": 0.8922,
       "step": 5000
     },
+    {
+      "epoch": 0.64,
+      "eval_loss": 1.1090599298477173,
+      "eval_runtime": 226.6186,
+      "eval_samples_per_second": 539.567,
+      "eval_steps_per_second": 2.109,
+      "step": 5000
+    },
     {
       "epoch": 0.67,
       "learning_rate": 0.001,
     {
       "epoch": 1.28,
       "eval_loss": 1.0378576517105103,
+      "eval_runtime": 226.2892,
+      "eval_samples_per_second": 540.353,
+      "eval_steps_per_second": 2.112,
       "step": 10000
     },
     {
       "loss": 0.7486,
       "step": 15000
     },
+    {
+      "epoch": 1.92,
+      "eval_loss": 1.012812852859497,
+      "eval_runtime": 226.2966,
+      "eval_samples_per_second": 540.335,
+      "eval_steps_per_second": 2.112,
+      "step": 15000
+    },
     {
       "epoch": 1.95,
       "learning_rate": 0.001,
     {
       "epoch": 2.56,
       "eval_loss": 1.0125058889389038,
+      "eval_runtime": 226.3642,
+      "eval_samples_per_second": 540.174,
+      "eval_steps_per_second": 2.112,
       "step": 20000
     },
     {
       "loss": 0.6766,
       "step": 25000
     },
+    {
+      "epoch": 3.2,
+      "eval_loss": 1.0152596235275269,
+      "eval_runtime": 226.4668,
+      "eval_samples_per_second": 539.929,
+      "eval_steps_per_second": 2.111,
+      "step": 25000
+    },
     {
       "epoch": 3.23,
       "learning_rate": 0.001,
     {
       "epoch": 3.84,
       "eval_loss": 0.9890710711479187,
+      "eval_runtime": 226.6603,
+      "eval_samples_per_second": 539.468,
+      "eval_steps_per_second": 2.109,
       "step": 30000
     },
     {
       "loss": 0.6458,
       "step": 35000
     },
+    {
+      "epoch": 4.48,
+      "eval_loss": 0.9963102340698242,
+      "eval_runtime": 226.814,
+      "eval_samples_per_second": 539.103,
+      "eval_steps_per_second": 2.107,
+      "step": 35000
+    },
     {
       "epoch": 4.51,
       "learning_rate": 0.001,
     {
       "epoch": 5.12,
       "eval_loss": 0.9902318716049194,
+      "eval_runtime": 227.3177,
+      "eval_samples_per_second": 537.908,
+      "eval_steps_per_second": 2.103,
       "step": 40000
     },
     {
       "loss": 0.6393,
       "step": 45000
     },
+    {
+      "epoch": 5.77,
+      "eval_loss": 0.9893815517425537,
+      "eval_runtime": 226.9791,
+      "eval_samples_per_second": 538.71,
+      "eval_steps_per_second": 2.106,
+      "step": 45000
+    },
     {
       "epoch": 5.79,
       "learning_rate": 0.001,
     {
       "epoch": 6.41,
       "eval_loss": 0.9930422902107239,
+      "eval_runtime": 227.4872,
+      "eval_samples_per_second": 537.507,
+      "eval_steps_per_second": 2.101,
       "step": 50000
     },
     {
       "loss": 0.5916,
       "step": 55000
     },
+    {
+      "epoch": 7.05,
+      "eval_loss": 0.9893601536750793,
+      "eval_runtime": 227.4715,
+      "eval_samples_per_second": 537.544,
+      "eval_steps_per_second": 2.101,
+      "step": 55000
+    },
     {
       "epoch": 7.07,
       "learning_rate": 0.001,
     {
       "epoch": 7.69,
       "eval_loss": 0.9817278981208801,
+      "eval_runtime": 227.2904,
+      "eval_samples_per_second": 537.973,
+      "eval_steps_per_second": 2.103,
       "step": 60000
     },
     {
       "loss": 0.5928,
       "step": 65000
     },
+    {
+      "epoch": 8.33,
+      "eval_loss": 0.9951310753822327,
+      "eval_runtime": 227.2886,
+      "eval_samples_per_second": 537.977,
+      "eval_steps_per_second": 2.103,
+      "step": 65000
+    },
     {
       "epoch": 8.35,
       "learning_rate": 0.001,
     {
       "epoch": 8.97,
       "eval_loss": 0.9769449234008789,
+      "eval_runtime": 227.0836,
+      "eval_samples_per_second": 538.462,
+      "eval_steps_per_second": 2.105,
       "step": 70000
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38d78d1dc17a6778da9b9733ab5dd4ce95b95afee8d6edb3baa54c8032ac2321
 size 3439

 version https://git-lfs.github.com/spec/v1
+oid sha256:8793babdef84b903bcae96d2c78a8a9210b784403207209e9b7da34e411e81f7
 size 3439