Upload 11 files

Browse files

Files changed (5) hide show

optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +95 -5

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38a118be7202aa4db1e3d37d22adcfc6b4e3be00af436b916228fadd4dc2e40c
 size 535701061

 version https://git-lfs.github.com/spec/v1
+oid sha256:673f7e8faafc2900bf4a85994f72ca80ca0eaa25661c2e02ac87c4226ca7f61d
 size 535701061

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cfcd56f2d823a9cdc2cfccb44e5e823d3200112622082e5cd94e93d019b9fc67
 size 267855533

 version https://git-lfs.github.com/spec/v1
+oid sha256:2eb2a0536db14e2f001277ffeccc94f436bef6829ae9d697edcc0671e4ab02aa
 size 267855533

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01da4f1236b1946afbe43e51bdf7717aeb209652b7d7314cda674a4ca1e36a16
 size 14511

 version https://git-lfs.github.com/spec/v1
+oid sha256:a09cc498d55dc004d4b5c9aad1ced395abd939cae4e8d2b9da0e0073f465759a
 size 14511

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1cc86f59df564bec394c86356ab586d662aa80b1cf79a7016636c67697d6ef91
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:d40fb1a7f26e8683137c4b8cddc0f30db08f76a6b3d086416086ebaaa51cc5d5
 size 627

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 0.022033799439668655,
-  "best_model_checkpoint": "./results/checkpoint-6000",
-  "epoch": 0.687915615684476,
-  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -186,11 +186,101 @@
       "eval_samples_per_second": 118.75,
       "eval_steps_per_second": 7.424,
       "step": 6000
     }
   ],
   "max_steps": 26166,
   "num_train_epochs": 3,
-  "total_flos": 1.2716870270976e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.01757008023560047,
+  "best_model_checkpoint": "./results/checkpoint-8500",
+  "epoch": 1.031873423526714,
+  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 118.75,
       "eval_steps_per_second": 7.424,
       "step": 6000
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1.5031720553389898e-05,
+      "loss": 0.0244,
+      "step": 6500
+    },
+    {
+      "epoch": 0.75,
+      "eval_accuracy": 0.9947543427162758,
+      "eval_loss": 0.02473697066307068,
+      "eval_runtime": 331.6878,
+      "eval_samples_per_second": 105.177,
+      "eval_steps_per_second": 6.575,
+      "step": 6500
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.4649545211342966e-05,
+      "loss": 0.0243,
+      "step": 7000
+    },
+    {
+      "epoch": 0.8,
+      "eval_accuracy": 0.9946970131284756,
+      "eval_loss": 0.02222474291920662,
+      "eval_runtime": 343.6254,
+      "eval_samples_per_second": 101.523,
+      "eval_steps_per_second": 6.347,
+      "step": 7000
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1.4267369869296034e-05,
+      "loss": 0.0204,
+      "step": 7500
+    },
+    {
+      "epoch": 0.86,
+      "eval_accuracy": 0.9944390299833744,
+      "eval_loss": 0.020777888596057892,
+      "eval_runtime": 342.3258,
+      "eval_samples_per_second": 101.909,
+      "eval_steps_per_second": 6.371,
+      "step": 7500
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1.3885194527249105e-05,
+      "loss": 0.0219,
+      "step": 8000
+    },
+    {
+      "epoch": 0.92,
+      "eval_accuracy": 0.9955569569454795,
+      "eval_loss": 0.023240169510245323,
+      "eval_runtime": 340.3493,
+      "eval_samples_per_second": 102.501,
+      "eval_steps_per_second": 6.408,
+      "step": 8000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.3503019185202171e-05,
+      "loss": 0.0298,
+      "step": 8500
+    },
+    {
+      "epoch": 0.97,
+      "eval_accuracy": 0.9955282921515795,
+      "eval_loss": 0.01757008023560047,
+      "eval_runtime": 307.8345,
+      "eval_samples_per_second": 113.327,
+      "eval_steps_per_second": 7.085,
+      "step": 8500
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 1.312084384315524e-05,
+      "loss": 0.0098,
+      "step": 9000
+    },
+    {
+      "epoch": 1.03,
+      "eval_accuracy": 0.9951843146247779,
+      "eval_loss": 0.026897920295596123,
+      "eval_runtime": 318.0815,
+      "eval_samples_per_second": 109.676,
+      "eval_steps_per_second": 6.857,
+      "step": 9000
     }
   ],
   "max_steps": 26166,
   "num_train_epochs": 3,
+  "total_flos": 1.907424566727475e+16,
   "trial_name": null,
   "trial_params": null
 }