Training in progress, step 190000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d649779ba95c621015cb53780f5701aa302c759b040cf454f46acc31f4706b5
 size 50044689

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba65516926b4ff6cdfb50443e11a434cb503c7c65e74dc6127694de917095dae
 size 50044689

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c619af36af772fff3b27134f866199a2501f2804d36e9fef52fa198a4bf9feb5
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:40af1c76beae3fcf68a183dcf22a7c21a89e9eb4f6548fe295f14d1acc603f3a
 size 25761253

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f8edee7121f04285c72b6c9f7844a954a235fd8dbdb096b1e8ce5764e29663e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:31b742d11ad36723027991d2089e333cb5ecac7a190f975b5e786c90c8a60b34
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f8edee7121f04285c72b6c9f7844a954a235fd8dbdb096b1e8ce5764e29663e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:31b742d11ad36723027991d2089e333cb5ecac7a190f975b5e786c90c8a60b34
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f8edee7121f04285c72b6c9f7844a954a235fd8dbdb096b1e8ce5764e29663e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:31b742d11ad36723027991d2089e333cb5ecac7a190f975b5e786c90c8a60b34
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f8edee7121f04285c72b6c9f7844a954a235fd8dbdb096b1e8ce5764e29663e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:31b742d11ad36723027991d2089e333cb5ecac7a190f975b5e786c90c8a60b34
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f8edee7121f04285c72b6c9f7844a954a235fd8dbdb096b1e8ce5764e29663e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:31b742d11ad36723027991d2089e333cb5ecac7a190f975b5e786c90c8a60b34
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f8edee7121f04285c72b6c9f7844a954a235fd8dbdb096b1e8ce5764e29663e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:31b742d11ad36723027991d2089e333cb5ecac7a190f975b5e786c90c8a60b34
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f8edee7121f04285c72b6c9f7844a954a235fd8dbdb096b1e8ce5764e29663e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:31b742d11ad36723027991d2089e333cb5ecac7a190f975b5e786c90c8a60b34
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f8edee7121f04285c72b6c9f7844a954a235fd8dbdb096b1e8ce5764e29663e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:31b742d11ad36723027991d2089e333cb5ecac7a190f975b5e786c90c8a60b34
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae7e48b658f6388c6c044e6d37239970a21307494d626979f7e10630dfa93207
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:196e9b55e2db27c384076a5416088da2b3e045d13b4c3f579694349cd8bb530e
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 11.029411764705882,
-  "global_step": 180000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3606,11 +3606,211 @@
       "eval_samples_per_second": 745.664,
       "eval_steps_per_second": 11.931,
       "step": 180000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 16,
-  "total_flos": 2.8829139360447075e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 11.642156862745098,
+  "global_step": 190000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 745.664,
       "eval_steps_per_second": 11.931,
       "step": 180000
+    },
+    {
+      "epoch": 11.06,
+      "learning_rate": 0.00012612565995880976,
+      "loss": 0.4467,
+      "step": 180500
+    },
+    {
+      "epoch": 11.09,
+      "learning_rate": 0.00012457808290921774,
+      "loss": 0.4467,
+      "step": 181000
+    },
+    {
+      "epoch": 11.09,
+      "eval_loss": 0.8010080456733704,
+      "eval_runtime": 1.2919,
+      "eval_samples_per_second": 774.08,
+      "eval_steps_per_second": 12.385,
+      "step": 181000
+    },
+    {
+      "epoch": 11.12,
+      "learning_rate": 0.00012303839809876525,
+      "loss": 0.4466,
+      "step": 181500
+    },
+    {
+      "epoch": 11.15,
+      "learning_rate": 0.00012150667287825382,
+      "loss": 0.4463,
+      "step": 182000
+    },
+    {
+      "epoch": 11.15,
+      "eval_loss": 0.8034773468971252,
+      "eval_runtime": 1.2819,
+      "eval_samples_per_second": 780.103,
+      "eval_steps_per_second": 12.482,
+      "step": 182000
+    },
+    {
+      "epoch": 11.18,
+      "learning_rate": 0.00011998297425030656,
+      "loss": 0.4464,
+      "step": 182500
+    },
+    {
+      "epoch": 11.21,
+      "learning_rate": 0.00011846736886643775,
+      "loss": 0.4463,
+      "step": 183000
+    },
+    {
+      "epoch": 11.21,
+      "eval_loss": 0.8048831820487976,
+      "eval_runtime": 1.3614,
+      "eval_samples_per_second": 734.528,
+      "eval_steps_per_second": 11.752,
+      "step": 183000
+    },
+    {
+      "epoch": 11.24,
+      "learning_rate": 0.00011695992302413651,
+      "loss": 0.4462,
+      "step": 183500
+    },
+    {
+      "epoch": 11.27,
+      "learning_rate": 0.00011546070266396771,
+      "loss": 0.4462,
+      "step": 184000
+    },
+    {
+      "epoch": 11.27,
+      "eval_loss": 0.7998443841934204,
+      "eval_runtime": 1.3341,
+      "eval_samples_per_second": 749.594,
+      "eval_steps_per_second": 11.994,
+      "step": 184000
+    },
+    {
+      "epoch": 11.31,
+      "learning_rate": 0.00011396977336668645,
+      "loss": 0.4459,
+      "step": 184500
+    },
+    {
+      "epoch": 11.34,
+      "learning_rate": 0.00011248720035037021,
+      "loss": 0.4459,
+      "step": 185000
+    },
+    {
+      "epoch": 11.34,
+      "eval_loss": 0.7987710237503052,
+      "eval_runtime": 1.3437,
+      "eval_samples_per_second": 744.203,
+      "eval_steps_per_second": 11.907,
+      "step": 185000
+    },
+    {
+      "epoch": 11.37,
+      "learning_rate": 0.00011101304846756577,
+      "loss": 0.4458,
+      "step": 185500
+    },
+    {
+      "epoch": 11.4,
+      "learning_rate": 0.00010954738220245183,
+      "loss": 0.4457,
+      "step": 186000
+    },
+    {
+      "epoch": 11.4,
+      "eval_loss": 0.8063639402389526,
+      "eval_runtime": 1.2501,
+      "eval_samples_per_second": 799.917,
+      "eval_steps_per_second": 12.799,
+      "step": 186000
+    },
+    {
+      "epoch": 11.43,
+      "learning_rate": 0.00010809026566801912,
+      "loss": 0.4457,
+      "step": 186500
+    },
+    {
+      "epoch": 11.46,
+      "learning_rate": 0.00010664176260326507,
+      "loss": 0.4456,
+      "step": 187000
+    },
+    {
+      "epoch": 11.46,
+      "eval_loss": 0.8042049407958984,
+      "eval_runtime": 1.3155,
+      "eval_samples_per_second": 760.186,
+      "eval_steps_per_second": 12.163,
+      "step": 187000
+    },
+    {
+      "epoch": 11.49,
+      "learning_rate": 0.00010520193637040641,
+      "loss": 0.4454,
+      "step": 187500
+    },
+    {
+      "epoch": 11.52,
+      "learning_rate": 0.00010377084995210682,
+      "loss": 0.4454,
+      "step": 188000
+    },
+    {
+      "epoch": 11.52,
+      "eval_loss": 0.7998358607292175,
+      "eval_runtime": 1.3257,
+      "eval_samples_per_second": 754.322,
+      "eval_steps_per_second": 12.069,
+      "step": 188000
+    },
+    {
+      "epoch": 11.55,
+      "learning_rate": 0.00010234856594872234,
+      "loss": 0.4452,
+      "step": 188500
+    },
+    {
+      "epoch": 11.58,
+      "learning_rate": 0.00010093514657556295,
+      "loss": 0.4453,
+      "step": 189000
+    },
+    {
+      "epoch": 11.58,
+      "eval_loss": 0.8026143908500671,
+      "eval_runtime": 1.2929,
+      "eval_samples_per_second": 773.468,
+      "eval_steps_per_second": 12.375,
+      "step": 189000
+    },
+    {
+      "epoch": 11.61,
+      "learning_rate": 9.953065366017073e-05,
+      "loss": 0.4451,
+      "step": 189500
+    },
+    {
+      "epoch": 11.64,
+      "learning_rate": 9.813514863961586e-05,
+      "loss": 0.4449,
+      "step": 190000
+    },
+    {
+      "epoch": 11.64,
+      "eval_loss": 0.7992528080940247,
+      "eval_runtime": 1.2891,
+      "eval_samples_per_second": 775.752,
+      "eval_steps_per_second": 12.412,
+      "step": 190000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 16,
+  "total_flos": 3.0430819389105116e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c619af36af772fff3b27134f866199a2501f2804d36e9fef52fa198a4bf9feb5
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:40af1c76beae3fcf68a183dcf22a7c21a89e9eb4f6548fe295f14d1acc603f3a
 size 25761253