Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17aa62a864d9c2a4a22247c17777c5b463ed41175a1a1731bb90cac9b273c2eb
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b0e6b0986306528a714890b8654e9051e795b9f67acc607435480b185a7170e
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:792e880e17424629214667b19e863c0de49cb4c009a3f8d5a347307ec1993d2d
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:8817c89e6dc92959d19253578b2dac871909a78b2e586af1193abf6ba2078d07
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7dccf15704fbdf23856e1119baffae48b962f09fb2232cc45a115390986e7d5d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:828a7e6e11ce6fb1a2356180954a5b20df0e28e99bfb6b79a96217eb20a3be28
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0008361064196250899,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 1.6644,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.85471820890112e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0016722128392501797,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 1.6644,
       "step": 25
+    },
+    {
+      "epoch": 0.0008695506764100935,
+      "grad_norm": 3.1015143394470215,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 1.4194,
+      "step": 26
+    },
+    {
+      "epoch": 0.0009029949331950971,
+      "grad_norm": 2.8244731426239014,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 1.3943,
+      "step": 27
+    },
+    {
+      "epoch": 0.0009029949331950971,
+      "eval_loss": 1.4489030838012695,
+      "eval_runtime": 2740.1542,
+      "eval_samples_per_second": 9.189,
+      "eval_steps_per_second": 1.149,
+      "step": 27
+    },
+    {
+      "epoch": 0.0009364391899801006,
+      "grad_norm": 2.156521797180176,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 1.21,
+      "step": 28
+    },
+    {
+      "epoch": 0.0009698834467651042,
+      "grad_norm": 2.6699202060699463,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 1.4729,
+      "step": 29
+    },
+    {
+      "epoch": 0.0010033277035501078,
+      "grad_norm": 2.460568904876709,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 1.5675,
+      "step": 30
+    },
+    {
+      "epoch": 0.0010367719603351115,
+      "grad_norm": 2.557603120803833,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 1.5623,
+      "step": 31
+    },
+    {
+      "epoch": 0.001070216217120115,
+      "grad_norm": 2.9280195236206055,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 1.4773,
+      "step": 32
+    },
+    {
+      "epoch": 0.0011036604739051187,
+      "grad_norm": 2.2872281074523926,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 1.2972,
+      "step": 33
+    },
+    {
+      "epoch": 0.0011371047306901222,
+      "grad_norm": 1.872541904449463,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 1.3728,
+      "step": 34
+    },
+    {
+      "epoch": 0.0011705489874751257,
+      "grad_norm": 1.8109902143478394,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 1.2932,
+      "step": 35
+    },
+    {
+      "epoch": 0.0012039932442601295,
+      "grad_norm": 2.0873613357543945,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 1.3242,
+      "step": 36
+    },
+    {
+      "epoch": 0.0012039932442601295,
+      "eval_loss": 1.4143481254577637,
+      "eval_runtime": 2741.3995,
+      "eval_samples_per_second": 9.185,
+      "eval_steps_per_second": 1.148,
+      "step": 36
+    },
+    {
+      "epoch": 0.001237437501045133,
+      "grad_norm": 2.4181251525878906,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 1.4656,
+      "step": 37
+    },
+    {
+      "epoch": 0.0012708817578301367,
+      "grad_norm": 2.4675228595733643,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 1.4617,
+      "step": 38
+    },
+    {
+      "epoch": 0.0013043260146151402,
+      "grad_norm": 2.8824567794799805,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 1.5205,
+      "step": 39
+    },
+    {
+      "epoch": 0.0013377702714001437,
+      "grad_norm": 2.1439270973205566,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1.3624,
+      "step": 40
+    },
+    {
+      "epoch": 0.0013712145281851475,
+      "grad_norm": 2.3218116760253906,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 1.4908,
+      "step": 41
+    },
+    {
+      "epoch": 0.001404658784970151,
+      "grad_norm": 2.236236572265625,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 1.2628,
+      "step": 42
+    },
+    {
+      "epoch": 0.0014381030417551545,
+      "grad_norm": 1.9307564496994019,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 1.3752,
+      "step": 43
+    },
+    {
+      "epoch": 0.0014715472985401582,
+      "grad_norm": 1.8109971284866333,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 1.3783,
+      "step": 44
+    },
+    {
+      "epoch": 0.0015049915553251617,
+      "grad_norm": 1.8418580293655396,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 1.3572,
+      "step": 45
+    },
+    {
+      "epoch": 0.0015049915553251617,
+      "eval_loss": 1.3692147731781006,
+      "eval_runtime": 2741.1491,
+      "eval_samples_per_second": 9.186,
+      "eval_steps_per_second": 1.148,
+      "step": 45
+    },
+    {
+      "epoch": 0.0015384358121101655,
+      "grad_norm": 1.9104599952697754,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 1.2735,
+      "step": 46
+    },
+    {
+      "epoch": 0.001571880068895169,
+      "grad_norm": 2.1751577854156494,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 1.3924,
+      "step": 47
+    },
+    {
+      "epoch": 0.0016053243256801725,
+      "grad_norm": 1.5567160844802856,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 1.3338,
+      "step": 48
+    },
+    {
+      "epoch": 0.0016387685824651762,
+      "grad_norm": 1.7269301414489746,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 1.3239,
+      "step": 49
+    },
+    {
+      "epoch": 0.0016722128392501797,
+      "grad_norm": 1.800885558128357,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 1.3558,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.70943641780224e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null