Training in progress, step 39, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +102 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb00785190e5bf2b95bcb88096cb66292e70648bcaf8f9db5f21e00ec3b530c5
 size 78480072

 version https://git-lfs.github.com/spec/v1
+oid sha256:41a7a6acc2e229d6ac777f7db99e140da4a6b4b0fb8dc42de984f2ba5668aba0
 size 78480072

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51551cfd0ec9f348eb489b378734bbbc791ad179a4673d5c08afba6f529ed8d6
 size 40131268

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdb0e1c14b1fedfdcb541e274a0187a6a76f40f54ef4d70553f11af8d58bed1f
 size 40131268

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ccd287e2839607f79a45af68cadc922a00e5a0f892aad6f612de007a0072eb0
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c5e8c5e597281b87cdb4d76ec6e31877af66233abff999994a7c03255786430
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5b693c9aea480e78c188894b2b9bda0b6ba8a8c40a639c7db7f6cc25370c348
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:33daadc0c8784b734b94f204caebbcb9d5ab500af28517017de7ebeedc1baac9
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e65bdb10468d12c8b6afa89fe8730e38a94a4f704431de04b0c1bf27440afce
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:75c3c8ae7ddabeca3cb69703f6b35f00b9125a4c27b56ccba4ed0e4669bb5433
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.04696054636789524,
   "eval_steps": 13,
-  "global_step": 26,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -213,6 +213,105 @@
       "eval_samples_per_second": 24.01,
       "eval_steps_per_second": 6.006,
       "step": 26
     }
   ],
   "logging_steps": 1,
@@ -232,7 +331,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.637002174707794e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.07044081955184286,
   "eval_steps": 13,
+  "global_step": 39,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.01,
       "eval_steps_per_second": 6.006,
       "step": 26
+    },
+    {
+      "epoch": 0.0487667212281989,
+      "grad_norm": 0.23669229447841644,
+      "learning_rate": 4.6729843538492847e-05,
+      "loss": 0.4397,
+      "step": 27
+    },
+    {
+      "epoch": 0.050572896088502566,
+      "grad_norm": 0.22281350195407867,
+      "learning_rate": 4.347369038899744e-05,
+      "loss": 0.4151,
+      "step": 28
+    },
+    {
+      "epoch": 0.052379070948806235,
+      "grad_norm": 0.22589480876922607,
+      "learning_rate": 4.0245483899193595e-05,
+      "loss": 0.4299,
+      "step": 29
+    },
+    {
+      "epoch": 0.0541852458091099,
+      "grad_norm": 0.21541890501976013,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 0.4296,
+      "step": 30
+    },
+    {
+      "epoch": 0.05599142066941356,
+      "grad_norm": 0.2260853797197342,
+      "learning_rate": 3.392802673484193e-05,
+      "loss": 0.4267,
+      "step": 31
+    },
+    {
+      "epoch": 0.05779759552971722,
+      "grad_norm": 0.2251616269350052,
+      "learning_rate": 3.086582838174551e-05,
+      "loss": 0.4368,
+      "step": 32
+    },
+    {
+      "epoch": 0.059603770390020884,
+      "grad_norm": 0.22280317544937134,
+      "learning_rate": 2.7885565489049946e-05,
+      "loss": 0.4432,
+      "step": 33
+    },
+    {
+      "epoch": 0.061409945250324546,
+      "grad_norm": 0.22349373996257782,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.4452,
+      "step": 34
+    },
+    {
+      "epoch": 0.06321612011062822,
+      "grad_norm": 0.21193207800388336,
+      "learning_rate": 2.2221488349019903e-05,
+      "loss": 0.4131,
+      "step": 35
+    },
+    {
+      "epoch": 0.06502229497093187,
+      "grad_norm": 0.20389844477176666,
+      "learning_rate": 1.9561928549563968e-05,
+      "loss": 0.4067,
+      "step": 36
+    },
+    {
+      "epoch": 0.06682846983123554,
+      "grad_norm": 0.22179871797561646,
+      "learning_rate": 1.703270924499656e-05,
+      "loss": 0.4175,
+      "step": 37
+    },
+    {
+      "epoch": 0.0686346446915392,
+      "grad_norm": 0.21262727677822113,
+      "learning_rate": 1.4644660940672627e-05,
+      "loss": 0.3996,
+      "step": 38
+    },
+    {
+      "epoch": 0.07044081955184286,
+      "grad_norm": 0.21592184901237488,
+      "learning_rate": 1.2408009626051137e-05,
+      "loss": 0.4185,
+      "step": 39
+    },
+    {
+      "epoch": 0.07044081955184286,
+      "eval_loss": 0.4238123595714569,
+      "eval_runtime": 155.3671,
+      "eval_samples_per_second": 24.008,
+      "eval_steps_per_second": 6.005,
+      "step": 39
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.455503262061691e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null