Upload 11 files

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +3 -80

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00033315c3978e7f5b3c187ff43c0c1b0c6f4076183b0997e37ad39f12c73c83
 size 75057744

 version https://git-lfs.github.com/spec/v1
+oid sha256:a60515d25ea6ee36af964b7e294db7d612120dd76d31a7b64c38600f34e828b8
 size 75057744

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:872d7b9701d8d7b2a9df16eb5c7940013ae4c0ab32d96039b3651ba65e7c70ba
 size 150346986

 version https://git-lfs.github.com/spec/v1
+oid sha256:3eb16eead2468ef311aa16fe09a0edc0b103f055c974c4733fb01a1d8915c96e
 size 150346986

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97e92e08cd1c210745787fb53c3aec8b820b463c1f5d67263a0c4fecb69f69ca
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5fd92ce8f35a99f049aa43c1341a3b5999aa560c2036a65e964a08167a6e649
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b2e7f09e07aa3c7be669ba27bfff15efcc0eca70c4fe2d063cc724177dea8a7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3121eaecc736a439a53f42f9220e178e67e74b8074ca77b6592ae4b8178e018c
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.986425339366516,
   "eval_steps": 500,
-  "global_step": 330,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -161,83 +161,6 @@
       "learning_rate": 0.0002,
       "loss": 0.4872,
       "step": 220
-    },
-    {
-      "epoch": 2.08,
-      "grad_norm": 1.0310947895050049,
-      "learning_rate": 0.0002,
-      "loss": 0.3785,
-      "step": 230
-    },
-    {
-      "epoch": 2.17,
-      "grad_norm": 0.635901153087616,
-      "learning_rate": 0.0002,
-      "loss": 0.3905,
-      "step": 240
-    },
-    {
-      "epoch": 2.26,
-      "grad_norm": 0.38871026039123535,
-      "learning_rate": 0.0002,
-      "loss": 0.3745,
-      "step": 250
-    },
-    {
-      "epoch": 2.35,
-      "grad_norm": 0.5501377582550049,
-      "learning_rate": 0.0002,
-      "loss": 0.3759,
-      "step": 260
-    },
-    {
-      "epoch": 2.44,
-      "grad_norm": 0.6457089781761169,
-      "learning_rate": 0.0002,
-      "loss": 0.394,
-      "step": 270
-    },
-    {
-      "epoch": 2.53,
-      "grad_norm": 0.8598196506500244,
-      "learning_rate": 0.0002,
-      "loss": 0.3909,
-      "step": 280
-    },
-    {
-      "epoch": 2.62,
-      "grad_norm": 0.5458590984344482,
-      "learning_rate": 0.0002,
-      "loss": 0.3725,
-      "step": 290
-    },
-    {
-      "epoch": 2.71,
-      "grad_norm": 0.6310967803001404,
-      "learning_rate": 0.0002,
-      "loss": 0.3884,
-      "step": 300
-    },
-    {
-      "epoch": 2.81,
-      "grad_norm": 1.0128086805343628,
-      "learning_rate": 0.0002,
-      "loss": 0.3829,
-      "step": 310
-    },
-    {
-      "epoch": 2.9,
-      "grad_norm": 0.5322939157485962,
-      "learning_rate": 0.0002,
-      "loss": 0.3866,
-      "step": 320
-    },
-    {
-      "epoch": 2.99,
-      "grad_norm": 0.5951926708221436,
-      "learning_rate": 0.0002,
-      "loss": 0.3494,
-      "step": 330
     }
   ],
   "logging_steps": 10,
@@ -245,7 +168,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 9.290508651144806e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 221,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0002,
       "loss": 0.4872,
       "step": 220
     }
   ],
   "logging_steps": 10,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 6.217168915257754e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null