Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7da2725f5d7318101279559a5f1fb5f79f9b1c82535c97b351acd92fe1833edc
 size 250422888

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f5f5c558cd109ecdab8ac6da366fdb75e5d86d07263a247ec16ec5c9d91ebeb
 size 250422888

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3e6a38ebd34d2aebe3f79ec9cf0383bc372dbdf36a3c6393b708b62a4a70de0
 size 501168482

 version https://git-lfs.github.com/spec/v1
+oid sha256:aaa9359d97df4c1fcb4e1c0b120c1524db04db6cb306695d6770c1773825f130
 size 501168482

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03dd5e15c764c279612c2c66de823dfdaf49a0ae570bd9572ad7765ff4dc3972
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b60062fc375f7f1c4e484b5943687b640607aed4dd62534dae2acdd19d81a447
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.00677323218639935,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 3.8581,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.300871580418048e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0135464643727987,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 3.8581,
       "step": 25
+    },
+    {
+      "epoch": 0.007044161473855324,
+      "grad_norm": 1.5806576013565063,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 3.7995,
+      "step": 26
+    },
+    {
+      "epoch": 0.007315090761311298,
+      "grad_norm": 1.4929829835891724,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 3.9813,
+      "step": 27
+    },
+    {
+      "epoch": 0.007315090761311298,
+      "eval_loss": 1.7370423078536987,
+      "eval_runtime": 233.8325,
+      "eval_samples_per_second": 13.292,
+      "eval_steps_per_second": 1.664,
+      "step": 27
+    },
+    {
+      "epoch": 0.007586020048767272,
+      "grad_norm": 1.6387741565704346,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 3.6443,
+      "step": 28
+    },
+    {
+      "epoch": 0.007856949336223246,
+      "grad_norm": 1.9017878770828247,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 4.1088,
+      "step": 29
+    },
+    {
+      "epoch": 0.00812787862367922,
+      "grad_norm": 1.892134428024292,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 3.7689,
+      "step": 30
+    },
+    {
+      "epoch": 0.008398807911135195,
+      "grad_norm": 1.6073269844055176,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 3.5192,
+      "step": 31
+    },
+    {
+      "epoch": 0.008669737198591168,
+      "grad_norm": 1.9570190906524658,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 3.852,
+      "step": 32
+    },
+    {
+      "epoch": 0.008940666486047142,
+      "grad_norm": 1.5949461460113525,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 3.4371,
+      "step": 33
+    },
+    {
+      "epoch": 0.009211595773503115,
+      "grad_norm": 1.2864899635314941,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 2.9907,
+      "step": 34
+    },
+    {
+      "epoch": 0.00948252506095909,
+      "grad_norm": 1.1819583177566528,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 2.6687,
+      "step": 35
+    },
+    {
+      "epoch": 0.009753454348415064,
+      "grad_norm": 1.6467957496643066,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 3.2719,
+      "step": 36
+    },
+    {
+      "epoch": 0.009753454348415064,
+      "eval_loss": 1.6752654314041138,
+      "eval_runtime": 233.8576,
+      "eval_samples_per_second": 13.29,
+      "eval_steps_per_second": 1.663,
+      "step": 36
+    },
+    {
+      "epoch": 0.010024383635871038,
+      "grad_norm": 1.2391555309295654,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 3.0545,
+      "step": 37
+    },
+    {
+      "epoch": 0.010295312923327011,
+      "grad_norm": 1.87485933303833,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 3.2457,
+      "step": 38
+    },
+    {
+      "epoch": 0.010566242210782985,
+      "grad_norm": 1.3642981052398682,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 2.9937,
+      "step": 39
+    },
+    {
+      "epoch": 0.01083717149823896,
+      "grad_norm": 2.1650807857513428,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 3.3383,
+      "step": 40
+    },
+    {
+      "epoch": 0.011108100785694934,
+      "grad_norm": 1.1839669942855835,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 3.3796,
+      "step": 41
+    },
+    {
+      "epoch": 0.011379030073150907,
+      "grad_norm": 1.4667418003082275,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 3.1791,
+      "step": 42
+    },
+    {
+      "epoch": 0.01164995936060688,
+      "grad_norm": 2.1223866939544678,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 3.541,
+      "step": 43
+    },
+    {
+      "epoch": 0.011920888648062856,
+      "grad_norm": 1.6458444595336914,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 3.2844,
+      "step": 44
+    },
+    {
+      "epoch": 0.01219181793551883,
+      "grad_norm": 1.5712699890136719,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 3.2106,
+      "step": 45
+    },
+    {
+      "epoch": 0.01219181793551883,
+      "eval_loss": 1.638505220413208,
+      "eval_runtime": 234.0386,
+      "eval_samples_per_second": 13.28,
+      "eval_steps_per_second": 1.662,
+      "step": 45
+    },
+    {
+      "epoch": 0.012462747222974803,
+      "grad_norm": 1.6857413053512573,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 3.5275,
+      "step": 46
+    },
+    {
+      "epoch": 0.012733676510430777,
+      "grad_norm": 2.234515905380249,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 3.6425,
+      "step": 47
+    },
+    {
+      "epoch": 0.013004605797886752,
+      "grad_norm": 1.8203272819519043,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 2.9848,
+      "step": 48
+    },
+    {
+      "epoch": 0.013275535085342726,
+      "grad_norm": 2.177682399749756,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 3.8714,
+      "step": 49
+    },
+    {
+      "epoch": 0.0135464643727987,
+      "grad_norm": 1.284415364265442,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 2.8472,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.474786561589248e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null