Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3287b5c3a2bb6c7e39e6f87bd22f2f66cd8bc7a27673a7ab40e6c746d00f9f09
 size 250422888

 version https://git-lfs.github.com/spec/v1
+oid sha256:51298c24d2cfa76b375c8a3ddaef5789d63fd628d2fe382769658e712dc0b467
 size 250422888

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:56159fb458cb20a31d34efb65afff724a5128999e5e3b947d0fb02c9a2ef6ae6
 size 501168482

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f19fb35cf362ddd3eb4deb2cddbb114beb8e748b709ff43ddf648bb6f4892e2
 size 501168482

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f03913f5f238dcf6552f3ff09e698057d22b72b52bb98a52ca59d8e4e2bf062
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:be2a5769098af94d196fcad60e75c17cff94ec7e551cd0bf373fdd92858519d2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.010862480990658266,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 1.1685,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.03043846422528e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.021724961981316532,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 1.1685,
       "step": 25
+    },
+    {
+      "epoch": 0.011296980230284597,
+      "grad_norm": 0.8838552832603455,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 1.3244,
+      "step": 26
+    },
+    {
+      "epoch": 0.011731479469910927,
+      "grad_norm": 1.061066746711731,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 1.21,
+      "step": 27
+    },
+    {
+      "epoch": 0.011731479469910927,
+      "eval_loss": 0.6456077694892883,
+      "eval_runtime": 938.9828,
+      "eval_samples_per_second": 2.065,
+      "eval_steps_per_second": 0.259,
+      "step": 27
+    },
+    {
+      "epoch": 0.012165978709537258,
+      "grad_norm": 1.0086060762405396,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 1.2234,
+      "step": 28
+    },
+    {
+      "epoch": 0.012600477949163589,
+      "grad_norm": 1.3487379550933838,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 1.1388,
+      "step": 29
+    },
+    {
+      "epoch": 0.01303497718878992,
+      "grad_norm": 0.9925966858863831,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 1.1835,
+      "step": 30
+    },
+    {
+      "epoch": 0.01346947642841625,
+      "grad_norm": 0.9810362458229065,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 1.1286,
+      "step": 31
+    },
+    {
+      "epoch": 0.01390397566804258,
+      "grad_norm": 0.8999232649803162,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 1.0797,
+      "step": 32
+    },
+    {
+      "epoch": 0.014338474907668911,
+      "grad_norm": 0.8485479354858398,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 1.1772,
+      "step": 33
+    },
+    {
+      "epoch": 0.014772974147295241,
+      "grad_norm": 0.721775472164154,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 1.1839,
+      "step": 34
+    },
+    {
+      "epoch": 0.015207473386921572,
+      "grad_norm": 0.7297196984291077,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 0.9739,
+      "step": 35
+    },
+    {
+      "epoch": 0.015641972626547904,
+      "grad_norm": 0.7651397585868835,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 0.9736,
+      "step": 36
+    },
+    {
+      "epoch": 0.015641972626547904,
+      "eval_loss": 0.5466849207878113,
+      "eval_runtime": 937.7836,
+      "eval_samples_per_second": 2.068,
+      "eval_steps_per_second": 0.259,
+      "step": 36
+    },
+    {
+      "epoch": 0.016076471866174235,
+      "grad_norm": 0.6458867788314819,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 1.0337,
+      "step": 37
+    },
+    {
+      "epoch": 0.016510971105800566,
+      "grad_norm": 0.7283520698547363,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 0.8557,
+      "step": 38
+    },
+    {
+      "epoch": 0.016945470345426896,
+      "grad_norm": 0.8763824701309204,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 1.2412,
+      "step": 39
+    },
+    {
+      "epoch": 0.017379969585053227,
+      "grad_norm": 0.7463090419769287,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1.0294,
+      "step": 40
+    },
+    {
+      "epoch": 0.017814468824679557,
+      "grad_norm": 0.7758802771568298,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 1.1152,
+      "step": 41
+    },
+    {
+      "epoch": 0.018248968064305888,
+      "grad_norm": 0.8491073846817017,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 1.0326,
+      "step": 42
+    },
+    {
+      "epoch": 0.01868346730393222,
+      "grad_norm": 0.8055416345596313,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 1.0835,
+      "step": 43
+    },
+    {
+      "epoch": 0.01911796654355855,
+      "grad_norm": 0.7747017741203308,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 1.0585,
+      "step": 44
+    },
+    {
+      "epoch": 0.01955246578318488,
+      "grad_norm": 0.8274694085121155,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.9503,
+      "step": 45
+    },
+    {
+      "epoch": 0.01955246578318488,
+      "eval_loss": 0.4956837594509125,
+      "eval_runtime": 937.9087,
+      "eval_samples_per_second": 2.067,
+      "eval_steps_per_second": 0.259,
+      "step": 45
+    },
+    {
+      "epoch": 0.01998696502281121,
+      "grad_norm": 0.7109098434448242,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.9899,
+      "step": 46
+    },
+    {
+      "epoch": 0.02042146426243754,
+      "grad_norm": 0.6250343918800354,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 0.9105,
+      "step": 47
+    },
+    {
+      "epoch": 0.02085596350206387,
+      "grad_norm": 0.6676877737045288,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 1.124,
+      "step": 48
+    },
+    {
+      "epoch": 0.021290462741690202,
+      "grad_norm": 0.6898258328437805,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 1.0348,
+      "step": 49
+    },
+    {
+      "epoch": 0.021724961981316532,
+      "grad_norm": 0.7583088278770447,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.8024,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.2124355228073984e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null