Training in progress, step 378, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +109 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:acd89bab327e82c9d70eeec005795d508bf6adaacfc92ddd8f20f724469a6234
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:204a349fb5f2880ebc9716e2c999f98555ac7db9085761fb01ccb8be60805c18
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bbbe25b88e42f5ce81a38f5cf504c4dcaa7e05557dd4f368b68f622afa912480
 size 341314644

 version https://git-lfs.github.com/spec/v1
+oid sha256:f474ba23721d4d9a1c85d01088a42d6297ce6fce23f3e15e68800d582b9d412b
 size 341314644

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd03e0f639b7da9ed1de154fce4cfdfc9d7d7afd7ed92a06fd4ed6e19dbfb56b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b43a77608e3595ef8ce792c3fd5462a71b9b7958002088c96e8d041e0e2ab5b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10affc9ced28dcfaf0d40e3497a97c8e7416bd057324538f99a7e1756fd84408
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ac207b57c6cefba3838e335ba7ebf320ffdaee8162f1c0afc72ea9ad9f0725f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0944625407166124,
   "eval_steps": 42,
-  "global_step": 336,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -863,6 +863,112 @@
       "eval_samples_per_second": 23.319,
       "eval_steps_per_second": 5.864,
       "step": 336
     }
   ],
   "logging_steps": 3,
@@ -882,7 +988,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.53383140179968e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.231270358306189,
   "eval_steps": 42,
+  "global_step": 378,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.319,
       "eval_steps_per_second": 5.864,
       "step": 336
+    },
+    {
+      "epoch": 1.1042345276872965,
+      "grad_norm": 2.279667615890503,
+      "learning_rate": 2.43550361297047e-05,
+      "loss": 0.8684,
+      "step": 339
+    },
+    {
+      "epoch": 1.1140065146579805,
+      "grad_norm": 2.2219250202178955,
+      "learning_rate": 2.353425010381063e-05,
+      "loss": 0.8651,
+      "step": 342
+    },
+    {
+      "epoch": 1.1237785016286646,
+      "grad_norm": 2.2543816566467285,
+      "learning_rate": 2.272325493947257e-05,
+      "loss": 0.8661,
+      "step": 345
+    },
+    {
+      "epoch": 1.1335504885993486,
+      "grad_norm": 2.2331888675689697,
+      "learning_rate": 2.192235065998126e-05,
+      "loss": 0.7047,
+      "step": 348
+    },
+    {
+      "epoch": 1.1433224755700326,
+      "grad_norm": 2.6700170040130615,
+      "learning_rate": 2.1131833555559037e-05,
+      "loss": 0.7296,
+      "step": 351
+    },
+    {
+      "epoch": 1.1530944625407167,
+      "grad_norm": 2.4180705547332764,
+      "learning_rate": 2.0351996073748713e-05,
+      "loss": 0.7674,
+      "step": 354
+    },
+    {
+      "epoch": 1.1628664495114007,
+      "grad_norm": 2.7486183643341064,
+      "learning_rate": 1.9583126711224343e-05,
+      "loss": 0.9823,
+      "step": 357
+    },
+    {
+      "epoch": 1.1726384364820848,
+      "grad_norm": 2.257678747177124,
+      "learning_rate": 1.8825509907063327e-05,
+      "loss": 0.8594,
+      "step": 360
+    },
+    {
+      "epoch": 1.1824104234527688,
+      "grad_norm": 2.3134396076202393,
+      "learning_rate": 1.807942593751973e-05,
+      "loss": 0.8651,
+      "step": 363
+    },
+    {
+      "epoch": 1.1921824104234529,
+      "grad_norm": 2.2541582584381104,
+      "learning_rate": 1.7345150812337564e-05,
+      "loss": 0.839,
+      "step": 366
+    },
+    {
+      "epoch": 1.201954397394137,
+      "grad_norm": 2.1207261085510254,
+      "learning_rate": 1.66229561726426e-05,
+      "loss": 0.7365,
+      "step": 369
+    },
+    {
+      "epoch": 1.211726384364821,
+      "grad_norm": 2.189333915710449,
+      "learning_rate": 1.5913109190450032e-05,
+      "loss": 0.7796,
+      "step": 372
+    },
+    {
+      "epoch": 1.221498371335505,
+      "grad_norm": 2.466726541519165,
+      "learning_rate": 1.5215872469825682e-05,
+      "loss": 0.8155,
+      "step": 375
+    },
+    {
+      "epoch": 1.231270358306189,
+      "grad_norm": 2.5175869464874268,
+      "learning_rate": 1.4531503949737108e-05,
+      "loss": 0.705,
+      "step": 378
+    },
+    {
+      "epoch": 1.231270358306189,
+      "eval_loss": 1.314825177192688,
+      "eval_runtime": 22.1791,
+      "eval_samples_per_second": 23.31,
+      "eval_steps_per_second": 5.861,
+      "step": 378
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 2.8506192533363098e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null