Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b3a40258b61a141789b84fb5d0668d19c35b32ae575eff9747c1874907ba2fb
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:4109b24d8ae1df7a2f6fe7418f6206370ede8b5aba395151565a832339eb073b
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b854ecbc9dbf2ee073892e199d7d7b3822052b7992d7696ef9b2d9d83b93ee8
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:54b41452596c610d9291dffd6d7f11e5e8f2838a4b0ff3a37f7615cd3b5c7354
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7dccf15704fbdf23856e1119baffae48b962f09fb2232cc45a115390986e7d5d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:828a7e6e11ce6fb1a2356180954a5b20df0e28e99bfb6b79a96217eb20a3be28
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.006549646319098768,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 0.5034,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.85471820890112e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.013099292638197537,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 0.5034,
       "step": 25
+    },
+    {
+      "epoch": 0.006811632171862719,
+      "grad_norm": 1.9433157444000244,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 0.4729,
+      "step": 26
+    },
+    {
+      "epoch": 0.00707361802462667,
+      "grad_norm": 3.4378275871276855,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 0.6066,
+      "step": 27
+    },
+    {
+      "epoch": 0.00707361802462667,
+      "eval_loss": 0.4995511770248413,
+      "eval_runtime": 352.9658,
+      "eval_samples_per_second": 9.109,
+      "eval_steps_per_second": 1.139,
+      "step": 27
+    },
+    {
+      "epoch": 0.007335603877390621,
+      "grad_norm": 2.4910888671875,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.5026,
+      "step": 28
+    },
+    {
+      "epoch": 0.007597589730154571,
+      "grad_norm": 2.5030782222747803,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 0.5058,
+      "step": 29
+    },
+    {
+      "epoch": 0.007859575582918523,
+      "grad_norm": 3.438540458679199,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 0.6847,
+      "step": 30
+    },
+    {
+      "epoch": 0.008121561435682474,
+      "grad_norm": 3.054363489151001,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 0.4804,
+      "step": 31
+    },
+    {
+      "epoch": 0.008383547288446425,
+      "grad_norm": 2.9105348587036133,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 0.3873,
+      "step": 32
+    },
+    {
+      "epoch": 0.008645533141210375,
+      "grad_norm": 2.1625113487243652,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 0.4134,
+      "step": 33
+    },
+    {
+      "epoch": 0.008907518993974326,
+      "grad_norm": 2.532012939453125,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.5296,
+      "step": 34
+    },
+    {
+      "epoch": 0.009169504846738277,
+      "grad_norm": 3.0135233402252197,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 0.4023,
+      "step": 35
+    },
+    {
+      "epoch": 0.009431490699502228,
+      "grad_norm": 3.0963938236236572,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 0.3808,
+      "step": 36
+    },
+    {
+      "epoch": 0.009431490699502228,
+      "eval_loss": 0.48174405097961426,
+      "eval_runtime": 351.9258,
+      "eval_samples_per_second": 9.135,
+      "eval_steps_per_second": 1.142,
+      "step": 36
+    },
+    {
+      "epoch": 0.009693476552266178,
+      "grad_norm": 3.2138330936431885,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.448,
+      "step": 37
+    },
+    {
+      "epoch": 0.00995546240503013,
+      "grad_norm": 2.795412302017212,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 0.4665,
+      "step": 38
+    },
+    {
+      "epoch": 0.010217448257794078,
+      "grad_norm": 2.621596336364746,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 0.5508,
+      "step": 39
+    },
+    {
+      "epoch": 0.010479434110558029,
+      "grad_norm": 1.9961961507797241,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.4201,
+      "step": 40
+    },
+    {
+      "epoch": 0.01074141996332198,
+      "grad_norm": 5.01107120513916,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 0.6618,
+      "step": 41
+    },
+    {
+      "epoch": 0.01100340581608593,
+      "grad_norm": 2.090813159942627,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 0.516,
+      "step": 42
+    },
+    {
+      "epoch": 0.011265391668849881,
+      "grad_norm": 2.791059970855713,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 0.5553,
+      "step": 43
+    },
+    {
+      "epoch": 0.011527377521613832,
+      "grad_norm": 1.8673609495162964,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 0.4062,
+      "step": 44
+    },
+    {
+      "epoch": 0.011789363374377783,
+      "grad_norm": 2.381378412246704,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.3776,
+      "step": 45
+    },
+    {
+      "epoch": 0.011789363374377783,
+      "eval_loss": 0.46064993739128113,
+      "eval_runtime": 351.8933,
+      "eval_samples_per_second": 9.136,
+      "eval_steps_per_second": 1.142,
+      "step": 45
+    },
+    {
+      "epoch": 0.012051349227141734,
+      "grad_norm": 2.2704169750213623,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.4949,
+      "step": 46
+    },
+    {
+      "epoch": 0.012313335079905684,
+      "grad_norm": 2.7573747634887695,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 0.5682,
+      "step": 47
+    },
+    {
+      "epoch": 0.012575320932669635,
+      "grad_norm": 1.6240943670272827,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 0.4033,
+      "step": 48
+    },
+    {
+      "epoch": 0.012837306785433586,
+      "grad_norm": 2.1533713340759277,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 0.5008,
+      "step": 49
+    },
+    {
+      "epoch": 0.013099292638197537,
+      "grad_norm": 1.7656461000442505,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.3638,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.70943641780224e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null