Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +153 -3

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32e1c292adb4571bcaa540df997b7c0994c85f8419f91bb4efad4442f0634536
 size 497774208

 version https://git-lfs.github.com/spec/v1
+oid sha256:59abd203968c30b325ef963aefd158405ffb0c164592824677d3b5d2487de3e8
 size 497774208

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00fd9310f86fbfb542d904f836dc8bd2b7ead76be499b38f559436d9efe5bc7a
 size 995642298

 version https://git-lfs.github.com/spec/v1
+oid sha256:52ac204cab4a817e8100cdb033c0c8ab1372a7b86cfb3c0706f570c2892f63b4
 size 995642298

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bd98c522c8acadc7236c4dec9a6d7f2c45122d9cdb2534e9e6ca864d9b22d54
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f57f0509bd63dc113aa1ccd67357a9fe454b5bd996f35077379f952d2eb5851
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7efd851823c41e299dc26218b34ebe2f67e3f195ba01b8ffc6443fa63eb93a3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5bc67182f48043705bcf8b44274c98ceceabf129e73caaf0b5381b0cb1f4e36f
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.416276407534603,
   "eval_steps": 100,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -607,6 +607,156 @@
       "eval_samples_per_second": 12.103,
       "eval_steps_per_second": 1.513,
       "step": 4000
     }
   ],
   "logging_steps": 100,
@@ -626,7 +776,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8361345024000000.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5203455094182537,
   "eval_steps": 100,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.103,
       "eval_steps_per_second": 1.513,
       "step": 4000
+    },
+    {
+      "epoch": 0.426683317722968,
+      "grad_norm": 6.157552242279053,
+      "learning_rate": 4.2888611371283866e-05,
+      "loss": 3.3412,
+      "step": 4100
+    },
+    {
+      "epoch": 0.426683317722968,
+      "eval_loss": 3.834092140197754,
+      "eval_runtime": 3534.2463,
+      "eval_samples_per_second": 11.864,
+      "eval_steps_per_second": 1.483,
+      "step": 4100
+    },
+    {
+      "epoch": 0.4370902279113331,
+      "grad_norm": 6.643843650817871,
+      "learning_rate": 4.271516286814445e-05,
+      "loss": 3.2945,
+      "step": 4200
+    },
+    {
+      "epoch": 0.4370902279113331,
+      "eval_loss": 3.8426012992858887,
+      "eval_runtime": 4149.9023,
+      "eval_samples_per_second": 10.104,
+      "eval_steps_per_second": 1.263,
+      "step": 4200
+    },
+    {
+      "epoch": 0.4474971380996982,
+      "grad_norm": 6.451257705688477,
+      "learning_rate": 4.254171436500503e-05,
+      "loss": 3.2203,
+      "step": 4300
+    },
+    {
+      "epoch": 0.4474971380996982,
+      "eval_loss": 3.840031147003174,
+      "eval_runtime": 4060.1081,
+      "eval_samples_per_second": 10.328,
+      "eval_steps_per_second": 1.291,
+      "step": 4300
+    },
+    {
+      "epoch": 0.45790404828806325,
+      "grad_norm": 7.092510223388672,
+      "learning_rate": 4.2368265861865615e-05,
+      "loss": 3.2779,
+      "step": 4400
+    },
+    {
+      "epoch": 0.45790404828806325,
+      "eval_loss": 3.8369994163513184,
+      "eval_runtime": 4092.0714,
+      "eval_samples_per_second": 10.247,
+      "eval_steps_per_second": 1.281,
+      "step": 4400
+    },
+    {
+      "epoch": 0.46831095847642834,
+      "grad_norm": 6.0258588790893555,
+      "learning_rate": 4.2194817358726196e-05,
+      "loss": 3.1867,
+      "step": 4500
+    },
+    {
+      "epoch": 0.46831095847642834,
+      "eval_loss": 3.837413787841797,
+      "eval_runtime": 4068.8274,
+      "eval_samples_per_second": 10.306,
+      "eval_steps_per_second": 1.288,
+      "step": 4500
+    },
+    {
+      "epoch": 0.47871786866479343,
+      "grad_norm": 6.42568302154541,
+      "learning_rate": 4.202136885558678e-05,
+      "loss": 3.2981,
+      "step": 4600
+    },
+    {
+      "epoch": 0.47871786866479343,
+      "eval_loss": 3.8490710258483887,
+      "eval_runtime": 4072.501,
+      "eval_samples_per_second": 10.296,
+      "eval_steps_per_second": 1.287,
+      "step": 4600
+    },
+    {
+      "epoch": 0.48912477885315847,
+      "grad_norm": 4.5895466804504395,
+      "learning_rate": 4.1847920352447364e-05,
+      "loss": 3.2523,
+      "step": 4700
+    },
+    {
+      "epoch": 0.48912477885315847,
+      "eval_loss": 3.8223540782928467,
+      "eval_runtime": 3505.4411,
+      "eval_samples_per_second": 11.962,
+      "eval_steps_per_second": 1.495,
+      "step": 4700
+    },
+    {
+      "epoch": 0.49953168904152356,
+      "grad_norm": 4.485264778137207,
+      "learning_rate": 4.1674471849307945e-05,
+      "loss": 3.2375,
+      "step": 4800
+    },
+    {
+      "epoch": 0.49953168904152356,
+      "eval_loss": 3.847806692123413,
+      "eval_runtime": 3468.0824,
+      "eval_samples_per_second": 12.091,
+      "eval_steps_per_second": 1.511,
+      "step": 4800
+    },
+    {
+      "epoch": 0.5099385992298886,
+      "grad_norm": 6.584381103515625,
+      "learning_rate": 4.1501023346168526e-05,
+      "loss": 3.2327,
+      "step": 4900
+    },
+    {
+      "epoch": 0.5099385992298886,
+      "eval_loss": 3.849238872528076,
+      "eval_runtime": 3470.3976,
+      "eval_samples_per_second": 12.083,
+      "eval_steps_per_second": 1.51,
+      "step": 4900
+    },
+    {
+      "epoch": 0.5203455094182537,
+      "grad_norm": 7.7780303955078125,
+      "learning_rate": 4.1327574843029107e-05,
+      "loss": 3.2209,
+      "step": 5000
+    },
+    {
+      "epoch": 0.5203455094182537,
+      "eval_loss": 3.855090856552124,
+      "eval_runtime": 3470.2986,
+      "eval_samples_per_second": 12.083,
+      "eval_steps_per_second": 1.511,
+      "step": 5000
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 1.045168128e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null