Training in progress, step 4770

Browse files

Files changed (8) hide show

model.safetensors +1 -1
run-3/checkpoint-4770/model.safetensors +1 -1
run-3/checkpoint-4770/optimizer.pt +1 -1
run-3/checkpoint-4770/scheduler.pt +1 -1
run-3/checkpoint-4770/trainer_state.json +107 -107
run-3/checkpoint-4770/training_args.bin +1 -1
runs/Oct20_13-24-54_87443764e281/events.out.tfevents.1729433136.87443764e281.307.3 +3 -0
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4384a128a0ec6df3743bda704006b555752b73cff6bd957895b0f805429a080f
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb3d9d9b7904e5c4b2b4e5f8e2e04d0d88e148d3c050c56c1c175fa004a5e190
 size 268290900

run-3/checkpoint-4770/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a48fa33a9ddcf76f32827f42a4c29afa8a6efe0a1ecb59eaa05fc1a5eba8800
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb3d9d9b7904e5c4b2b4e5f8e2e04d0d88e148d3c050c56c1c175fa004a5e190
 size 268290900

run-3/checkpoint-4770/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f2aafd8a795d1fc83963def144a6849dff9bf7eb36503883d209ce78d989deb
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:d273212006c666110dba1b4525d9539d8db16079acce1aa3213059046e396c29
 size 536643898

run-3/checkpoint-4770/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc053df02028bafb95728822603492c92e361e1a2f98460c7483ca185bec87f8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:797c8d7d26e9180dee2526f838ce1bd0f7cdff0bf714d2114e0bcc548438283e
 size 1064

run-3/checkpoint-4770/trainer_state.json CHANGED Viewed

@@ -10,233 +10,233 @@
   "log_history": [
     {
       "epoch": 0.9968553459119497,
-      "grad_norm": 0.01754792593419552,
-      "learning_rate": 0.000776604254595881,
-      "loss": 0.5977,
       "step": 317
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.0064516129032258064,
-      "eval_loss": 0.6016289591789246,
-      "eval_runtime": 5.4207,
-      "eval_samples_per_second": 571.886,
-      "eval_steps_per_second": 11.991,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
-      "grad_norm": 0.013247409835457802,
-      "learning_rate": 0.0007213193795213482,
-      "loss": 0.6075,
       "step": 634
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.03225806451612903,
-      "eval_loss": 0.6012811064720154,
-      "eval_runtime": 5.4611,
-      "eval_samples_per_second": 567.648,
-      "eval_steps_per_second": 11.902,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
-      "grad_norm": 0.012003601528704166,
-      "learning_rate": 0.0006660345044468155,
-      "loss": 0.6077,
       "step": 951
     },
     {
       "epoch": 3.0,
       "eval_accuracy": 0.03225806451612903,
-      "eval_loss": 0.6012278199195862,
-      "eval_runtime": 5.4297,
-      "eval_samples_per_second": 570.937,
-      "eval_steps_per_second": 11.971,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
-      "grad_norm": 0.010578780435025692,
-      "learning_rate": 0.0006107496293722828,
-      "loss": 0.6072,
       "step": 1268
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.03225806451612903,
-      "eval_loss": 0.6011785268783569,
-      "eval_runtime": 5.4145,
-      "eval_samples_per_second": 572.54,
-      "eval_steps_per_second": 12.005,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
-      "grad_norm": 0.01368038635700941,
-      "learning_rate": 0.00055546475429775,
-      "loss": 0.608,
       "step": 1585
     },
     {
       "epoch": 5.0,
       "eval_accuracy": 0.03225806451612903,
-      "eval_loss": 0.6011925339698792,
-      "eval_runtime": 5.4677,
-      "eval_samples_per_second": 566.968,
-      "eval_steps_per_second": 11.888,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
-      "grad_norm": 0.01561660785228014,
-      "learning_rate": 0.0005001798792232172,
-      "loss": 0.6076,
       "step": 1902
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.03225806451612903,
-      "eval_loss": 0.6011727452278137,
-      "eval_runtime": 5.4651,
-      "eval_samples_per_second": 567.234,
-      "eval_steps_per_second": 11.894,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
-      "grad_norm": 0.012493623420596123,
-      "learning_rate": 0.00044489500414868454,
-      "loss": 0.607,
       "step": 2219
     },
     {
       "epoch": 7.0,
       "eval_accuracy": 0.03225806451612903,
-      "eval_loss": 0.6012096405029297,
-      "eval_runtime": 5.3992,
-      "eval_samples_per_second": 574.154,
-      "eval_steps_per_second": 12.039,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
-      "grad_norm": 0.014549925923347473,
-      "learning_rate": 0.00038961012907415184,
-      "loss": 0.6078,
       "step": 2536
     },
     {
       "epoch": 8.0,
       "eval_accuracy": 0.03225806451612903,
-      "eval_loss": 0.6011644601821899,
-      "eval_runtime": 5.4037,
-      "eval_samples_per_second": 573.681,
-      "eval_steps_per_second": 12.029,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
-      "grad_norm": 0.02066616527736187,
-      "learning_rate": 0.0003343252539996191,
-      "loss": 0.6075,
       "step": 2853
     },
     {
       "epoch": 9.0,
       "eval_accuracy": 0.03225806451612903,
-      "eval_loss": 0.6011798977851868,
-      "eval_runtime": 5.475,
-      "eval_samples_per_second": 566.208,
-      "eval_steps_per_second": 11.872,
       "step": 2862
     },
     {
       "epoch": 9.968553459119496,
-      "grad_norm": 0.010850013233721256,
-      "learning_rate": 0.00027904037892508633,
-      "loss": 0.6076,
       "step": 3170
     },
     {
       "epoch": 10.0,
       "eval_accuracy": 0.03225806451612903,
-      "eval_loss": 0.6012014746665955,
-      "eval_runtime": 5.4388,
-      "eval_samples_per_second": 569.982,
-      "eval_steps_per_second": 11.951,
       "step": 3180
     },
     {
       "epoch": 10.965408805031446,
-      "grad_norm": 0.01570860482752323,
-      "learning_rate": 0.00022375550385055363,
-      "loss": 0.6077,
       "step": 3487
     },
     {
       "epoch": 11.0,
       "eval_accuracy": 0.03225806451612903,
-      "eval_loss": 0.6011857390403748,
-      "eval_runtime": 5.4108,
-      "eval_samples_per_second": 572.928,
-      "eval_steps_per_second": 12.013,
       "step": 3498
     },
     {
       "epoch": 11.962264150943396,
-      "grad_norm": 0.007834916934370995,
-      "learning_rate": 0.00016847062877602088,
-      "loss": 0.6072,
       "step": 3804
     },
     {
       "epoch": 12.0,
       "eval_accuracy": 0.03225806451612903,
-      "eval_loss": 0.6011877655982971,
-      "eval_runtime": 5.4133,
-      "eval_samples_per_second": 572.658,
-      "eval_steps_per_second": 12.007,
       "step": 3816
     },
     {
       "epoch": 12.959119496855346,
-      "grad_norm": 0.015295589342713356,
-      "learning_rate": 0.00011318575370148815,
-      "loss": 0.6081,
       "step": 4121
     },
     {
       "epoch": 13.0,
       "eval_accuracy": 0.03225806451612903,
-      "eval_loss": 0.6011701226234436,
-      "eval_runtime": 5.4283,
-      "eval_samples_per_second": 571.085,
-      "eval_steps_per_second": 11.974,
       "step": 4134
     },
     {
       "epoch": 13.955974842767295,
-      "grad_norm": 0.014071750454604626,
-      "learning_rate": 5.790087862695542e-05,
-      "loss": 0.607,
       "step": 4438
     },
     {
       "epoch": 14.0,
       "eval_accuracy": 0.03225806451612903,
-      "eval_loss": 0.6011898517608643,
-      "eval_runtime": 5.4906,
-      "eval_samples_per_second": 564.599,
-      "eval_steps_per_second": 11.838,
       "step": 4452
     },
     {
       "epoch": 14.952830188679245,
-      "grad_norm": 0.011002879589796066,
-      "learning_rate": 2.6160035524226845e-06,
-      "loss": 0.6074,
       "step": 4755
     }
   ],
@@ -261,11 +261,11 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.3738796870532265,
-    "learning_rate": 0.0008318891296704137,
-    "lr_scheduler_type": "linear",
     "num_train_epochs": 15,
-    "temperature": 10.526715944436805,
-    "weight_decay": 0.22690902065757862
   }
 }

   "log_history": [
     {
       "epoch": 0.9968553459119497,
+      "grad_norm": 0.007859878242015839,
+      "learning_rate": 0.0007934093547399718,
+      "loss": 0.5931,
       "step": 317
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.03225806451612903,
+      "eval_loss": 0.5877403020858765,
+      "eval_runtime": 5.3692,
+      "eval_samples_per_second": 577.366,
+      "eval_steps_per_second": 12.106,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
+      "grad_norm": 0.013005654327571392,
+      "learning_rate": 0.0007676597858899992,
+      "loss": 0.5933,
       "step": 634
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.03225806451612903,
+      "eval_loss": 0.5876849293708801,
+      "eval_runtime": 5.3979,
+      "eval_samples_per_second": 574.293,
+      "eval_steps_per_second": 12.042,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
+      "grad_norm": 0.011686289682984352,
+      "learning_rate": 0.0007259882616863973,
+      "loss": 0.5936,
       "step": 951
     },
     {
       "epoch": 3.0,
       "eval_accuracy": 0.03225806451612903,
+      "eval_loss": 0.5876944661140442,
+      "eval_runtime": 5.3376,
+      "eval_samples_per_second": 580.786,
+      "eval_steps_per_second": 12.178,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
+      "grad_norm": 0.010250881314277649,
+      "learning_rate": 0.0006702046329072582,
+      "loss": 0.5932,
       "step": 1268
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.03225806451612903,
+      "eval_loss": 0.5876566171646118,
+      "eval_runtime": 5.3623,
+      "eval_samples_per_second": 578.11,
+      "eval_steps_per_second": 12.122,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
+      "grad_norm": 0.013469184748828411,
+      "learning_rate": 0.0006027316581600536,
+      "loss": 0.594,
       "step": 1585
     },
     {
       "epoch": 5.0,
       "eval_accuracy": 0.03225806451612903,
+      "eval_loss": 0.5876731276512146,
+      "eval_runtime": 5.3565,
+      "eval_samples_per_second": 578.738,
+      "eval_steps_per_second": 12.135,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
+      "grad_norm": 0.015176467597484589,
+      "learning_rate": 0.0005264997801914848,
+      "loss": 0.5936,
       "step": 1902
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.03225806451612903,
+      "eval_loss": 0.5876610279083252,
+      "eval_runtime": 5.3967,
+      "eval_samples_per_second": 574.42,
+      "eval_steps_per_second": 12.044,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
+      "grad_norm": 0.01225706934928894,
+      "learning_rate": 0.0004448198527870465,
+      "loss": 0.593,
       "step": 2219
     },
     {
       "epoch": 7.0,
       "eval_accuracy": 0.03225806451612903,
+      "eval_loss": 0.5876200795173645,
+      "eval_runtime": 5.386,
+      "eval_samples_per_second": 575.564,
+      "eval_steps_per_second": 12.068,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
+      "grad_norm": 0.014281037263572216,
+      "learning_rate": 0.00036123934590356535,
+      "loss": 0.5938,
       "step": 2536
     },
     {
       "epoch": 8.0,
       "eval_accuracy": 0.03225806451612903,
+      "eval_loss": 0.5876643061637878,
+      "eval_runtime": 5.34,
+      "eval_samples_per_second": 580.525,
+      "eval_steps_per_second": 12.172,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
+      "grad_norm": 0.020413335412740707,
+      "learning_rate": 0.0002793882742407039,
+      "loss": 0.5934,
       "step": 2853
     },
     {
       "epoch": 9.0,
       "eval_accuracy": 0.03225806451612903,
+      "eval_loss": 0.5876378417015076,
+      "eval_runtime": 5.3343,
+      "eval_samples_per_second": 581.141,
+      "eval_steps_per_second": 12.185,
       "step": 2862
     },
     {
       "epoch": 9.968553459119496,
+      "grad_norm": 0.010601122863590717,
+      "learning_rate": 0.00020282154078240177,
+      "loss": 0.5935,
       "step": 3170
     },
     {
       "epoch": 10.0,
       "eval_accuracy": 0.03225806451612903,
+      "eval_loss": 0.5876396298408508,
+      "eval_runtime": 5.3546,
+      "eval_samples_per_second": 578.942,
+      "eval_steps_per_second": 12.139,
       "step": 3180
     },
     {
       "epoch": 10.965408805031446,
+      "grad_norm": 0.015482204966247082,
+      "learning_rate": 0.00013486454254193946,
+      "loss": 0.5936,
       "step": 3487
     },
     {
       "epoch": 11.0,
       "eval_accuracy": 0.03225806451612903,
+      "eval_loss": 0.5875952839851379,
+      "eval_runtime": 5.3966,
+      "eval_samples_per_second": 574.436,
+      "eval_steps_per_second": 12.045,
       "step": 3498
     },
     {
       "epoch": 11.962264150943396,
+      "grad_norm": 0.007544202264398336,
+      "learning_rate": 7.846874406237966e-05,
+      "loss": 0.5932,
       "step": 3804
     },
     {
       "epoch": 12.0,
       "eval_accuracy": 0.03225806451612903,
+      "eval_loss": 0.587660014629364,
+      "eval_runtime": 5.388,
+      "eval_samples_per_second": 575.35,
+      "eval_steps_per_second": 12.064,
       "step": 3816
     },
     {
       "epoch": 12.959119496855346,
+      "grad_norm": 0.015037346631288528,
+      "learning_rate": 3.608349131102299e-05,
+      "loss": 0.594,
       "step": 4121
     },
     {
       "epoch": 13.0,
       "eval_accuracy": 0.03225806451612903,
+      "eval_loss": 0.5875839591026306,
+      "eval_runtime": 5.3407,
+      "eval_samples_per_second": 580.45,
+      "eval_steps_per_second": 12.171,
       "step": 4134
     },
     {
       "epoch": 13.955974842767295,
+      "grad_norm": 0.013815987855196,
+      "learning_rate": 9.549633264184268e-06,
+      "loss": 0.593,
       "step": 4438
     },
     {
       "epoch": 14.0,
       "eval_accuracy": 0.03225806451612903,
+      "eval_loss": 0.5875993371009827,
+      "eval_runtime": 5.3398,
+      "eval_samples_per_second": 580.541,
+      "eval_steps_per_second": 12.173,
       "step": 4452
     },
     {
       "epoch": 14.952830188679245,
+      "grad_norm": 0.010695732198655605,
+      "learning_rate": 1.9571341049241364e-08,
+      "loss": 0.5934,
       "step": 4755
     }
   ],
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.5457565605433671,
+    "learning_rate": 0.0008021186295599815,
+    "lr_scheduler_type": "cosine",
     "num_train_epochs": 15,
+    "temperature": 13.83793993486481,
+    "weight_decay": 0.09136269626429569
   }
 }

run-3/checkpoint-4770/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:250abb006b19366e1adab089f1609d1d21d51fe8eff45a07f7a4f1d918f262d8
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:897f112baf000af50343a07b648e18d94170f7867db99d9989dad76b8d4ae6a7
 size 5240

runs/Oct20_13-24-54_87443764e281/events.out.tfevents.1729433136.87443764e281.307.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:742b6d0d21ad38e949126f20c1628a16142201b4bae170fb91e5943c5cd936f2
+size 20825

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5589e749649dba3af878a3715400f3ce342a88ed8dcc73e44b015459960a4ca
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:897f112baf000af50343a07b648e18d94170f7867db99d9989dad76b8d4ae6a7
 size 5240