Initial model upload

Browse files

Files changed (6) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +154 -154
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:efd763dfe8e85c866e6bd66f50809d9d54abce16f01859bae8100bc92ed5f69e
 size 1740320848

 version https://git-lfs.github.com/spec/v1
+oid sha256:3795d032986cb36ab2a79c0c82499665666044e317693a78fd89b681f6fbebf8
 size 1740320848

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09bc7a04cb1c04fd2bf390ada3ea92d968b99d16473546daf9bf211097dd45d0
 size 210016058

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7959cbf37e29a25017956c46760b2e5398aca6b65f51db96eeebc8e94430f44
 size 210016058

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ec1c04ea978711253e617f503c8e9a897c2b598c232debda0e8460cead38768
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:db173f9b674e0e63d8230619f05ad2fb75dff4f47266517ae9a9ea1de60145b8
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2966c532a4eaa51eb66d10c1d97075ad2d534019e8d79c43ed0464fef1781368
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4eff7c54f170c5a8667bfd6c31a3c0808bcd3818f330877116e19201be586e8f
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.03780783340334892,
-  "best_model_checkpoint": "./results3/checkpoint-2400",
-  "epoch": 3.864734299516908,
   "eval_steps": 200,
   "global_step": 2400,
   "is_hyper_param_search": false,
@@ -9,236 +9,236 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.322061191626409,
-      "grad_norm": 7.461069583892822,
       "learning_rate": 6.666666666666667e-07,
-      "loss": 1.8012,
       "step": 200
     },
     {
-      "epoch": 0.322061191626409,
-      "eval_accuracy": 0.18971061093247588,
-      "eval_f1": 0.10189049057972092,
-      "eval_loss": 1.7812345027923584,
-      "eval_precision": 0.12844515990912814,
-      "eval_recall": 0.18971061093247588,
-      "eval_runtime": 5.7225,
-      "eval_samples_per_second": 108.693,
-      "eval_steps_per_second": 27.261,
       "step": 200
     },
     {
-      "epoch": 0.644122383252818,
-      "grad_norm": 6.918825149536133,
       "learning_rate": 1.3333333333333334e-06,
-      "loss": 1.7688,
       "step": 400
     },
     {
-      "epoch": 0.644122383252818,
-      "eval_accuracy": 0.26688102893890675,
-      "eval_f1": 0.21143076934540506,
-      "eval_loss": 1.7484790086746216,
-      "eval_precision": 0.48251637799958924,
-      "eval_recall": 0.26688102893890675,
-      "eval_runtime": 5.841,
-      "eval_samples_per_second": 106.489,
-      "eval_steps_per_second": 26.708,
       "step": 400
     },
     {
-      "epoch": 0.966183574879227,
-      "grad_norm": 6.153536319732666,
       "learning_rate": 2.0000000000000003e-06,
-      "loss": 1.7475,
       "step": 600
     },
     {
-      "epoch": 0.966183574879227,
-      "eval_accuracy": 0.5353697749196141,
-      "eval_f1": 0.5292630942880905,
-      "eval_loss": 1.6678913831710815,
-      "eval_precision": 0.5777595640628179,
-      "eval_recall": 0.5353697749196141,
-      "eval_runtime": 5.7676,
-      "eval_samples_per_second": 107.844,
-      "eval_steps_per_second": 27.048,
       "step": 600
     },
     {
-      "epoch": 1.288244766505636,
-      "grad_norm": 10.906112670898438,
       "learning_rate": 2.666666666666667e-06,
-      "loss": 1.6323,
       "step": 800
     },
     {
-      "epoch": 1.288244766505636,
-      "eval_accuracy": 0.6109324758842444,
-      "eval_f1": 0.584022217728586,
-      "eval_loss": 1.4518650770187378,
-      "eval_precision": 0.6770832871589993,
-      "eval_recall": 0.6109324758842444,
-      "eval_runtime": 5.7252,
-      "eval_samples_per_second": 108.643,
-      "eval_steps_per_second": 27.248,
       "step": 800
     },
     {
-      "epoch": 1.6103059581320451,
-      "grad_norm": 11.212413787841797,
       "learning_rate": 3.3333333333333333e-06,
-      "loss": 1.3569,
       "step": 1000
     },
     {
-      "epoch": 1.6103059581320451,
-      "eval_accuracy": 0.6672025723472669,
-      "eval_f1": 0.6448086526662313,
-      "eval_loss": 1.0713452100753784,
-      "eval_precision": 0.7227579722788608,
-      "eval_recall": 0.6672025723472669,
-      "eval_runtime": 5.8441,
-      "eval_samples_per_second": 106.433,
-      "eval_steps_per_second": 26.694,
       "step": 1000
     },
     {
-      "epoch": 1.9323671497584543,
-      "grad_norm": 10.077208518981934,
       "learning_rate": 4.000000000000001e-06,
-      "loss": 0.9744,
       "step": 1200
     },
     {
-      "epoch": 1.9323671497584543,
-      "eval_accuracy": 0.8360128617363344,
-      "eval_f1": 0.8313516450563994,
-      "eval_loss": 0.6114147901535034,
-      "eval_precision": 0.8485064229080279,
-      "eval_recall": 0.8360128617363344,
-      "eval_runtime": 5.7667,
-      "eval_samples_per_second": 107.861,
-      "eval_steps_per_second": 27.052,
       "step": 1200
     },
     {
-      "epoch": 2.2544283413848634,
-      "grad_norm": 3.6660408973693848,
       "learning_rate": 4.666666666666667e-06,
-      "loss": 0.5969,
       "step": 1400
     },
     {
-      "epoch": 2.2544283413848634,
-      "eval_accuracy": 0.9180064308681672,
-      "eval_f1": 0.9171911311305204,
-      "eval_loss": 0.29916083812713623,
-      "eval_precision": 0.9217784712222669,
-      "eval_recall": 0.9180064308681672,
-      "eval_runtime": 5.8166,
-      "eval_samples_per_second": 106.936,
-      "eval_steps_per_second": 26.82,
       "step": 1400
     },
     {
-      "epoch": 2.576489533011272,
-      "grad_norm": 3.6452574729919434,
-      "learning_rate": 4.994440868783523e-06,
-      "loss": 0.3187,
       "step": 1600
     },
     {
-      "epoch": 2.576489533011272,
-      "eval_accuracy": 0.9453376205787781,
-      "eval_f1": 0.94523522766866,
-      "eval_loss": 0.1684405654668808,
-      "eval_precision": 0.951570696538466,
-      "eval_recall": 0.9453376205787781,
-      "eval_runtime": 5.7215,
-      "eval_samples_per_second": 108.712,
-      "eval_steps_per_second": 27.265,
       "step": 1600
     },
     {
-      "epoch": 2.898550724637681,
-      "grad_norm": 0.2801424562931061,
-      "learning_rate": 4.950116048011739e-06,
-      "loss": 0.1856,
       "step": 1800
     },
     {
-      "epoch": 2.898550724637681,
-      "eval_accuracy": 0.9726688102893891,
-      "eval_f1": 0.9726543269299354,
-      "eval_loss": 0.0953439399600029,
-      "eval_precision": 0.9736809257583791,
-      "eval_recall": 0.9726688102893891,
-      "eval_runtime": 5.7237,
-      "eval_samples_per_second": 108.672,
-      "eval_steps_per_second": 27.255,
       "step": 1800
     },
     {
-      "epoch": 3.2206119162640903,
-      "grad_norm": 0.754078209400177,
-      "learning_rate": 4.862254033772164e-06,
-      "loss": 0.1113,
       "step": 2000
     },
     {
-      "epoch": 3.2206119162640903,
-      "eval_accuracy": 0.9823151125401929,
-      "eval_f1": 0.9823107313578804,
-      "eval_loss": 0.05166807398200035,
-      "eval_precision": 0.9823692945184218,
-      "eval_recall": 0.9823151125401929,
-      "eval_runtime": 5.6315,
-      "eval_samples_per_second": 110.451,
-      "eval_steps_per_second": 27.702,
       "step": 2000
     },
     {
-      "epoch": 3.542673107890499,
-      "grad_norm": 0.2094874083995819,
-      "learning_rate": 4.7324160849755856e-06,
-      "loss": 0.0492,
       "step": 2200
     },
     {
-      "epoch": 3.542673107890499,
-      "eval_accuracy": 0.9855305466237942,
-      "eval_f1": 0.9855078289074475,
-      "eval_loss": 0.04900892823934555,
-      "eval_precision": 0.9855788271208662,
-      "eval_recall": 0.9855305466237942,
-      "eval_runtime": 5.7859,
-      "eval_samples_per_second": 107.503,
-      "eval_steps_per_second": 26.962,
       "step": 2200
     },
     {
-      "epoch": 3.864734299516908,
-      "grad_norm": 0.26868194341659546,
-      "learning_rate": 4.562909349440899e-06,
-      "loss": 0.0584,
       "step": 2400
     },
     {
-      "epoch": 3.864734299516908,
-      "eval_accuracy": 0.9855305466237942,
-      "eval_f1": 0.9855183714453405,
-      "eval_loss": 0.03780783340334892,
-      "eval_precision": 0.9856657355462896,
-      "eval_recall": 0.9855305466237942,
-      "eval_runtime": 5.7375,
-      "eval_samples_per_second": 108.409,
-      "eval_steps_per_second": 27.189,
       "step": 2400
     }
   ],
   "logging_steps": 200,
-  "max_steps": 6210,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 200,
@@ -263,7 +263,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 383614021649664.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.02599843218922615,
+  "best_model_checkpoint": "./results4/checkpoint-2400",
+  "epoch": 4.4036697247706424,
   "eval_steps": 200,
   "global_step": 2400,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.3669724770642202,
+      "grad_norm": 6.81126594543457,
       "learning_rate": 6.666666666666667e-07,
+      "loss": 1.8154,
       "step": 200
     },
     {
+      "epoch": 0.3669724770642202,
+      "eval_accuracy": 0.12834224598930483,
+      "eval_f1": 0.053512789620671505,
+      "eval_loss": 1.8153961896896362,
+      "eval_precision": 0.03873999770058728,
+      "eval_recall": 0.12834224598930483,
+      "eval_runtime": 8.8051,
+      "eval_samples_per_second": 106.189,
+      "eval_steps_per_second": 26.576,
       "step": 200
     },
     {
+      "epoch": 0.7339449541284404,
+      "grad_norm": 9.484223365783691,
       "learning_rate": 1.3333333333333334e-06,
+      "loss": 1.7996,
       "step": 400
     },
     {
+      "epoch": 0.7339449541284404,
+      "eval_accuracy": 0.20962566844919786,
+      "eval_f1": 0.1699240887979582,
+      "eval_loss": 1.776768684387207,
+      "eval_precision": 0.2712506960219069,
+      "eval_recall": 0.20962566844919786,
+      "eval_runtime": 8.617,
+      "eval_samples_per_second": 108.506,
+      "eval_steps_per_second": 27.155,
       "step": 400
     },
     {
+      "epoch": 1.1009174311926606,
+      "grad_norm": 8.83604621887207,
       "learning_rate": 2.0000000000000003e-06,
+      "loss": 1.7653,
       "step": 600
     },
     {
+      "epoch": 1.1009174311926606,
+      "eval_accuracy": 0.35508021390374334,
+      "eval_f1": 0.34776363638784535,
+      "eval_loss": 1.7193909883499146,
+      "eval_precision": 0.5237977574987844,
+      "eval_recall": 0.35508021390374334,
+      "eval_runtime": 8.8621,
+      "eval_samples_per_second": 105.506,
+      "eval_steps_per_second": 26.405,
       "step": 600
     },
     {
+      "epoch": 1.4678899082568808,
+      "grad_norm": 12.071432113647461,
       "learning_rate": 2.666666666666667e-06,
+      "loss": 1.7051,
       "step": 800
     },
     {
+      "epoch": 1.4678899082568808,
+      "eval_accuracy": 0.5401069518716578,
+      "eval_f1": 0.5429174295461449,
+      "eval_loss": 1.6069858074188232,
+      "eval_precision": 0.6148066517946612,
+      "eval_recall": 0.5401069518716578,
+      "eval_runtime": 8.6363,
+      "eval_samples_per_second": 108.263,
+      "eval_steps_per_second": 27.095,
       "step": 800
     },
     {
+      "epoch": 1.834862385321101,
+      "grad_norm": 8.39781379699707,
       "learning_rate": 3.3333333333333333e-06,
+      "loss": 1.561,
       "step": 1000
     },
     {
+      "epoch": 1.834862385321101,
+      "eval_accuracy": 0.6181818181818182,
+      "eval_f1": 0.599751774424811,
+      "eval_loss": 1.3523486852645874,
+      "eval_precision": 0.6869881919032953,
+      "eval_recall": 0.6181818181818182,
+      "eval_runtime": 8.7123,
+      "eval_samples_per_second": 107.32,
+      "eval_steps_per_second": 26.859,
       "step": 1000
     },
     {
+      "epoch": 2.2018348623853212,
+      "grad_norm": 7.149374008178711,
       "learning_rate": 4.000000000000001e-06,
+      "loss": 1.2159,
       "step": 1200
     },
     {
+      "epoch": 2.2018348623853212,
+      "eval_accuracy": 0.7561497326203208,
+      "eval_f1": 0.7396853774240922,
+      "eval_loss": 0.8623968958854675,
+      "eval_precision": 0.7976461918397214,
+      "eval_recall": 0.7561497326203208,
+      "eval_runtime": 8.4876,
+      "eval_samples_per_second": 110.161,
+      "eval_steps_per_second": 27.57,
       "step": 1200
     },
     {
+      "epoch": 2.5688073394495414,
+      "grad_norm": 12.584464073181152,
       "learning_rate": 4.666666666666667e-06,
+      "loss": 0.7501,
       "step": 1400
     },
     {
+      "epoch": 2.5688073394495414,
+      "eval_accuracy": 0.8909090909090909,
+      "eval_f1": 0.8893217599642673,
+      "eval_loss": 0.43212181329727173,
+      "eval_precision": 0.8944228004598542,
+      "eval_recall": 0.8909090909090909,
+      "eval_runtime": 8.5383,
+      "eval_samples_per_second": 109.507,
+      "eval_steps_per_second": 27.406,
       "step": 1400
     },
     {
+      "epoch": 2.9357798165137616,
+      "grad_norm": 6.3582305908203125,
+      "learning_rate": 4.99209709753674e-06,
+      "loss": 0.4346,
       "step": 1600
     },
     {
+      "epoch": 2.9357798165137616,
+      "eval_accuracy": 0.9401069518716577,
+      "eval_f1": 0.939586410891439,
+      "eval_loss": 0.20562343299388885,
+      "eval_precision": 0.942115798236324,
+      "eval_recall": 0.9401069518716577,
+      "eval_runtime": 8.5478,
+      "eval_samples_per_second": 109.384,
+      "eval_steps_per_second": 27.375,
       "step": 1600
     },
     {
+      "epoch": 3.302752293577982,
+      "grad_norm": 1.9859445095062256,
+      "learning_rate": 4.929173350101025e-06,
+      "loss": 0.1985,
       "step": 1800
     },
     {
+      "epoch": 3.302752293577982,
+      "eval_accuracy": 0.9796791443850268,
+      "eval_f1": 0.9795557753030716,
+      "eval_loss": 0.07811883836984634,
+      "eval_precision": 0.9796698126299838,
+      "eval_recall": 0.9796791443850268,
+      "eval_runtime": 8.5151,
+      "eval_samples_per_second": 109.804,
+      "eval_steps_per_second": 27.48,
       "step": 1800
     },
     {
+      "epoch": 3.669724770642202,
+      "grad_norm": 3.169071912765503,
+      "learning_rate": 4.804914636820517e-06,
+      "loss": 0.1066,
       "step": 2000
     },
     {
+      "epoch": 3.669724770642202,
+      "eval_accuracy": 0.9828877005347594,
+      "eval_f1": 0.9828341396664676,
+      "eval_loss": 0.05222497880458832,
+      "eval_precision": 0.9829524348459922,
+      "eval_recall": 0.9828877005347594,
+      "eval_runtime": 8.3944,
+      "eval_samples_per_second": 111.384,
+      "eval_steps_per_second": 27.876,
       "step": 2000
     },
     {
+      "epoch": 4.036697247706422,
+      "grad_norm": 0.22888700664043427,
+      "learning_rate": 4.622458405228411e-06,
+      "loss": 0.096,
       "step": 2200
     },
     {
+      "epoch": 4.036697247706422,
+      "eval_accuracy": 0.986096256684492,
+      "eval_f1": 0.9860397886588865,
+      "eval_loss": 0.037959374487400055,
+      "eval_precision": 0.9862011528885352,
+      "eval_recall": 0.986096256684492,
+      "eval_runtime": 8.8571,
+      "eval_samples_per_second": 105.565,
+      "eval_steps_per_second": 26.42,
       "step": 2200
     },
     {
+      "epoch": 4.4036697247706424,
+      "grad_norm": 0.051910221576690674,
+      "learning_rate": 4.386411550395576e-06,
+      "loss": 0.0686,
       "step": 2400
     },
     {
+      "epoch": 4.4036697247706424,
+      "eval_accuracy": 0.9925133689839573,
+      "eval_f1": 0.9925048378298892,
+      "eval_loss": 0.02599843218922615,
+      "eval_precision": 0.9925302733753678,
+      "eval_recall": 0.9925133689839573,
+      "eval_runtime": 8.5262,
+      "eval_samples_per_second": 109.661,
+      "eval_steps_per_second": 27.445,
       "step": 2400
     }
   ],
   "logging_steps": 200,
+  "max_steps": 5450,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 200,
       "attributes": {}
     }
   },
+  "total_flos": 396630381488796.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c065fc0c8ef5911d83c5bd37ed6bf30478028d63d9361ae1826f528ca5cf4aa
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:6482c450a26310e15748f04ef9bf209e56d116e1fe95bfaea393554505069a88
 size 5304