Training in progress, step 428, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +304 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:636cede6b3e50ff1861e2dc1273f6134e7156308fc6d82d873c1502b6d314e41
 size 100198584

 version https://git-lfs.github.com/spec/v1
+oid sha256:76fd31fb9f62306330a62d03ac774b78f6f28c2f740c1c11d27cc0b459d180f7
 size 100198584

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd537c19ebae2b08dbd0494d960639a61ecf609956482e67a546d6c169289698
 size 50675604

 version https://git-lfs.github.com/spec/v1
+oid sha256:a32e133fd2812edc1c5dce1be27b5a46fee4bd8f173f66ca7b3afda005973393
 size 50675604

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2475b14d80337b5e82132cfdcc36b578188577f583a180c04ac0c29d7bf259cc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e4d88d6aa0cf77e00d03223bf672dc6270466833d08ef64560b03a03290bd1e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5625057072413479,
   "eval_steps": 500,
-  "global_step": 385,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2702,6 +2702,307 @@
       "learning_rate": 1.0239726027397261e-05,
       "loss": 1.2105,
       "step": 385
     }
   ],
   "logging_steps": 1,
@@ -2721,7 +3022,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.340642918557778e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6253310199981736,
   "eval_steps": 500,
+  "global_step": 428,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.0239726027397261e-05,
       "loss": 1.2105,
       "step": 385
+    },
+    {
+      "epoch": 0.5639667610263903,
+      "grad_norm": 0.10605639219284058,
+      "learning_rate": 1.0205479452054796e-05,
+      "loss": 1.232,
+      "step": 386
+    },
+    {
+      "epoch": 0.5654278148114328,
+      "grad_norm": 0.10501563549041748,
+      "learning_rate": 1.0171232876712329e-05,
+      "loss": 1.3193,
+      "step": 387
+    },
+    {
+      "epoch": 0.5668888685964752,
+      "grad_norm": 0.1139717772603035,
+      "learning_rate": 1.0136986301369864e-05,
+      "loss": 1.1178,
+      "step": 388
+    },
+    {
+      "epoch": 0.5683499223815177,
+      "grad_norm": 0.10598957538604736,
+      "learning_rate": 1.0102739726027397e-05,
+      "loss": 1.2438,
+      "step": 389
+    },
+    {
+      "epoch": 0.5698109761665602,
+      "grad_norm": 0.10228073596954346,
+      "learning_rate": 1.0068493150684933e-05,
+      "loss": 1.2064,
+      "step": 390
+    },
+    {
+      "epoch": 0.5712720299516026,
+      "grad_norm": 0.10198397189378738,
+      "learning_rate": 1.0034246575342466e-05,
+      "loss": 1.2535,
+      "step": 391
+    },
+    {
+      "epoch": 0.5727330837366451,
+      "grad_norm": 0.12202975898981094,
+      "learning_rate": 1e-05,
+      "loss": 1.1619,
+      "step": 392
+    },
+    {
+      "epoch": 0.5741941375216875,
+      "grad_norm": 0.11935204267501831,
+      "learning_rate": 9.965753424657536e-06,
+      "loss": 1.2056,
+      "step": 393
+    },
+    {
+      "epoch": 0.5756551913067299,
+      "grad_norm": 0.10678353160619736,
+      "learning_rate": 9.931506849315069e-06,
+      "loss": 1.2223,
+      "step": 394
+    },
+    {
+      "epoch": 0.5771162450917724,
+      "grad_norm": 0.10997404158115387,
+      "learning_rate": 9.897260273972603e-06,
+      "loss": 1.2401,
+      "step": 395
+    },
+    {
+      "epoch": 0.5785772988768149,
+      "grad_norm": 0.11465183645486832,
+      "learning_rate": 9.863013698630138e-06,
+      "loss": 1.2073,
+      "step": 396
+    },
+    {
+      "epoch": 0.5800383526618573,
+      "grad_norm": 0.13768929243087769,
+      "learning_rate": 9.828767123287673e-06,
+      "loss": 1.1872,
+      "step": 397
+    },
+    {
+      "epoch": 0.5814994064468998,
+      "grad_norm": 0.12065139412879944,
+      "learning_rate": 9.794520547945206e-06,
+      "loss": 1.2145,
+      "step": 398
+    },
+    {
+      "epoch": 0.5829604602319423,
+      "grad_norm": 0.10538379102945328,
+      "learning_rate": 9.76027397260274e-06,
+      "loss": 1.217,
+      "step": 399
+    },
+    {
+      "epoch": 0.5844215140169847,
+      "grad_norm": 0.09868345409631729,
+      "learning_rate": 9.726027397260275e-06,
+      "loss": 1.255,
+      "step": 400
+    },
+    {
+      "epoch": 0.5858825678020272,
+      "grad_norm": 0.10661034286022186,
+      "learning_rate": 9.691780821917808e-06,
+      "loss": 1.1742,
+      "step": 401
+    },
+    {
+      "epoch": 0.5873436215870697,
+      "grad_norm": 0.11624684184789658,
+      "learning_rate": 9.657534246575343e-06,
+      "loss": 1.1662,
+      "step": 402
+    },
+    {
+      "epoch": 0.5888046753721121,
+      "grad_norm": 0.11101629585027695,
+      "learning_rate": 9.623287671232878e-06,
+      "loss": 1.218,
+      "step": 403
+    },
+    {
+      "epoch": 0.5902657291571546,
+      "grad_norm": 0.13213178515434265,
+      "learning_rate": 9.589041095890411e-06,
+      "loss": 1.133,
+      "step": 404
+    },
+    {
+      "epoch": 0.591726782942197,
+      "grad_norm": 0.11517394334077835,
+      "learning_rate": 9.554794520547946e-06,
+      "loss": 1.1966,
+      "step": 405
+    },
+    {
+      "epoch": 0.5931878367272395,
+      "grad_norm": 0.10408038645982742,
+      "learning_rate": 9.52054794520548e-06,
+      "loss": 1.1859,
+      "step": 406
+    },
+    {
+      "epoch": 0.594648890512282,
+      "grad_norm": 0.1159515306353569,
+      "learning_rate": 9.486301369863015e-06,
+      "loss": 1.2286,
+      "step": 407
+    },
+    {
+      "epoch": 0.5961099442973244,
+      "grad_norm": 0.11420222371816635,
+      "learning_rate": 9.452054794520548e-06,
+      "loss": 1.0952,
+      "step": 408
+    },
+    {
+      "epoch": 0.5975709980823669,
+      "grad_norm": 0.11413077265024185,
+      "learning_rate": 9.417808219178083e-06,
+      "loss": 1.2159,
+      "step": 409
+    },
+    {
+      "epoch": 0.5990320518674094,
+      "grad_norm": 0.12136485427618027,
+      "learning_rate": 9.383561643835618e-06,
+      "loss": 1.2166,
+      "step": 410
+    },
+    {
+      "epoch": 0.6004931056524518,
+      "grad_norm": 0.12264648824930191,
+      "learning_rate": 9.34931506849315e-06,
+      "loss": 1.1057,
+      "step": 411
+    },
+    {
+      "epoch": 0.6019541594374943,
+      "grad_norm": 0.10724509507417679,
+      "learning_rate": 9.315068493150685e-06,
+      "loss": 1.1633,
+      "step": 412
+    },
+    {
+      "epoch": 0.6034152132225368,
+      "grad_norm": 0.11786479502916336,
+      "learning_rate": 9.28082191780822e-06,
+      "loss": 1.1942,
+      "step": 413
+    },
+    {
+      "epoch": 0.6048762670075792,
+      "grad_norm": 0.10697019845247269,
+      "learning_rate": 9.246575342465755e-06,
+      "loss": 1.265,
+      "step": 414
+    },
+    {
+      "epoch": 0.6063373207926217,
+      "grad_norm": 0.11874634027481079,
+      "learning_rate": 9.212328767123288e-06,
+      "loss": 1.2373,
+      "step": 415
+    },
+    {
+      "epoch": 0.6077983745776642,
+      "grad_norm": 0.11465580761432648,
+      "learning_rate": 9.178082191780823e-06,
+      "loss": 1.1977,
+      "step": 416
+    },
+    {
+      "epoch": 0.6092594283627066,
+      "grad_norm": 0.11860576272010803,
+      "learning_rate": 9.143835616438357e-06,
+      "loss": 1.1474,
+      "step": 417
+    },
+    {
+      "epoch": 0.6107204821477491,
+      "grad_norm": 0.11340127140283585,
+      "learning_rate": 9.10958904109589e-06,
+      "loss": 1.219,
+      "step": 418
+    },
+    {
+      "epoch": 0.6121815359327916,
+      "grad_norm": 0.1260974407196045,
+      "learning_rate": 9.075342465753425e-06,
+      "loss": 1.1837,
+      "step": 419
+    },
+    {
+      "epoch": 0.613642589717834,
+      "grad_norm": 0.1299670934677124,
+      "learning_rate": 9.04109589041096e-06,
+      "loss": 1.0615,
+      "step": 420
+    },
+    {
+      "epoch": 0.6151036435028765,
+      "grad_norm": 0.10845065861940384,
+      "learning_rate": 9.006849315068495e-06,
+      "loss": 1.2173,
+      "step": 421
+    },
+    {
+      "epoch": 0.616564697287919,
+      "grad_norm": 0.10730204731225967,
+      "learning_rate": 8.972602739726028e-06,
+      "loss": 1.1314,
+      "step": 422
+    },
+    {
+      "epoch": 0.6180257510729614,
+      "grad_norm": 0.10890056192874908,
+      "learning_rate": 8.938356164383562e-06,
+      "loss": 1.2128,
+      "step": 423
+    },
+    {
+      "epoch": 0.6194868048580038,
+      "grad_norm": 0.11053816974163055,
+      "learning_rate": 8.904109589041097e-06,
+      "loss": 1.2554,
+      "step": 424
+    },
+    {
+      "epoch": 0.6209478586430462,
+      "grad_norm": 0.1105181872844696,
+      "learning_rate": 8.86986301369863e-06,
+      "loss": 1.1943,
+      "step": 425
+    },
+    {
+      "epoch": 0.6224089124280887,
+      "grad_norm": 0.12110709398984909,
+      "learning_rate": 8.835616438356165e-06,
+      "loss": 1.2072,
+      "step": 426
+    },
+    {
+      "epoch": 0.6238699662131312,
+      "grad_norm": 0.12286946922540665,
+      "learning_rate": 8.8013698630137e-06,
+      "loss": 1.2465,
+      "step": 427
+    },
+    {
+      "epoch": 0.6253310199981736,
+      "grad_norm": 0.132927805185318,
+      "learning_rate": 8.767123287671233e-06,
+      "loss": 1.1644,
+      "step": 428
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.8293970753705984e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null