Training in progress, step 475, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +290 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f29bece7f5d3a6d7983929b36fdd27d718d95657f793d9d5e6f3cfa88297f85
 size 100198584

 version https://git-lfs.github.com/spec/v1
+oid sha256:a76ebf58b46d7d773c0e60f3c3b3202c39175dc82e54c189f3267d0947c4a8ff
 size 100198584

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:afc3e3ee70cf903c1796f57d4e5235a441242375ef1f9a858eae3e8d05f28343
 size 50675604

 version https://git-lfs.github.com/spec/v1
+oid sha256:62b4cdbdbd72fca14cbd95d40faf9abb8a8ecb3ba4993c400be6e7b437b4b824
 size 50675604

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4088348bc24d9e4ac19382802a5af616a59820aa6b3e226460dd20d33eb18c94
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b050456dfa3d81625079076f253a2e5a55a9198ab0c9ed74cbb8cd2fe6a1e442
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6340973427084284,
   "eval_steps": 500,
-  "global_step": 434,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3045,6 +3045,293 @@
       "learning_rate": 8.56164383561644e-06,
       "loss": 1.1743,
       "step": 434
     }
   ],
   "logging_steps": 1,
@@ -3064,7 +3351,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.8957186703303066e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6940005478951694,
   "eval_steps": 500,
+  "global_step": 475,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 8.56164383561644e-06,
       "loss": 1.1743,
       "step": 434
+    },
+    {
+      "epoch": 0.6355583964934709,
+      "grad_norm": 0.1085817888379097,
+      "learning_rate": 8.527397260273972e-06,
+      "loss": 1.2021,
+      "step": 435
+    },
+    {
+      "epoch": 0.6370194502785134,
+      "grad_norm": 0.10217051953077316,
+      "learning_rate": 8.493150684931507e-06,
+      "loss": 1.1815,
+      "step": 436
+    },
+    {
+      "epoch": 0.6384805040635558,
+      "grad_norm": 0.11223044246435165,
+      "learning_rate": 8.458904109589042e-06,
+      "loss": 1.1238,
+      "step": 437
+    },
+    {
+      "epoch": 0.6399415578485983,
+      "grad_norm": 0.10959354788064957,
+      "learning_rate": 8.424657534246577e-06,
+      "loss": 1.116,
+      "step": 438
+    },
+    {
+      "epoch": 0.6414026116336408,
+      "grad_norm": 0.12990103662014008,
+      "learning_rate": 8.39041095890411e-06,
+      "loss": 1.1134,
+      "step": 439
+    },
+    {
+      "epoch": 0.6428636654186832,
+      "grad_norm": 0.11417476832866669,
+      "learning_rate": 8.356164383561644e-06,
+      "loss": 1.2019,
+      "step": 440
+    },
+    {
+      "epoch": 0.6443247192037257,
+      "grad_norm": 0.10849736630916595,
+      "learning_rate": 8.32191780821918e-06,
+      "loss": 1.1575,
+      "step": 441
+    },
+    {
+      "epoch": 0.6457857729887682,
+      "grad_norm": 0.12259836494922638,
+      "learning_rate": 8.287671232876712e-06,
+      "loss": 1.1847,
+      "step": 442
+    },
+    {
+      "epoch": 0.6472468267738106,
+      "grad_norm": 0.11938966810703278,
+      "learning_rate": 8.253424657534247e-06,
+      "loss": 1.2109,
+      "step": 443
+    },
+    {
+      "epoch": 0.6487078805588531,
+      "grad_norm": 0.11072079837322235,
+      "learning_rate": 8.219178082191782e-06,
+      "loss": 1.1742,
+      "step": 444
+    },
+    {
+      "epoch": 0.6501689343438956,
+      "grad_norm": 0.10626699030399323,
+      "learning_rate": 8.184931506849316e-06,
+      "loss": 1.1866,
+      "step": 445
+    },
+    {
+      "epoch": 0.651629988128938,
+      "grad_norm": 0.109890878200531,
+      "learning_rate": 8.150684931506851e-06,
+      "loss": 1.1477,
+      "step": 446
+    },
+    {
+      "epoch": 0.6530910419139805,
+      "grad_norm": 0.11042490601539612,
+      "learning_rate": 8.116438356164384e-06,
+      "loss": 1.2544,
+      "step": 447
+    },
+    {
+      "epoch": 0.654552095699023,
+      "grad_norm": 0.11169801652431488,
+      "learning_rate": 8.082191780821919e-06,
+      "loss": 1.1274,
+      "step": 448
+    },
+    {
+      "epoch": 0.6560131494840654,
+      "grad_norm": 0.10873094201087952,
+      "learning_rate": 8.047945205479452e-06,
+      "loss": 1.1965,
+      "step": 449
+    },
+    {
+      "epoch": 0.6574742032691079,
+      "grad_norm": 0.11143123358488083,
+      "learning_rate": 8.013698630136987e-06,
+      "loss": 1.1708,
+      "step": 450
+    },
+    {
+      "epoch": 0.6589352570541503,
+      "grad_norm": 0.12092313915491104,
+      "learning_rate": 7.979452054794521e-06,
+      "loss": 1.2115,
+      "step": 451
+    },
+    {
+      "epoch": 0.6603963108391928,
+      "grad_norm": 0.1247633770108223,
+      "learning_rate": 7.945205479452055e-06,
+      "loss": 1.1683,
+      "step": 452
+    },
+    {
+      "epoch": 0.6618573646242353,
+      "grad_norm": 0.11757193505764008,
+      "learning_rate": 7.910958904109591e-06,
+      "loss": 1.187,
+      "step": 453
+    },
+    {
+      "epoch": 0.6633184184092777,
+      "grad_norm": 0.10670476406812668,
+      "learning_rate": 7.876712328767124e-06,
+      "loss": 1.0998,
+      "step": 454
+    },
+    {
+      "epoch": 0.6647794721943201,
+      "grad_norm": 0.11120694130659103,
+      "learning_rate": 7.842465753424659e-06,
+      "loss": 1.1952,
+      "step": 455
+    },
+    {
+      "epoch": 0.6662405259793626,
+      "grad_norm": 0.10676517337560654,
+      "learning_rate": 7.808219178082192e-06,
+      "loss": 1.1609,
+      "step": 456
+    },
+    {
+      "epoch": 0.667701579764405,
+      "grad_norm": 0.10845296084880829,
+      "learning_rate": 7.773972602739727e-06,
+      "loss": 1.1445,
+      "step": 457
+    },
+    {
+      "epoch": 0.6691626335494475,
+      "grad_norm": 0.1130744218826294,
+      "learning_rate": 7.739726027397261e-06,
+      "loss": 1.2327,
+      "step": 458
+    },
+    {
+      "epoch": 0.67062368733449,
+      "grad_norm": 0.12214113771915436,
+      "learning_rate": 7.705479452054794e-06,
+      "loss": 1.2415,
+      "step": 459
+    },
+    {
+      "epoch": 0.6720847411195324,
+      "grad_norm": 0.10830514878034592,
+      "learning_rate": 7.671232876712329e-06,
+      "loss": 1.2456,
+      "step": 460
+    },
+    {
+      "epoch": 0.6735457949045749,
+      "grad_norm": 0.11725237220525742,
+      "learning_rate": 7.636986301369864e-06,
+      "loss": 1.1838,
+      "step": 461
+    },
+    {
+      "epoch": 0.6750068486896174,
+      "grad_norm": 0.12461910396814346,
+      "learning_rate": 7.6027397260273985e-06,
+      "loss": 1.1989,
+      "step": 462
+    },
+    {
+      "epoch": 0.6764679024746598,
+      "grad_norm": 0.11189593374729156,
+      "learning_rate": 7.568493150684932e-06,
+      "loss": 1.1218,
+      "step": 463
+    },
+    {
+      "epoch": 0.6779289562597023,
+      "grad_norm": 0.1076999306678772,
+      "learning_rate": 7.534246575342466e-06,
+      "loss": 1.125,
+      "step": 464
+    },
+    {
+      "epoch": 0.6793900100447448,
+      "grad_norm": 0.13751359283924103,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 1.1334,
+      "step": 465
+    },
+    {
+      "epoch": 0.6808510638297872,
+      "grad_norm": 0.11828191578388214,
+      "learning_rate": 7.465753424657535e-06,
+      "loss": 1.2438,
+      "step": 466
+    },
+    {
+      "epoch": 0.6823121176148297,
+      "grad_norm": 0.11072523146867752,
+      "learning_rate": 7.431506849315069e-06,
+      "loss": 1.2299,
+      "step": 467
+    },
+    {
+      "epoch": 0.6837731713998721,
+      "grad_norm": 0.1260717362165451,
+      "learning_rate": 7.397260273972603e-06,
+      "loss": 1.2204,
+      "step": 468
+    },
+    {
+      "epoch": 0.6852342251849146,
+      "grad_norm": 0.11779427528381348,
+      "learning_rate": 7.3630136986301374e-06,
+      "loss": 1.1887,
+      "step": 469
+    },
+    {
+      "epoch": 0.6866952789699571,
+      "grad_norm": 0.11070991307497025,
+      "learning_rate": 7.328767123287672e-06,
+      "loss": 1.2137,
+      "step": 470
+    },
+    {
+      "epoch": 0.6881563327549995,
+      "grad_norm": 0.11925278604030609,
+      "learning_rate": 7.294520547945206e-06,
+      "loss": 1.1415,
+      "step": 471
+    },
+    {
+      "epoch": 0.689617386540042,
+      "grad_norm": 0.11368401348590851,
+      "learning_rate": 7.260273972602741e-06,
+      "loss": 1.2588,
+      "step": 472
+    },
+    {
+      "epoch": 0.6910784403250845,
+      "grad_norm": 0.11111228913068771,
+      "learning_rate": 7.226027397260275e-06,
+      "loss": 1.148,
+      "step": 473
+    },
+    {
+      "epoch": 0.6925394941101269,
+      "grad_norm": 0.12571550905704498,
+      "learning_rate": 7.191780821917809e-06,
+      "loss": 1.167,
+      "step": 474
+    },
+    {
+      "epoch": 0.6940005478951694,
+      "grad_norm": 0.11622565984725952,
+      "learning_rate": 7.1575342465753425e-06,
+      "loss": 1.2028,
+      "step": 475
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.357403510693028e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null