Training in progress, step 911, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +172 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:82d8bacab76dbcf5eb4f92f5f82c3e20484571fea802ab9933f74589a3eabfb9
 size 100198584

 version https://git-lfs.github.com/spec/v1
+oid sha256:77c90016a866284a2715dd96997296bc544f7f98889e7c3a425100f87afad0cf
 size 100198584

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:494168482585a7bfcbfbcc705c8748da82c9e8a80556079a12a6d8916e7a8125
 size 50675604

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4a7bafef733afd7ab58bb79bbd7b589528548bcb6cb645b64505a525cc544ab
 size 50675604

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b85a44ab20a866b548a1f13ff0bee3fdd4760db12bf889cf65646cf2995e841c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:04e2e9566872b589840ca5036c48f962e578ce55c36abdd70f84617113393bbb
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9733882030178327,
   "eval_steps": 500,
-  "global_step": 887,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6216,6 +6216,174 @@
       "learning_rate": 5.91861898890259e-07,
       "loss": 1.1123,
       "step": 887
     }
   ],
   "logging_steps": 1,
@@ -6230,12 +6398,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 9.202552775203185e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9997256515775035,
   "eval_steps": 500,
+  "global_step": 911,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.91861898890259e-07,
       "loss": 1.1123,
       "step": 887
+    },
+    {
+      "epoch": 0.974485596707819,
+      "grad_norm": 0.13672898709774017,
+      "learning_rate": 5.672009864364982e-07,
+      "loss": 1.1418,
+      "step": 888
+    },
+    {
+      "epoch": 0.9755829903978052,
+      "grad_norm": 0.14941120147705078,
+      "learning_rate": 5.425400739827374e-07,
+      "loss": 1.1893,
+      "step": 889
+    },
+    {
+      "epoch": 0.9766803840877915,
+      "grad_norm": 0.13195830583572388,
+      "learning_rate": 5.178791615289766e-07,
+      "loss": 1.1235,
+      "step": 890
+    },
+    {
+      "epoch": 0.9777777777777777,
+      "grad_norm": 0.13043729960918427,
+      "learning_rate": 4.932182490752158e-07,
+      "loss": 1.1237,
+      "step": 891
+    },
+    {
+      "epoch": 0.978875171467764,
+      "grad_norm": 0.1450997292995453,
+      "learning_rate": 4.6855733662145503e-07,
+      "loss": 1.1434,
+      "step": 892
+    },
+    {
+      "epoch": 0.9799725651577503,
+      "grad_norm": 0.12888318300247192,
+      "learning_rate": 4.438964241676942e-07,
+      "loss": 1.1535,
+      "step": 893
+    },
+    {
+      "epoch": 0.9810699588477366,
+      "grad_norm": 0.1358352154493332,
+      "learning_rate": 4.1923551171393343e-07,
+      "loss": 1.0979,
+      "step": 894
+    },
+    {
+      "epoch": 0.9821673525377229,
+      "grad_norm": 0.1400756686925888,
+      "learning_rate": 3.9457459926017265e-07,
+      "loss": 1.0588,
+      "step": 895
+    },
+    {
+      "epoch": 0.9832647462277092,
+      "grad_norm": 0.1559644639492035,
+      "learning_rate": 3.699136868064119e-07,
+      "loss": 1.137,
+      "step": 896
+    },
+    {
+      "epoch": 0.9843621399176955,
+      "grad_norm": 0.13535606861114502,
+      "learning_rate": 3.4525277435265105e-07,
+      "loss": 1.1953,
+      "step": 897
+    },
+    {
+      "epoch": 0.9854595336076818,
+      "grad_norm": 0.1321636438369751,
+      "learning_rate": 3.205918618988903e-07,
+      "loss": 1.0905,
+      "step": 898
+    },
+    {
+      "epoch": 0.9865569272976681,
+      "grad_norm": 0.14353665709495544,
+      "learning_rate": 2.959309494451295e-07,
+      "loss": 1.126,
+      "step": 899
+    },
+    {
+      "epoch": 0.9876543209876543,
+      "grad_norm": 0.1350976675748825,
+      "learning_rate": 2.712700369913687e-07,
+      "loss": 1.1387,
+      "step": 900
+    },
+    {
+      "epoch": 0.9887517146776406,
+      "grad_norm": 0.13206009566783905,
+      "learning_rate": 2.466091245376079e-07,
+      "loss": 1.0879,
+      "step": 901
+    },
+    {
+      "epoch": 0.9898491083676269,
+      "grad_norm": 0.13680791854858398,
+      "learning_rate": 2.219482120838471e-07,
+      "loss": 1.1285,
+      "step": 902
+    },
+    {
+      "epoch": 0.9909465020576131,
+      "grad_norm": 0.17720668017864227,
+      "learning_rate": 1.9728729963008633e-07,
+      "loss": 1.0461,
+      "step": 903
+    },
+    {
+      "epoch": 0.9920438957475994,
+      "grad_norm": 0.14731575548648834,
+      "learning_rate": 1.7262638717632553e-07,
+      "loss": 1.0347,
+      "step": 904
+    },
+    {
+      "epoch": 0.9931412894375857,
+      "grad_norm": 0.14285138249397278,
+      "learning_rate": 1.4796547472256475e-07,
+      "loss": 1.0603,
+      "step": 905
+    },
+    {
+      "epoch": 0.994238683127572,
+      "grad_norm": 0.1308155655860901,
+      "learning_rate": 1.2330456226880395e-07,
+      "loss": 1.101,
+      "step": 906
+    },
+    {
+      "epoch": 0.9953360768175583,
+      "grad_norm": 0.1355922371149063,
+      "learning_rate": 9.864364981504316e-08,
+      "loss": 1.2046,
+      "step": 907
+    },
+    {
+      "epoch": 0.9964334705075446,
+      "grad_norm": 0.13389693200588226,
+      "learning_rate": 7.398273736128238e-08,
+      "loss": 1.1953,
+      "step": 908
+    },
+    {
+      "epoch": 0.9975308641975309,
+      "grad_norm": 0.1277182251214981,
+      "learning_rate": 4.932182490752158e-08,
+      "loss": 1.1153,
+      "step": 909
+    },
+    {
+      "epoch": 0.9986282578875172,
+      "grad_norm": 0.1549104005098343,
+      "learning_rate": 2.466091245376079e-08,
+      "loss": 1.0726,
+      "step": 910
+    },
+    {
+      "epoch": 0.9997256515775035,
+      "grad_norm": 0.1443055421113968,
+      "learning_rate": 0.0,
+      "loss": 1.1051,
+      "step": 911
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 9.455125939404595e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null