Training in progress, step 887, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +297 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0923d7bfb165730c707b55ab35122891f2a8c8498a25518cb635ec1300f51b9f
 size 100198584

 version https://git-lfs.github.com/spec/v1
+oid sha256:82d8bacab76dbcf5eb4f92f5f82c3e20484571fea802ab9933f74589a3eabfb9
 size 100198584

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f23e8371dab93885de610e41b8e11f52407dda019050862f44c6ec86c72cfbdd
 size 50675604

 version https://git-lfs.github.com/spec/v1
+oid sha256:494168482585a7bfcbfbcc705c8748da82c9e8a80556079a12a6d8916e7a8125
 size 50675604

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21bcc8423a151bd8ae79bf10c4b7ae042577b7dd124f39aad4cdf7d54610b8c3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b85a44ab20a866b548a1f13ff0bee3fdd4760db12bf889cf65646cf2995e841c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9272976680384087,
   "eval_steps": 500,
-  "global_step": 845,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5922,6 +5922,300 @@
       "learning_rate": 1.6276202219482124e-06,
       "loss": 1.0783,
       "step": 845
     }
   ],
   "logging_steps": 1,
@@ -5941,7 +6235,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.764600643521782e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9733882030178327,
   "eval_steps": 500,
+  "global_step": 887,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.6276202219482124e-06,
       "loss": 1.0783,
       "step": 845
+    },
+    {
+      "epoch": 0.928395061728395,
+      "grad_norm": 0.14913596212863922,
+      "learning_rate": 1.6029593094944515e-06,
+      "loss": 1.1579,
+      "step": 846
+    },
+    {
+      "epoch": 0.9294924554183813,
+      "grad_norm": 0.14216169714927673,
+      "learning_rate": 1.5782983970406906e-06,
+      "loss": 1.2532,
+      "step": 847
+    },
+    {
+      "epoch": 0.9305898491083676,
+      "grad_norm": 0.12944941222667694,
+      "learning_rate": 1.5536374845869297e-06,
+      "loss": 1.1187,
+      "step": 848
+    },
+    {
+      "epoch": 0.9316872427983539,
+      "grad_norm": 0.15228183567523956,
+      "learning_rate": 1.528976572133169e-06,
+      "loss": 1.0625,
+      "step": 849
+    },
+    {
+      "epoch": 0.9327846364883402,
+      "grad_norm": 0.1437804400920868,
+      "learning_rate": 1.5043156596794082e-06,
+      "loss": 1.0785,
+      "step": 850
+    },
+    {
+      "epoch": 0.9338820301783265,
+      "grad_norm": 0.13705220818519592,
+      "learning_rate": 1.4796547472256475e-06,
+      "loss": 1.1105,
+      "step": 851
+    },
+    {
+      "epoch": 0.9349794238683128,
+      "grad_norm": 0.13792921602725983,
+      "learning_rate": 1.4549938347718866e-06,
+      "loss": 1.0987,
+      "step": 852
+    },
+    {
+      "epoch": 0.9360768175582991,
+      "grad_norm": 0.12909933924674988,
+      "learning_rate": 1.430332922318126e-06,
+      "loss": 1.0932,
+      "step": 853
+    },
+    {
+      "epoch": 0.9371742112482854,
+      "grad_norm": 0.13667872548103333,
+      "learning_rate": 1.405672009864365e-06,
+      "loss": 1.1542,
+      "step": 854
+    },
+    {
+      "epoch": 0.9382716049382716,
+      "grad_norm": 0.13207869231700897,
+      "learning_rate": 1.3810110974106042e-06,
+      "loss": 1.1891,
+      "step": 855
+    },
+    {
+      "epoch": 0.9393689986282578,
+      "grad_norm": 0.12875591218471527,
+      "learning_rate": 1.3563501849568435e-06,
+      "loss": 1.0372,
+      "step": 856
+    },
+    {
+      "epoch": 0.9404663923182441,
+      "grad_norm": 0.12986066937446594,
+      "learning_rate": 1.3316892725030829e-06,
+      "loss": 1.1259,
+      "step": 857
+    },
+    {
+      "epoch": 0.9415637860082304,
+      "grad_norm": 0.13095685839653015,
+      "learning_rate": 1.307028360049322e-06,
+      "loss": 1.0452,
+      "step": 858
+    },
+    {
+      "epoch": 0.9426611796982167,
+      "grad_norm": 0.13577769696712494,
+      "learning_rate": 1.2823674475955611e-06,
+      "loss": 1.0942,
+      "step": 859
+    },
+    {
+      "epoch": 0.943758573388203,
+      "grad_norm": 0.136579230427742,
+      "learning_rate": 1.2577065351418002e-06,
+      "loss": 1.0996,
+      "step": 860
+    },
+    {
+      "epoch": 0.9448559670781893,
+      "grad_norm": 0.14068828523159027,
+      "learning_rate": 1.2330456226880396e-06,
+      "loss": 1.0527,
+      "step": 861
+    },
+    {
+      "epoch": 0.9459533607681756,
+      "grad_norm": 0.14738546311855316,
+      "learning_rate": 1.208384710234279e-06,
+      "loss": 1.126,
+      "step": 862
+    },
+    {
+      "epoch": 0.9470507544581619,
+      "grad_norm": 0.13700617849826813,
+      "learning_rate": 1.183723797780518e-06,
+      "loss": 1.1714,
+      "step": 863
+    },
+    {
+      "epoch": 0.9481481481481482,
+      "grad_norm": 0.13408678770065308,
+      "learning_rate": 1.1590628853267571e-06,
+      "loss": 1.1135,
+      "step": 864
+    },
+    {
+      "epoch": 0.9492455418381345,
+      "grad_norm": 0.1358562856912613,
+      "learning_rate": 1.1344019728729965e-06,
+      "loss": 1.0761,
+      "step": 865
+    },
+    {
+      "epoch": 0.9503429355281207,
+      "grad_norm": 0.15928462147712708,
+      "learning_rate": 1.1097410604192356e-06,
+      "loss": 1.0841,
+      "step": 866
+    },
+    {
+      "epoch": 0.951440329218107,
+      "grad_norm": 0.14678318798542023,
+      "learning_rate": 1.0850801479654747e-06,
+      "loss": 1.0772,
+      "step": 867
+    },
+    {
+      "epoch": 0.9525377229080932,
+      "grad_norm": 0.12827463448047638,
+      "learning_rate": 1.060419235511714e-06,
+      "loss": 1.1324,
+      "step": 868
+    },
+    {
+      "epoch": 0.9536351165980795,
+      "grad_norm": 0.14437751471996307,
+      "learning_rate": 1.0357583230579532e-06,
+      "loss": 1.2083,
+      "step": 869
+    },
+    {
+      "epoch": 0.9547325102880658,
+      "grad_norm": 0.14573253691196442,
+      "learning_rate": 1.0110974106041925e-06,
+      "loss": 1.0288,
+      "step": 870
+    },
+    {
+      "epoch": 0.9558299039780521,
+      "grad_norm": 0.148457869887352,
+      "learning_rate": 9.864364981504316e-07,
+      "loss": 1.1433,
+      "step": 871
+    },
+    {
+      "epoch": 0.9569272976680384,
+      "grad_norm": 0.1432981789112091,
+      "learning_rate": 9.617755856966707e-07,
+      "loss": 1.1222,
+      "step": 872
+    },
+    {
+      "epoch": 0.9580246913580247,
+      "grad_norm": 0.14053548872470856,
+      "learning_rate": 9.371146732429101e-07,
+      "loss": 1.1193,
+      "step": 873
+    },
+    {
+      "epoch": 0.959122085048011,
+      "grad_norm": 0.13648538291454315,
+      "learning_rate": 9.124537607891493e-07,
+      "loss": 1.1411,
+      "step": 874
+    },
+    {
+      "epoch": 0.9602194787379973,
+      "grad_norm": 0.15301236510276794,
+      "learning_rate": 8.877928483353884e-07,
+      "loss": 1.1395,
+      "step": 875
+    },
+    {
+      "epoch": 0.9613168724279836,
+      "grad_norm": 0.1504426896572113,
+      "learning_rate": 8.631319358816277e-07,
+      "loss": 1.1447,
+      "step": 876
+    },
+    {
+      "epoch": 0.9624142661179699,
+      "grad_norm": 0.15618982911109924,
+      "learning_rate": 8.384710234278669e-07,
+      "loss": 1.1235,
+      "step": 877
+    },
+    {
+      "epoch": 0.9635116598079561,
+      "grad_norm": 0.1426519900560379,
+      "learning_rate": 8.138101109741062e-07,
+      "loss": 1.1242,
+      "step": 878
+    },
+    {
+      "epoch": 0.9646090534979423,
+      "grad_norm": 0.1583835482597351,
+      "learning_rate": 7.891491985203453e-07,
+      "loss": 1.0598,
+      "step": 879
+    },
+    {
+      "epoch": 0.9657064471879286,
+      "grad_norm": 0.14297567307949066,
+      "learning_rate": 7.644882860665845e-07,
+      "loss": 1.0291,
+      "step": 880
+    },
+    {
+      "epoch": 0.9668038408779149,
+      "grad_norm": 0.14067769050598145,
+      "learning_rate": 7.398273736128238e-07,
+      "loss": 1.1746,
+      "step": 881
+    },
+    {
+      "epoch": 0.9679012345679012,
+      "grad_norm": 0.1404830813407898,
+      "learning_rate": 7.15166461159063e-07,
+      "loss": 1.1294,
+      "step": 882
+    },
+    {
+      "epoch": 0.9689986282578875,
+      "grad_norm": 0.1324174553155899,
+      "learning_rate": 6.905055487053021e-07,
+      "loss": 1.1089,
+      "step": 883
+    },
+    {
+      "epoch": 0.9700960219478738,
+      "grad_norm": 0.13488321006298065,
+      "learning_rate": 6.658446362515414e-07,
+      "loss": 1.1228,
+      "step": 884
+    },
+    {
+      "epoch": 0.9711934156378601,
+      "grad_norm": 0.13472045958042145,
+      "learning_rate": 6.411837237977806e-07,
+      "loss": 1.0933,
+      "step": 885
+    },
+    {
+      "epoch": 0.9722908093278464,
+      "grad_norm": 0.14468832314014435,
+      "learning_rate": 6.165228113440198e-07,
+      "loss": 1.0767,
+      "step": 886
+    },
+    {
+      "epoch": 0.9733882030178327,
+      "grad_norm": 0.13993267714977264,
+      "learning_rate": 5.91861898890259e-07,
+      "loss": 1.1123,
+      "step": 887
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 9.202552775203185e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null