Training in progress, step 837, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +283 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01b33c150c7a52d05b4ba5d81c5000a7371ef788c1d9a2846988ba7c563933ce
 size 100198584

 version https://git-lfs.github.com/spec/v1
+oid sha256:11816752771862021d1f1c094679a1a902cd618f90af4e8dba0e4478f5f39b0a
 size 100198584

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa90157b742bd4870000433650a070e605223d12eb54723b9405d5652fbb97d5
 size 50675604

 version https://git-lfs.github.com/spec/v1
+oid sha256:39351dce492da1ec76082c4d982fa0e400b6d4b4fec021f8577941b139b31751
 size 50675604

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba56b90c0f94d74c6e2b030957d920e1d37fa2b12e4f58e25953248835d1d8db
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e3bbc37b1c4948deb4e7c7ff80c3871b0fd3eb0b6501980c9b6ab76dcbae87d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8746227709190673,
   "eval_steps": 500,
-  "global_step": 797,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5586,6 +5586,286 @@
       "learning_rate": 2.81134401972873e-06,
       "loss": 1.1065,
       "step": 797
     }
   ],
   "logging_steps": 1,
@@ -5605,7 +5885,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.267146853068431e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9185185185185185,
   "eval_steps": 500,
+  "global_step": 837,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.81134401972873e-06,
       "loss": 1.1065,
       "step": 797
+    },
+    {
+      "epoch": 0.8757201646090536,
+      "grad_norm": 0.13176120817661285,
+      "learning_rate": 2.7866831072749695e-06,
+      "loss": 1.1029,
+      "step": 798
+    },
+    {
+      "epoch": 0.8768175582990397,
+      "grad_norm": 0.1394006758928299,
+      "learning_rate": 2.7620221948212084e-06,
+      "loss": 1.0872,
+      "step": 799
+    },
+    {
+      "epoch": 0.877914951989026,
+      "grad_norm": 0.16219663619995117,
+      "learning_rate": 2.7373612823674478e-06,
+      "loss": 1.1006,
+      "step": 800
+    },
+    {
+      "epoch": 0.8790123456790123,
+      "grad_norm": 0.13275958597660065,
+      "learning_rate": 2.712700369913687e-06,
+      "loss": 1.1087,
+      "step": 801
+    },
+    {
+      "epoch": 0.8801097393689986,
+      "grad_norm": 0.15880566835403442,
+      "learning_rate": 2.688039457459926e-06,
+      "loss": 1.0905,
+      "step": 802
+    },
+    {
+      "epoch": 0.8812071330589849,
+      "grad_norm": 0.14361722767353058,
+      "learning_rate": 2.6633785450061657e-06,
+      "loss": 1.0701,
+      "step": 803
+    },
+    {
+      "epoch": 0.8823045267489712,
+      "grad_norm": 0.13469044864177704,
+      "learning_rate": 2.6387176325524042e-06,
+      "loss": 1.1495,
+      "step": 804
+    },
+    {
+      "epoch": 0.8834019204389575,
+      "grad_norm": 0.16092169284820557,
+      "learning_rate": 2.614056720098644e-06,
+      "loss": 1.074,
+      "step": 805
+    },
+    {
+      "epoch": 0.8844993141289438,
+      "grad_norm": 0.13376876711845398,
+      "learning_rate": 2.5893958076448833e-06,
+      "loss": 1.1405,
+      "step": 806
+    },
+    {
+      "epoch": 0.8855967078189301,
+      "grad_norm": 0.1367831826210022,
+      "learning_rate": 2.5647348951911222e-06,
+      "loss": 1.0685,
+      "step": 807
+    },
+    {
+      "epoch": 0.8866941015089164,
+      "grad_norm": 0.13057412207126617,
+      "learning_rate": 2.5400739827373616e-06,
+      "loss": 1.133,
+      "step": 808
+    },
+    {
+      "epoch": 0.8877914951989027,
+      "grad_norm": 0.1330074518918991,
+      "learning_rate": 2.5154130702836005e-06,
+      "loss": 1.2354,
+      "step": 809
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 0.15305842459201813,
+      "learning_rate": 2.49075215782984e-06,
+      "loss": 1.0574,
+      "step": 810
+    },
+    {
+      "epoch": 0.8899862825788751,
+      "grad_norm": 0.13910268247127533,
+      "learning_rate": 2.466091245376079e-06,
+      "loss": 1.0733,
+      "step": 811
+    },
+    {
+      "epoch": 0.8910836762688614,
+      "grad_norm": 0.13843494653701782,
+      "learning_rate": 2.441430332922318e-06,
+      "loss": 1.0353,
+      "step": 812
+    },
+    {
+      "epoch": 0.8921810699588477,
+      "grad_norm": 0.14887547492980957,
+      "learning_rate": 2.416769420468558e-06,
+      "loss": 0.9972,
+      "step": 813
+    },
+    {
+      "epoch": 0.893278463648834,
+      "grad_norm": 0.13981156051158905,
+      "learning_rate": 2.3921085080147967e-06,
+      "loss": 1.2125,
+      "step": 814
+    },
+    {
+      "epoch": 0.8943758573388203,
+      "grad_norm": 0.13580431044101715,
+      "learning_rate": 2.367447595561036e-06,
+      "loss": 1.2606,
+      "step": 815
+    },
+    {
+      "epoch": 0.8954732510288066,
+      "grad_norm": 0.14896319806575775,
+      "learning_rate": 2.342786683107275e-06,
+      "loss": 1.1067,
+      "step": 816
+    },
+    {
+      "epoch": 0.8965706447187929,
+      "grad_norm": 0.1296452283859253,
+      "learning_rate": 2.3181257706535143e-06,
+      "loss": 1.0699,
+      "step": 817
+    },
+    {
+      "epoch": 0.8976680384087792,
+      "grad_norm": 0.145808607339859,
+      "learning_rate": 2.2934648581997536e-06,
+      "loss": 1.1611,
+      "step": 818
+    },
+    {
+      "epoch": 0.8987654320987655,
+      "grad_norm": 0.13980808854103088,
+      "learning_rate": 2.268803945745993e-06,
+      "loss": 1.0291,
+      "step": 819
+    },
+    {
+      "epoch": 0.8998628257887518,
+      "grad_norm": 0.13322117924690247,
+      "learning_rate": 2.244143033292232e-06,
+      "loss": 1.0608,
+      "step": 820
+    },
+    {
+      "epoch": 0.900960219478738,
+      "grad_norm": 0.1385853886604309,
+      "learning_rate": 2.219482120838471e-06,
+      "loss": 1.0595,
+      "step": 821
+    },
+    {
+      "epoch": 0.9020576131687242,
+      "grad_norm": 0.16439485549926758,
+      "learning_rate": 2.1948212083847105e-06,
+      "loss": 1.031,
+      "step": 822
+    },
+    {
+      "epoch": 0.9031550068587105,
+      "grad_norm": 0.12988966703414917,
+      "learning_rate": 2.1701602959309494e-06,
+      "loss": 1.0905,
+      "step": 823
+    },
+    {
+      "epoch": 0.9042524005486968,
+      "grad_norm": 0.13069093227386475,
+      "learning_rate": 2.1454993834771887e-06,
+      "loss": 1.1536,
+      "step": 824
+    },
+    {
+      "epoch": 0.9053497942386831,
+      "grad_norm": 0.13863211870193481,
+      "learning_rate": 2.120838471023428e-06,
+      "loss": 1.1898,
+      "step": 825
+    },
+    {
+      "epoch": 0.9064471879286694,
+      "grad_norm": 0.14132994413375854,
+      "learning_rate": 2.0961775585696674e-06,
+      "loss": 1.1759,
+      "step": 826
+    },
+    {
+      "epoch": 0.9075445816186557,
+      "grad_norm": 0.14824488759040833,
+      "learning_rate": 2.0715166461159063e-06,
+      "loss": 1.0744,
+      "step": 827
+    },
+    {
+      "epoch": 0.908641975308642,
+      "grad_norm": 0.1388639658689499,
+      "learning_rate": 2.0468557336621456e-06,
+      "loss": 1.0687,
+      "step": 828
+    },
+    {
+      "epoch": 0.9097393689986283,
+      "grad_norm": 0.14056843519210815,
+      "learning_rate": 2.022194821208385e-06,
+      "loss": 1.1299,
+      "step": 829
+    },
+    {
+      "epoch": 0.9108367626886146,
+      "grad_norm": 0.1364564299583435,
+      "learning_rate": 1.9975339087546243e-06,
+      "loss": 1.1216,
+      "step": 830
+    },
+    {
+      "epoch": 0.9119341563786009,
+      "grad_norm": 0.14670343697071075,
+      "learning_rate": 1.9728729963008632e-06,
+      "loss": 1.0785,
+      "step": 831
+    },
+    {
+      "epoch": 0.9130315500685872,
+      "grad_norm": 0.13665646314620972,
+      "learning_rate": 1.9482120838471025e-06,
+      "loss": 1.0355,
+      "step": 832
+    },
+    {
+      "epoch": 0.9141289437585733,
+      "grad_norm": 0.1377921998500824,
+      "learning_rate": 1.9235511713933415e-06,
+      "loss": 1.1445,
+      "step": 833
+    },
+    {
+      "epoch": 0.9152263374485596,
+      "grad_norm": 0.12789370119571686,
+      "learning_rate": 1.8988902589395808e-06,
+      "loss": 1.1242,
+      "step": 834
+    },
+    {
+      "epoch": 0.9163237311385459,
+      "grad_norm": 0.12622785568237305,
+      "learning_rate": 1.8742293464858201e-06,
+      "loss": 1.1358,
+      "step": 835
+    },
+    {
+      "epoch": 0.9174211248285322,
+      "grad_norm": 0.14954856038093567,
+      "learning_rate": 1.8495684340320595e-06,
+      "loss": 1.0822,
+      "step": 836
+    },
+    {
+      "epoch": 0.9185185185185185,
+      "grad_norm": 0.12256734073162079,
+      "learning_rate": 1.8249075215782986e-06,
+      "loss": 1.0968,
+      "step": 837
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 8.67918284112937e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null