Training in progress, step 116, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +227 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d60875408f1ff4aae9279ba6e12943e7ee095a5db56e71deafd1b8e936b74742
 size 100198584

 version https://git-lfs.github.com/spec/v1
+oid sha256:b570962ede4265c9488fa98dcd00095b1ca3d903d14f064ee79d3cb2379651f4
 size 100198584

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2b81b7b1b1dc97162752ac7389fd94b8b35c908dcae5b595a54a4ddfbadad95
 size 50675156

 version https://git-lfs.github.com/spec/v1
+oid sha256:68afdadf9dcafbea18732f32b8ac5fa2ad488bf587daf988c9af28727179daa0
 size 50675156

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00c20447fd261a108ac7b92b3fd7e46fb934233a7e75325b07a4d18c95a93b0f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:07e779822c485743db355cfc0cc7805b58345253d12afcfcd7953cd3834152cb
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.1227285179435668,
   "eval_steps": 500,
-  "global_step": 84,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -595,6 +595,230 @@
       "learning_rate": 1.6800000000000002e-05,
       "loss": 1.6169,
       "step": 84
     }
   ],
   "logging_steps": 1,
@@ -614,7 +838,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.4533080190677e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.16948223906492557,
   "eval_steps": 500,
+  "global_step": 116,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.6800000000000002e-05,
       "loss": 1.6169,
       "step": 84
+    },
+    {
+      "epoch": 0.12418957172860925,
+      "grad_norm": 0.3446858525276184,
+      "learning_rate": 1.7e-05,
+      "loss": 1.6721,
+      "step": 85
+    },
+    {
+      "epoch": 0.12565062551365172,
+      "grad_norm": 0.33179470896720886,
+      "learning_rate": 1.72e-05,
+      "loss": 1.578,
+      "step": 86
+    },
+    {
+      "epoch": 0.12711167929869419,
+      "grad_norm": 0.3791605830192566,
+      "learning_rate": 1.7400000000000003e-05,
+      "loss": 1.6055,
+      "step": 87
+    },
+    {
+      "epoch": 0.12857273308373665,
+      "grad_norm": 0.5245212912559509,
+      "learning_rate": 1.76e-05,
+      "loss": 1.626,
+      "step": 88
+    },
+    {
+      "epoch": 0.13003378686877912,
+      "grad_norm": 0.43215855956077576,
+      "learning_rate": 1.7800000000000002e-05,
+      "loss": 1.6177,
+      "step": 89
+    },
+    {
+      "epoch": 0.13149484065382158,
+      "grad_norm": 0.4050828516483307,
+      "learning_rate": 1.8e-05,
+      "loss": 1.4903,
+      "step": 90
+    },
+    {
+      "epoch": 0.13295589443886402,
+      "grad_norm": 0.399501234292984,
+      "learning_rate": 1.8200000000000002e-05,
+      "loss": 1.6079,
+      "step": 91
+    },
+    {
+      "epoch": 0.13441694822390649,
+      "grad_norm": 0.439622700214386,
+      "learning_rate": 1.8400000000000003e-05,
+      "loss": 1.5405,
+      "step": 92
+    },
+    {
+      "epoch": 0.13587800200894895,
+      "grad_norm": 0.4368193447589874,
+      "learning_rate": 1.86e-05,
+      "loss": 1.415,
+      "step": 93
+    },
+    {
+      "epoch": 0.13733905579399142,
+      "grad_norm": 0.3644118010997772,
+      "learning_rate": 1.88e-05,
+      "loss": 1.525,
+      "step": 94
+    },
+    {
+      "epoch": 0.13880010957903388,
+      "grad_norm": 0.3868708312511444,
+      "learning_rate": 1.9e-05,
+      "loss": 1.4903,
+      "step": 95
+    },
+    {
+      "epoch": 0.14026116336407635,
+      "grad_norm": 0.43034952878952026,
+      "learning_rate": 1.9200000000000003e-05,
+      "loss": 1.4605,
+      "step": 96
+    },
+    {
+      "epoch": 0.1417222171491188,
+      "grad_norm": 0.4087560772895813,
+      "learning_rate": 1.94e-05,
+      "loss": 1.3544,
+      "step": 97
+    },
+    {
+      "epoch": 0.14318327093416128,
+      "grad_norm": 0.29801666736602783,
+      "learning_rate": 1.9600000000000002e-05,
+      "loss": 1.4098,
+      "step": 98
+    },
+    {
+      "epoch": 0.14464432471920372,
+      "grad_norm": 0.275905966758728,
+      "learning_rate": 1.98e-05,
+      "loss": 1.4732,
+      "step": 99
+    },
+    {
+      "epoch": 0.14610537850424618,
+      "grad_norm": 0.32271912693977356,
+      "learning_rate": 2e-05,
+      "loss": 1.4156,
+      "step": 100
+    },
+    {
+      "epoch": 0.14756643228928865,
+      "grad_norm": 0.3191397190093994,
+      "learning_rate": 1.9965753424657538e-05,
+      "loss": 1.3254,
+      "step": 101
+    },
+    {
+      "epoch": 0.1490274860743311,
+      "grad_norm": 0.26260653138160706,
+      "learning_rate": 1.993150684931507e-05,
+      "loss": 1.3877,
+      "step": 102
+    },
+    {
+      "epoch": 0.15048853985937358,
+      "grad_norm": 0.2782766819000244,
+      "learning_rate": 1.9897260273972604e-05,
+      "loss": 1.3683,
+      "step": 103
+    },
+    {
+      "epoch": 0.15194959364441604,
+      "grad_norm": 0.2510565221309662,
+      "learning_rate": 1.9863013698630137e-05,
+      "loss": 1.3996,
+      "step": 104
+    },
+    {
+      "epoch": 0.1534106474294585,
+      "grad_norm": 0.2523151934146881,
+      "learning_rate": 1.9828767123287674e-05,
+      "loss": 1.3192,
+      "step": 105
+    },
+    {
+      "epoch": 0.15487170121450095,
+      "grad_norm": 0.20559488236904144,
+      "learning_rate": 1.9794520547945207e-05,
+      "loss": 1.2096,
+      "step": 106
+    },
+    {
+      "epoch": 0.1563327549995434,
+      "grad_norm": 0.17568816244602203,
+      "learning_rate": 1.9760273972602743e-05,
+      "loss": 1.3795,
+      "step": 107
+    },
+    {
+      "epoch": 0.15779380878458588,
+      "grad_norm": 0.1778278350830078,
+      "learning_rate": 1.9726027397260276e-05,
+      "loss": 1.3146,
+      "step": 108
+    },
+    {
+      "epoch": 0.15925486256962834,
+      "grad_norm": 0.18488670885562897,
+      "learning_rate": 1.969178082191781e-05,
+      "loss": 1.4105,
+      "step": 109
+    },
+    {
+      "epoch": 0.1607159163546708,
+      "grad_norm": 0.1593291312456131,
+      "learning_rate": 1.9657534246575346e-05,
+      "loss": 1.3054,
+      "step": 110
+    },
+    {
+      "epoch": 0.16217697013971327,
+      "grad_norm": 0.14311783015727997,
+      "learning_rate": 1.962328767123288e-05,
+      "loss": 1.3985,
+      "step": 111
+    },
+    {
+      "epoch": 0.16363802392475574,
+      "grad_norm": 0.14948627352714539,
+      "learning_rate": 1.9589041095890412e-05,
+      "loss": 1.3395,
+      "step": 112
+    },
+    {
+      "epoch": 0.1650990777097982,
+      "grad_norm": 0.14075608551502228,
+      "learning_rate": 1.9554794520547945e-05,
+      "loss": 1.3868,
+      "step": 113
+    },
+    {
+      "epoch": 0.16656013149484064,
+      "grad_norm": 0.14439420402050018,
+      "learning_rate": 1.952054794520548e-05,
+      "loss": 1.2985,
+      "step": 114
+    },
+    {
+      "epoch": 0.1680211852798831,
+      "grad_norm": 0.13425147533416748,
+      "learning_rate": 1.9486301369863014e-05,
+      "loss": 1.3855,
+      "step": 115
+    },
+    {
+      "epoch": 0.16948223906492557,
+      "grad_norm": 0.1291724145412445,
+      "learning_rate": 1.945205479452055e-05,
+      "loss": 1.2942,
+      "step": 116
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.304737835336663e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null