Training in progress, step 100, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/README.md +19 -0
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +10 -570
last-checkpoint/training_args.bin +1 -1

last-checkpoint/README.md CHANGED Viewed

@@ -216,4 +216,23 @@ The following `bitsandbytes` quantization config was used during training:
 ### Framework versions
 - PEFT 0.7.0.dev0

 ### Framework versions
+- PEFT 0.7.0.dev0
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
 - PEFT 0.7.0.dev0

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fc25fdf09d84c3dbbb3b114bc34378f2a1ce102781dbff973a081898c982e57
 size 9444296

 version https://git-lfs.github.com/spec/v1
+oid sha256:e41f098c3009f8d3002230921a04215ea3bade039d608f043a7ba3acbd7f5c79
 size 9444296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f481a459202036c534c95ccd1f262ebd659890ecad5f32a330dd987a5f277bb
 size 18902665

 version https://git-lfs.github.com/spec/v1
+oid sha256:96652cebfbc6ef6a5e5c7636c4abbd332b228c8529c1601b08b97c78b25d9577
 size 18902665

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a0d9d4b9143f23093465c736b344edb94f3988c049bd9c6571469763fcf7a30
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6c460c6d5170c5ca51901a3283076152befcb7567f2f2de0b955f1db311a891
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f55ebe991e4838deda9ff3044672335e03697b65b3fe0753cca61998e974ee51
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:216f76b8039f833c337db298c81f13b12082d5fd4f9d866cecd34b2ca7550b37
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.9563062191009521,
-  "best_model_checkpoint": "./outputs/checkpoint-4100",
-  "epoch": 2.987249544626594,
   "eval_steps": 100,
-  "global_step": 4100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,583 +11,23 @@
     {
       "epoch": 0.07,
       "learning_rate": 0.0002,
-      "loss": 2.7196,
       "step": 100
     },
     {
       "epoch": 0.07,
-      "eval_loss": 2.6170785427093506,
-      "eval_runtime": 204.855,
-      "eval_samples_per_second": 30.627,
-      "eval_steps_per_second": 3.832,
       "step": 100
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.0002,
-      "loss": 2.5808,
-      "step": 200
-    },
-    {
-      "epoch": 0.15,
-      "eval_loss": 2.5675065517425537,
-      "eval_runtime": 205.0981,
-      "eval_samples_per_second": 30.59,
-      "eval_steps_per_second": 3.827,
-      "step": 200
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 0.0002,
-      "loss": 2.5404,
-      "step": 300
-    },
-    {
-      "epoch": 0.22,
-      "eval_loss": 2.5325021743774414,
-      "eval_runtime": 204.7038,
-      "eval_samples_per_second": 30.649,
-      "eval_steps_per_second": 3.835,
-      "step": 300
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 0.0002,
-      "loss": 2.5132,
-      "step": 400
-    },
-    {
-      "epoch": 0.29,
-      "eval_loss": 2.4990599155426025,
-      "eval_runtime": 204.8454,
-      "eval_samples_per_second": 30.628,
-      "eval_steps_per_second": 3.832,
-      "step": 400
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.0002,
-      "loss": 2.4703,
-      "step": 500
-    },
-    {
-      "epoch": 0.36,
-      "eval_loss": 2.4729976654052734,
-      "eval_runtime": 204.6421,
-      "eval_samples_per_second": 30.658,
-      "eval_steps_per_second": 3.836,
-      "step": 500
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 0.0002,
-      "loss": 2.4448,
-      "step": 600
-    },
-    {
-      "epoch": 0.44,
-      "eval_loss": 2.4453651905059814,
-      "eval_runtime": 204.7734,
-      "eval_samples_per_second": 30.639,
-      "eval_steps_per_second": 3.834,
-      "step": 600
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 0.0002,
-      "loss": 2.4262,
-      "step": 700
-    },
-    {
-      "epoch": 0.51,
-      "eval_loss": 2.422455072402954,
-      "eval_runtime": 204.2735,
-      "eval_samples_per_second": 30.714,
-      "eval_steps_per_second": 3.843,
-      "step": 700
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 0.0002,
-      "loss": 2.406,
-      "step": 800
-    },
-    {
-      "epoch": 0.58,
-      "eval_loss": 2.4011573791503906,
-      "eval_runtime": 204.9766,
-      "eval_samples_per_second": 30.608,
-      "eval_steps_per_second": 3.83,
-      "step": 800
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 0.0002,
-      "loss": 2.3695,
-      "step": 900
-    },
-    {
-      "epoch": 0.66,
-      "eval_loss": 2.378359794616699,
-      "eval_runtime": 205.3181,
-      "eval_samples_per_second": 30.557,
-      "eval_steps_per_second": 3.823,
-      "step": 900
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 0.0002,
-      "loss": 2.3653,
-      "step": 1000
-    },
-    {
-      "epoch": 0.73,
-      "eval_loss": 2.361510753631592,
-      "eval_runtime": 205.2075,
-      "eval_samples_per_second": 30.574,
-      "eval_steps_per_second": 3.825,
-      "step": 1000
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 0.0002,
-      "loss": 2.3589,
-      "step": 1100
-    },
-    {
-      "epoch": 0.8,
-      "eval_loss": 2.336888313293457,
-      "eval_runtime": 205.5407,
-      "eval_samples_per_second": 30.524,
-      "eval_steps_per_second": 3.819,
-      "step": 1100
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 0.0002,
-      "loss": 2.3155,
-      "step": 1200
-    },
-    {
-      "epoch": 0.87,
-      "eval_loss": 2.3193211555480957,
-      "eval_runtime": 205.3332,
-      "eval_samples_per_second": 30.555,
-      "eval_steps_per_second": 3.823,
-      "step": 1200
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 0.0002,
-      "loss": 2.3263,
-      "step": 1300
-    },
-    {
-      "epoch": 0.95,
-      "eval_loss": 2.304319143295288,
-      "eval_runtime": 205.5233,
-      "eval_samples_per_second": 30.527,
-      "eval_steps_per_second": 3.82,
-      "step": 1300
-    },
-    {
-      "epoch": 1.02,
-      "learning_rate": 0.0002,
-      "loss": 2.2779,
-      "step": 1400
-    },
-    {
-      "epoch": 1.02,
-      "eval_loss": 2.279832363128662,
-      "eval_runtime": 205.1492,
-      "eval_samples_per_second": 30.583,
-      "eval_steps_per_second": 3.826,
-      "step": 1400
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 0.0002,
-      "loss": 2.2385,
-      "step": 1500
-    },
-    {
-      "epoch": 1.09,
-      "eval_loss": 2.2634425163269043,
-      "eval_runtime": 205.2715,
-      "eval_samples_per_second": 30.564,
-      "eval_steps_per_second": 3.824,
-      "step": 1500
-    },
-    {
-      "epoch": 1.17,
-      "learning_rate": 0.0002,
-      "loss": 2.2302,
-      "step": 1600
-    },
-    {
-      "epoch": 1.17,
-      "eval_loss": 2.2444472312927246,
-      "eval_runtime": 205.6926,
-      "eval_samples_per_second": 30.502,
-      "eval_steps_per_second": 3.816,
-      "step": 1600
-    },
-    {
-      "epoch": 1.24,
-      "learning_rate": 0.0002,
-      "loss": 2.2306,
-      "step": 1700
-    },
-    {
-      "epoch": 1.24,
-      "eval_loss": 2.2305054664611816,
-      "eval_runtime": 399.7171,
-      "eval_samples_per_second": 15.696,
-      "eval_steps_per_second": 1.964,
-      "step": 1700
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.0002,
-      "loss": 2.1922,
-      "step": 1800
-    },
-    {
-      "epoch": 1.31,
-      "eval_loss": 2.21516489982605,
-      "eval_runtime": 286.4561,
-      "eval_samples_per_second": 21.902,
-      "eval_steps_per_second": 2.74,
-      "step": 1800
-    },
-    {
-      "epoch": 1.38,
-      "learning_rate": 0.0002,
-      "loss": 2.1761,
-      "step": 1900
-    },
-    {
-      "epoch": 1.38,
-      "eval_loss": 2.199110984802246,
-      "eval_runtime": 205.8891,
-      "eval_samples_per_second": 30.473,
-      "eval_steps_per_second": 3.813,
-      "step": 1900
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 0.0002,
-      "loss": 2.171,
-      "step": 2000
-    },
-    {
-      "epoch": 1.46,
-      "eval_loss": 2.1863746643066406,
-      "eval_runtime": 352.7134,
-      "eval_samples_per_second": 17.788,
-      "eval_steps_per_second": 2.226,
-      "step": 2000
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 0.0002,
-      "loss": 2.1551,
-      "step": 2100
-    },
-    {
-      "epoch": 1.53,
-      "eval_loss": 2.173449993133545,
-      "eval_runtime": 352.8576,
-      "eval_samples_per_second": 17.781,
-      "eval_steps_per_second": 2.225,
-      "step": 2100
-    },
-    {
-      "epoch": 1.6,
-      "learning_rate": 0.0002,
-      "loss": 2.138,
-      "step": 2200
-    },
-    {
-      "epoch": 1.6,
-      "eval_loss": 2.1560394763946533,
-      "eval_runtime": 351.5491,
-      "eval_samples_per_second": 17.847,
-      "eval_steps_per_second": 2.233,
-      "step": 2200
-    },
-    {
-      "epoch": 1.68,
-      "learning_rate": 0.0002,
-      "loss": 2.1273,
-      "step": 2300
-    },
-    {
-      "epoch": 1.68,
-      "eval_loss": 2.1443099975585938,
-      "eval_runtime": 363.1256,
-      "eval_samples_per_second": 17.278,
-      "eval_steps_per_second": 2.162,
-      "step": 2300
-    },
-    {
-      "epoch": 1.75,
-      "learning_rate": 0.0002,
-      "loss": 2.1338,
-      "step": 2400
-    },
-    {
-      "epoch": 1.75,
-      "eval_loss": 2.132147789001465,
-      "eval_runtime": 205.6577,
-      "eval_samples_per_second": 30.507,
-      "eval_steps_per_second": 3.817,
-      "step": 2400
-    },
-    {
-      "epoch": 1.82,
-      "learning_rate": 0.0002,
-      "loss": 2.1017,
-      "step": 2500
-    },
-    {
-      "epoch": 1.82,
-      "eval_loss": 2.1187310218811035,
-      "eval_runtime": 205.7718,
-      "eval_samples_per_second": 30.49,
-      "eval_steps_per_second": 3.815,
-      "step": 2500
-    },
-    {
-      "epoch": 1.89,
-      "learning_rate": 0.0002,
-      "loss": 2.1036,
-      "step": 2600
-    },
-    {
-      "epoch": 1.89,
-      "eval_loss": 2.1073668003082275,
-      "eval_runtime": 205.7933,
-      "eval_samples_per_second": 30.487,
-      "eval_steps_per_second": 3.815,
-      "step": 2600
-    },
-    {
-      "epoch": 1.97,
-      "learning_rate": 0.0002,
-      "loss": 2.0876,
-      "step": 2700
-    },
-    {
-      "epoch": 1.97,
-      "eval_loss": 2.0932669639587402,
-      "eval_runtime": 205.7443,
-      "eval_samples_per_second": 30.494,
-      "eval_steps_per_second": 3.815,
-      "step": 2700
-    },
-    {
-      "epoch": 2.04,
-      "learning_rate": 0.0002,
-      "loss": 2.0417,
-      "step": 2800
-    },
-    {
-      "epoch": 2.04,
-      "eval_loss": 2.087472915649414,
-      "eval_runtime": 273.011,
-      "eval_samples_per_second": 22.981,
-      "eval_steps_per_second": 2.875,
-      "step": 2800
-    },
-    {
-      "epoch": 2.11,
-      "learning_rate": 0.0002,
-      "loss": 2.0148,
-      "step": 2900
-    },
-    {
-      "epoch": 2.11,
-      "eval_loss": 2.072157382965088,
-      "eval_runtime": 205.5579,
-      "eval_samples_per_second": 30.522,
-      "eval_steps_per_second": 3.819,
-      "step": 2900
-    },
-    {
-      "epoch": 2.19,
-      "learning_rate": 0.0002,
-      "loss": 2.0358,
-      "step": 3000
-    },
-    {
-      "epoch": 2.19,
-      "eval_loss": 2.0652525424957275,
-      "eval_runtime": 205.6922,
-      "eval_samples_per_second": 30.502,
-      "eval_steps_per_second": 3.816,
-      "step": 3000
-    },
-    {
-      "epoch": 2.26,
-      "learning_rate": 0.0002,
-      "loss": 2.0052,
-      "step": 3100
-    },
-    {
-      "epoch": 2.26,
-      "eval_loss": 2.0512640476226807,
-      "eval_runtime": 241.4868,
-      "eval_samples_per_second": 25.981,
-      "eval_steps_per_second": 3.251,
-      "step": 3100
-    },
-    {
-      "epoch": 2.33,
-      "learning_rate": 0.0002,
-      "loss": 2.0207,
-      "step": 3200
-    },
-    {
-      "epoch": 2.33,
-      "eval_loss": 2.0430970191955566,
-      "eval_runtime": 206.2941,
-      "eval_samples_per_second": 30.413,
-      "eval_steps_per_second": 3.805,
-      "step": 3200
-    },
-    {
-      "epoch": 2.4,
-      "learning_rate": 0.0002,
-      "loss": 1.9869,
-      "step": 3300
-    },
-    {
-      "epoch": 2.4,
-      "eval_loss": 2.0295984745025635,
-      "eval_runtime": 206.2527,
-      "eval_samples_per_second": 30.419,
-      "eval_steps_per_second": 3.806,
-      "step": 3300
-    },
-    {
-      "epoch": 2.48,
-      "learning_rate": 0.0002,
-      "loss": 1.9843,
-      "step": 3400
-    },
-    {
-      "epoch": 2.48,
-      "eval_loss": 2.024902105331421,
-      "eval_runtime": 206.4688,
-      "eval_samples_per_second": 30.387,
-      "eval_steps_per_second": 3.802,
-      "step": 3400
-    },
-    {
-      "epoch": 2.55,
-      "learning_rate": 0.0002,
-      "loss": 1.9783,
-      "step": 3500
-    },
-    {
-      "epoch": 2.55,
-      "eval_loss": 2.0117316246032715,
-      "eval_runtime": 206.1364,
-      "eval_samples_per_second": 30.436,
-      "eval_steps_per_second": 3.808,
-      "step": 3500
-    },
-    {
-      "epoch": 2.62,
-      "learning_rate": 0.0002,
-      "loss": 1.976,
-      "step": 3600
-    },
-    {
-      "epoch": 2.62,
-      "eval_loss": 2.0020532608032227,
-      "eval_runtime": 207.8584,
-      "eval_samples_per_second": 30.184,
-      "eval_steps_per_second": 3.777,
-      "step": 3600
-    },
-    {
-      "epoch": 2.7,
-      "learning_rate": 0.0002,
-      "loss": 1.9545,
-      "step": 3700
-    },
-    {
-      "epoch": 2.7,
-      "eval_loss": 1.9922449588775635,
-      "eval_runtime": 205.7835,
-      "eval_samples_per_second": 30.488,
-      "eval_steps_per_second": 3.815,
-      "step": 3700
-    },
-    {
-      "epoch": 2.77,
-      "learning_rate": 0.0002,
-      "loss": 1.9471,
-      "step": 3800
-    },
-    {
-      "epoch": 2.77,
-      "eval_loss": 1.9849846363067627,
-      "eval_runtime": 208.268,
-      "eval_samples_per_second": 30.125,
-      "eval_steps_per_second": 3.769,
-      "step": 3800
-    },
-    {
-      "epoch": 2.84,
-      "learning_rate": 0.0002,
-      "loss": 1.9351,
-      "step": 3900
-    },
-    {
-      "epoch": 2.84,
-      "eval_loss": 1.9729152917861938,
-      "eval_runtime": 206.3151,
-      "eval_samples_per_second": 30.41,
-      "eval_steps_per_second": 3.805,
-      "step": 3900
-    },
-    {
-      "epoch": 2.91,
-      "learning_rate": 0.0002,
-      "loss": 1.9363,
-      "step": 4000
-    },
-    {
-      "epoch": 2.91,
-      "eval_loss": 1.9666210412979126,
-      "eval_runtime": 206.4112,
-      "eval_samples_per_second": 30.396,
-      "eval_steps_per_second": 3.803,
-      "step": 4000
-    },
-    {
-      "epoch": 2.99,
-      "learning_rate": 0.0002,
-      "loss": 1.9364,
-      "step": 4100
-    },
-    {
-      "epoch": 2.99,
-      "eval_loss": 1.9563062191009521,
-      "eval_runtime": 205.7662,
-      "eval_samples_per_second": 30.491,
-      "eval_steps_per_second": 3.815,
-      "step": 4100
     }
   ],
   "logging_steps": 100,
   "max_steps": 4116,
   "num_train_epochs": 3,
   "save_steps": 100,
-  "total_flos": 1.2037527679500288e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 2.618009567260742,
+  "best_model_checkpoint": "./outputs/checkpoint-100",
+  "epoch": 0.07285974499089254,
   "eval_steps": 100,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.07,
       "learning_rate": 0.0002,
+      "loss": 2.7201,
       "step": 100
     },
     {
       "epoch": 0.07,
+      "eval_loss": 2.618009567260742,
+      "eval_runtime": 1145.9752,
+      "eval_samples_per_second": 5.475,
+      "eval_steps_per_second": 0.685,
       "step": 100
     }
   ],
   "logging_steps": 100,
   "max_steps": 4116,
   "num_train_epochs": 3,
   "save_steps": 100,
+  "total_flos": 2937068351078400.0,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:832535f80cfd1a4e7ff31302951a9145dc47046c4636e5d816d95ee3522a31a9
 size 4219

 version https://git-lfs.github.com/spec/v1
+oid sha256:d170118e55e55a5ddde5d03289767d84bc1a80ce18d4832a7a347357c65cb6af
 size 4219