kmnis
/

ZenAI-v2

Model card Files Files and versions Community

kmnis commited on Oct 16, 2023

Commit

0ab6468

1 Parent(s): 795f3a0

Training in progress, step 4500, checkpoint

Browse files

Files changed (15) hide show

last-checkpoint/adapter_model.bin +1 -1
last-checkpoint/global_step4500/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step4500/zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4500/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step4500/zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4500/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step4500/zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4500/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step4500/zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/trainer_state.json +303 -3

last-checkpoint/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b074dc89146bd028c0664b132fc46bfc59201185bda06775c72139e7c815a15
 size 19744138

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d78c12c945e5fcb9c639c770a4e4f00430ece4b7fb6cb44feb0d796c2c4df01
 size 19744138

last-checkpoint/global_step4500/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6a3e1fa8080e0d3dd9adb7d1dd460a1627c85c0ea1e1f2ace8944dc1d5f80f1
+size 6508458036

last-checkpoint/global_step4500/zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:482006f522673e84c1d45409be61b4367b41184b60e0d8d618e80d6d75b8336d
+size 29495149

last-checkpoint/global_step4500/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8fe1443b48066be579e8c25114715a4eb2a1c5db5d352ed1bac83763e0928c0
+size 6508458036

last-checkpoint/global_step4500/zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f6c0d34c5bf6998556977483a273efe996a01f39142fdb28834075b3e56e329
+size 29495149

last-checkpoint/global_step4500/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d586e7c566560f5821dc52156ab57d93c7512a96ed40a143f9e0684eaf1291a1
+size 6508458036

last-checkpoint/global_step4500/zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f829ce953cc45b3b18fc69256ea4777634df78f3df62d891beb7f460738739a6
+size 29495149

last-checkpoint/global_step4500/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:543ac969055a4f583015697c0421202311447ef4ad3c43f13526aee308b7ef60
+size 6508458036

last-checkpoint/global_step4500/zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f12aceac015ed44c82674f0d8ce445df03745332037e673abe12ca5cf05f99eb
+size 29495149

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step4000~~


1	+ global_step4500

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cda7acc40557204710df648d13c6c64dd3bee9e11d98ca8ec6bf9765f6fd55b
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:94222b0d851841afa61b6aafcea0bff04917dffca319ac60be1b7888470e4549
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df659af25f38deebdca58158c68718a93017141cfb7b33e8079633d427d6debf
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:6eb7e27f4429243bc102257eec60825acb13cbb47a2667ad973c02b4b2dc57aa
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f89a12d795a7d9929749bfcc711935eda3c929f167285a61a0defe0e6815157d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:0caa8a8996d3cb7ae233c1902bff89eb356bf1170533c424be993eaf5748b7e9
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:595bcf6bb327a594b78f46fc654a60578f254399a5961cafc50cf97fe1934fba
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:cafc79dc7941f6eb3a98f0b8b14f36db6f3be67545040d9683537528c3545459
 size 15024

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.6863406408094435,
   "eval_steps": 500,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2407,13 +2407,313 @@
       "learning_rate": 1e-05,
       "loss": 0.6745,
       "step": 4000
     }
   ],
   "logging_steps": 10,
   "max_steps": 5000,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 1005625572065280.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.897133220910624,
   "eval_steps": 500,
+  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1e-05,
       "loss": 0.6745,
       "step": 4000
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1e-05,
+      "loss": 0.6371,
+      "step": 4010
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1e-05,
+      "loss": 0.6437,
+      "step": 4020
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 1e-05,
+      "loss": 0.6366,
+      "step": 4030
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 1e-05,
+      "loss": 0.6695,
+      "step": 4040
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 1e-05,
+      "loss": 0.6926,
+      "step": 4050
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 1e-05,
+      "loss": 0.6313,
+      "step": 4060
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 1e-05,
+      "loss": 0.6514,
+      "step": 4070
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 1e-05,
+      "loss": 0.6575,
+      "step": 4080
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 1e-05,
+      "loss": 0.635,
+      "step": 4090
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 1e-05,
+      "loss": 0.6485,
+      "step": 4100
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 1e-05,
+      "loss": 0.6238,
+      "step": 4110
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 1e-05,
+      "loss": 0.69,
+      "step": 4120
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 1e-05,
+      "loss": 0.6913,
+      "step": 4130
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 1e-05,
+      "loss": 0.6279,
+      "step": 4140
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 1e-05,
+      "loss": 0.6726,
+      "step": 4150
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 1e-05,
+      "loss": 0.6559,
+      "step": 4160
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 1e-05,
+      "loss": 0.6728,
+      "step": 4170
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 1e-05,
+      "loss": 0.6205,
+      "step": 4180
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 1e-05,
+      "loss": 0.6565,
+      "step": 4190
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 1e-05,
+      "loss": 0.6342,
+      "step": 4200
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 1e-05,
+      "loss": 0.6828,
+      "step": 4210
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 1e-05,
+      "loss": 0.6469,
+      "step": 4220
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 1e-05,
+      "loss": 0.6843,
+      "step": 4230
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 1e-05,
+      "loss": 0.6444,
+      "step": 4240
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 1e-05,
+      "loss": 0.6292,
+      "step": 4250
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1e-05,
+      "loss": 0.6352,
+      "step": 4260
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1e-05,
+      "loss": 0.6106,
+      "step": 4270
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1e-05,
+      "loss": 0.6002,
+      "step": 4280
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 1e-05,
+      "loss": 0.6659,
+      "step": 4290
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 1e-05,
+      "loss": 0.6178,
+      "step": 4300
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 1e-05,
+      "loss": 0.6645,
+      "step": 4310
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 1e-05,
+      "loss": 0.6427,
+      "step": 4320
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 1e-05,
+      "loss": 0.692,
+      "step": 4330
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 1e-05,
+      "loss": 0.6473,
+      "step": 4340
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 1e-05,
+      "loss": 0.6061,
+      "step": 4350
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 1e-05,
+      "loss": 0.6521,
+      "step": 4360
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 1e-05,
+      "loss": 0.6438,
+      "step": 4370
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 1e-05,
+      "loss": 0.6158,
+      "step": 4380
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 1e-05,
+      "loss": 0.6613,
+      "step": 4390
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 1e-05,
+      "loss": 0.5958,
+      "step": 4400
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 1e-05,
+      "loss": 0.6013,
+      "step": 4410
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 1e-05,
+      "loss": 0.6591,
+      "step": 4420
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 1e-05,
+      "loss": 0.6364,
+      "step": 4430
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 1e-05,
+      "loss": 0.6247,
+      "step": 4440
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 1e-05,
+      "loss": 0.6,
+      "step": 4450
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 1e-05,
+      "loss": 0.7082,
+      "step": 4460
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 1e-05,
+      "loss": 0.6476,
+      "step": 4470
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 1e-05,
+      "loss": 0.6046,
+      "step": 4480
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 1e-05,
+      "loss": 0.7318,
+      "step": 4490
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 1e-05,
+      "loss": 0.6637,
+      "step": 4500
     }
   ],
   "logging_steps": 10,
   "max_steps": 5000,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 1131517606625280.0,
   "trial_name": null,
   "trial_params": null
 }