kmnis
/

ZenAI-v2

Model card Files Files and versions Community

kmnis commited on Oct 15, 2023

Commit

e687f9c

1 Parent(s): ee81d38

Training in progress, step 3000, checkpoint

Browse files

Files changed (15) hide show

last-checkpoint/adapter_model.bin +1 -1
last-checkpoint/global_step3000/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step3000/zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3000/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step3000/zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3000/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step3000/zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3000/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step3000/zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/trainer_state.json +303 -3

last-checkpoint/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0434f5977741abb3d5a00fe24c7d31391987cda5332ba573b25aa52bbe86d617
 size 19744138

 version https://git-lfs.github.com/spec/v1
+oid sha256:b81209ae3e3142691e6cbf9afb802b8896c391877a723ce33eab916d0afb9edc
 size 19744138

last-checkpoint/global_step3000/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:069b14fe37fa6530b30e52fa4da09f794b5ef5d65dff7d46d2f699520301d6e2
+size 6508458036

last-checkpoint/global_step3000/zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cce0927e394639eeb0bd610f31ee8cbf9503b8c13f4532a8304ee5bfe2b27843
+size 29495149

last-checkpoint/global_step3000/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:59ffb2ecacac48d97fbeeba2b130befff541bbf45a4a2a197c0ec646b2eeafa7
+size 6508458036

last-checkpoint/global_step3000/zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:31d3cc26103d70e2131559ace58bfb81ba66514571d1e4bd5b8703dc09e5bc0a
+size 29495149

last-checkpoint/global_step3000/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a2151925d5eb9ad3c55e3ece5285cd9a788486265a47ae1114426cc44b9a8ee
+size 6508458036

last-checkpoint/global_step3000/zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:655f27fc3a28657447c812500eb050ab2234ef9e0301ee6a3ec668f039310e13
+size 29495149

last-checkpoint/global_step3000/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7992df307533d0bfdf23be800a117e8b3efc88c9da0ae34a0aa4c2113dcfaba
+size 6508458036

last-checkpoint/global_step3000/zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f53189fdda0e03570b86da54fdb10905918b600bf0aa2aca3aeba7b41048090
+size 29495149

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step2500~~


1	+ global_step3000

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c8dec4848de85a7459619a3ee9d2272ba9c96e55d70dd5489741e08b8473bb3
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d887fde7ddbc72491d6886015e2826b2f67780c0d1c9fd59e1d88ce5fc09e31b
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23bab7c930535eb3f4cd9b227c386dd1d48f7c52b2fc08ce849b1269c36bd946
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:7edde062ca170b1a53cd6353a93ce1f9782a4edeac65ea031afcf5aea5323ca4
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3effdd25d25bd2c7d4880812b78b2b7de8af5816064ffe51585b24820d0691cb
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:559285b660bfd3d01043c44ad11fa1111ae6e093b1d70a9a10b4160231b87936
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:059a50f85f504da39009dc3cc341f1e2fbc7dd40780b00f8ebc9bed068e45c3e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ac86af3890b7d390a131628964790e2daa6e964a408d352e767975a2f58c75c
 size 15024

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0539629005059021,
   "eval_steps": 500,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1507,13 +1507,313 @@
       "learning_rate": 1e-05,
       "loss": 0.6425,
       "step": 2500
     }
   ],
   "logging_steps": 10,
   "max_steps": 10000,
   "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 628453036523520.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.2647554806070826,
   "eval_steps": 500,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1e-05,
       "loss": 0.6425,
       "step": 2500
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 1e-05,
+      "loss": 0.6704,
+      "step": 2510
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 1e-05,
+      "loss": 0.6431,
+      "step": 2520
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1e-05,
+      "loss": 0.702,
+      "step": 2530
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1e-05,
+      "loss": 0.7384,
+      "step": 2540
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 1e-05,
+      "loss": 0.6324,
+      "step": 2550
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 1e-05,
+      "loss": 0.647,
+      "step": 2560
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 1e-05,
+      "loss": 0.6693,
+      "step": 2570
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 1e-05,
+      "loss": 0.6746,
+      "step": 2580
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 1e-05,
+      "loss": 0.6975,
+      "step": 2590
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 1e-05,
+      "loss": 0.594,
+      "step": 2600
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 1e-05,
+      "loss": 0.7621,
+      "step": 2610
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 1e-05,
+      "loss": 0.6325,
+      "step": 2620
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 1e-05,
+      "loss": 0.6287,
+      "step": 2630
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 1e-05,
+      "loss": 0.7122,
+      "step": 2640
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 1e-05,
+      "loss": 0.6411,
+      "step": 2650
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 1e-05,
+      "loss": 0.7214,
+      "step": 2660
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 1e-05,
+      "loss": 0.6269,
+      "step": 2670
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 1e-05,
+      "loss": 0.6836,
+      "step": 2680
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 1e-05,
+      "loss": 0.6308,
+      "step": 2690
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1e-05,
+      "loss": 0.6759,
+      "step": 2700
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1e-05,
+      "loss": 0.6376,
+      "step": 2710
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1e-05,
+      "loss": 0.7418,
+      "step": 2720
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1e-05,
+      "loss": 0.6286,
+      "step": 2730
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1e-05,
+      "loss": 0.722,
+      "step": 2740
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1e-05,
+      "loss": 0.6689,
+      "step": 2750
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1e-05,
+      "loss": 0.598,
+      "step": 2760
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 1e-05,
+      "loss": 0.6646,
+      "step": 2770
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 1e-05,
+      "loss": 0.6716,
+      "step": 2780
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1e-05,
+      "loss": 0.6279,
+      "step": 2790
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1e-05,
+      "loss": 0.61,
+      "step": 2800
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1e-05,
+      "loss": 0.6543,
+      "step": 2810
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 1e-05,
+      "loss": 0.6929,
+      "step": 2820
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 1e-05,
+      "loss": 0.6731,
+      "step": 2830
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1e-05,
+      "loss": 0.6931,
+      "step": 2840
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1e-05,
+      "loss": 0.7082,
+      "step": 2850
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1e-05,
+      "loss": 0.6964,
+      "step": 2860
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1e-05,
+      "loss": 0.654,
+      "step": 2870
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1e-05,
+      "loss": 0.6697,
+      "step": 2880
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 1e-05,
+      "loss": 0.6724,
+      "step": 2890
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 1e-05,
+      "loss": 0.6244,
+      "step": 2900
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 1e-05,
+      "loss": 0.6244,
+      "step": 2910
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 1e-05,
+      "loss": 0.6343,
+      "step": 2920
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1e-05,
+      "loss": 0.6054,
+      "step": 2930
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1e-05,
+      "loss": 0.6593,
+      "step": 2940
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1e-05,
+      "loss": 0.6636,
+      "step": 2950
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 1e-05,
+      "loss": 0.6098,
+      "step": 2960
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 1e-05,
+      "loss": 0.6938,
+      "step": 2970
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 1e-05,
+      "loss": 0.7027,
+      "step": 2980
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 1e-05,
+      "loss": 0.6503,
+      "step": 2990
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 1e-05,
+      "loss": 0.6872,
+      "step": 3000
     }
   ],
   "logging_steps": 10,
   "max_steps": 10000,
   "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 754093287014400.0,
   "trial_name": null,
   "trial_params": null
 }