kmnis
/

ZenAI-v2

Model card Files Files and versions Community

kmnis commited on Oct 15, 2023

Commit

5d8ecf1

1 Parent(s): e445a1b

Training in progress, step 2500, checkpoint

Browse files

Files changed (15) hide show

last-checkpoint/adapter_model.bin +1 -1
last-checkpoint/global_step2500/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2500/zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2500/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2500/zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2500/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2500/zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2500/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2500/zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/trainer_state.json +303 -3

last-checkpoint/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb9161afa5d6de49b7d4607930397f3b8680b15a014838d9a51b8431ed94b0c5
 size 19744138

 version https://git-lfs.github.com/spec/v1
+oid sha256:0434f5977741abb3d5a00fe24c7d31391987cda5332ba573b25aa52bbe86d617
 size 19744138

last-checkpoint/global_step2500/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:646fe8a551f2bd17b48c6752c7304ae8e1fcf3843feb5be277804d085d96f19a
+size 6508458036

last-checkpoint/global_step2500/zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2750a56e16ea0229cf9f3e8e23006bfb9a7c0358aa28d39d92863d9ab7c0a580
+size 29495149

last-checkpoint/global_step2500/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9f99081c9def57becd4d3a4d9de52a72f89f23a102200db3216b54d510d8a1cc
+size 6508458036

last-checkpoint/global_step2500/zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:222fe183f3eea9e389bcaacbecabaae4810fdc3d60d8ba363b689b48d252d83a
+size 29495149

last-checkpoint/global_step2500/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e48a0f58625f48764d03261d7a14db5ba2c78ffd1d7df544cd9183710a16a3e7
+size 6508458036

last-checkpoint/global_step2500/zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d7156818814735141f1f945fc98b72f62886378bb94487320e68b6afc0c2abfa
+size 29495149

last-checkpoint/global_step2500/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9a2be9b2d58c8643c7fb55afc2ef6aed69d3c5534cfad815bb0c8d72e367a0e0
+size 6508458036

last-checkpoint/global_step2500/zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5da05a7373a17e7c1f226a1b0cb3e78ca8f434ee0679ac3531e404c06c2f4f28
+size 29495149

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step2000~~


1	+ global_step2500

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5907a54cddc69fe20c02c40139b18624ac2dbae5bcf42b9774c58b64c40b44c7
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c8dec4848de85a7459619a3ee9d2272ba9c96e55d70dd5489741e08b8473bb3
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c083526885eb8bf3a2ee040372afafd0bb8ab3fad4c8309d345237f500f3a1c
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:23bab7c930535eb3f4cd9b227c386dd1d48f7c52b2fc08ce849b1269c36bd946
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19c68b0b0876647c73f1e948eb1f7cd95a5f2a05b6f8a5d5f754e4e9a76c606d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3effdd25d25bd2c7d4880812b78b2b7de8af5816064ffe51585b24820d0691cb
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c858b96940d74592597bc7a918935a99c2fc8e9f641f494a7e5c566c09a6221
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:059a50f85f504da39009dc3cc341f1e2fbc7dd40780b00f8ebc9bed068e45c3e
 size 15024

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8431703204047217,
   "eval_steps": 500,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1207,13 +1207,313 @@
       "learning_rate": 1e-05,
       "loss": 0.6513,
       "step": 2000
     }
   ],
   "logging_steps": 10,
   "max_steps": 10000,
   "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 502812786032640.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0539629005059021,
   "eval_steps": 500,
+  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1e-05,
       "loss": 0.6513,
       "step": 2000
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 1e-05,
+      "loss": 0.6249,
+      "step": 2010
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 1e-05,
+      "loss": 0.6665,
+      "step": 2020
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1e-05,
+      "loss": 0.702,
+      "step": 2030
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1e-05,
+      "loss": 0.7431,
+      "step": 2040
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1e-05,
+      "loss": 0.6716,
+      "step": 2050
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 1e-05,
+      "loss": 0.6754,
+      "step": 2060
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 1e-05,
+      "loss": 0.7649,
+      "step": 2070
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 1e-05,
+      "loss": 0.62,
+      "step": 2080
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 1e-05,
+      "loss": 0.6863,
+      "step": 2090
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1e-05,
+      "loss": 0.6828,
+      "step": 2100
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1e-05,
+      "loss": 0.6259,
+      "step": 2110
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1e-05,
+      "loss": 0.76,
+      "step": 2120
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1e-05,
+      "loss": 0.74,
+      "step": 2130
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1e-05,
+      "loss": 0.68,
+      "step": 2140
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1e-05,
+      "loss": 0.6328,
+      "step": 2150
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1e-05,
+      "loss": 0.6892,
+      "step": 2160
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1e-05,
+      "loss": 0.7415,
+      "step": 2170
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1e-05,
+      "loss": 0.6976,
+      "step": 2180
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1e-05,
+      "loss": 0.6841,
+      "step": 2190
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 1e-05,
+      "loss": 0.68,
+      "step": 2200
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 1e-05,
+      "loss": 0.7259,
+      "step": 2210
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1e-05,
+      "loss": 0.7159,
+      "step": 2220
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1e-05,
+      "loss": 0.6852,
+      "step": 2230
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1e-05,
+      "loss": 0.7414,
+      "step": 2240
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1e-05,
+      "loss": 0.6784,
+      "step": 2250
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1e-05,
+      "loss": 0.599,
+      "step": 2260
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1e-05,
+      "loss": 0.7278,
+      "step": 2270
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1e-05,
+      "loss": 0.7143,
+      "step": 2280
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1e-05,
+      "loss": 0.6473,
+      "step": 2290
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1e-05,
+      "loss": 0.7026,
+      "step": 2300
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1e-05,
+      "loss": 0.6816,
+      "step": 2310
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1e-05,
+      "loss": 0.7041,
+      "step": 2320
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1e-05,
+      "loss": 0.6185,
+      "step": 2330
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1e-05,
+      "loss": 0.6164,
+      "step": 2340
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1e-05,
+      "loss": 0.6526,
+      "step": 2350
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1e-05,
+      "loss": 0.7141,
+      "step": 2360
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1e-05,
+      "loss": 0.6393,
+      "step": 2370
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1e-05,
+      "loss": 0.6799,
+      "step": 2380
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 1e-05,
+      "loss": 0.6859,
+      "step": 2390
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 1e-05,
+      "loss": 0.661,
+      "step": 2400
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 1e-05,
+      "loss": 0.7197,
+      "step": 2410
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 1e-05,
+      "loss": 0.7034,
+      "step": 2420
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 1e-05,
+      "loss": 0.6855,
+      "step": 2430
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 1e-05,
+      "loss": 0.6689,
+      "step": 2440
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 1e-05,
+      "loss": 0.6702,
+      "step": 2450
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 1e-05,
+      "loss": 0.6505,
+      "step": 2460
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 1e-05,
+      "loss": 0.6594,
+      "step": 2470
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 1e-05,
+      "loss": 0.6523,
+      "step": 2480
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 1e-05,
+      "loss": 0.6744,
+      "step": 2490
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 1e-05,
+      "loss": 0.6425,
+      "step": 2500
     }
   ],
   "logging_steps": 10,
   "max_steps": 10000,
   "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 628453036523520.0,
   "trial_name": null,
   "trial_params": null
 }