kmnis
/

ZenAI-v2

Model card Files Files and versions Community

kmnis commited on Oct 16, 2023

Commit

47e8727

1 Parent(s): 07f1355

Training in progress, step 4000, checkpoint

Browse files

Files changed (15) hide show

last-checkpoint/adapter_model.bin +1 -1
last-checkpoint/global_step4000/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step4000/zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4000/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step4000/zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4000/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step4000/zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4000/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step4000/zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/trainer_state.json +303 -3

last-checkpoint/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7475b8ecf45853a6e11d3131546bc2494a0f2f9aef14d558aebd64613aa5fa63
 size 19744138

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b074dc89146bd028c0664b132fc46bfc59201185bda06775c72139e7c815a15
 size 19744138

last-checkpoint/global_step4000/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ce6b4c9dcedd64467ad302888d9d03990b2a496988b7b6c2740204ce7313f44e
+size 6508458036

last-checkpoint/global_step4000/zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c299557772557013b972c2a06c9a6bb6602373482f42a769c8f7a6aa04cefccb
+size 29495149

last-checkpoint/global_step4000/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e86fd6ae2c479448da228eb07296019768c4f0e4dc30347b9037e01cb86c994b
+size 6508458036

last-checkpoint/global_step4000/zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ea5e6e6c511616aee9a69a7f0f2412db28efbab49b0ec207d9d03fdd503ee72
+size 29495149

last-checkpoint/global_step4000/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4596995abffaa68f30aeed25446c64c5dfc8f5723d5c9cf9cbcc4afb30924de4
+size 6508458036

last-checkpoint/global_step4000/zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:acd30c5a87bdb041aa371932bc4b3e79aadcfcde787a1c043bd483e5ab5c52d1
+size 29495149

last-checkpoint/global_step4000/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:91826afa1d75a4d9fbb2622cdf64c876ef725685a3429693964d9c91d12f04ef
+size 6508458036

last-checkpoint/global_step4000/zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f70fbe73734097b278f8f7aa50fc9d5f1fe73a7ba0143a9e58741a5757e5594
+size 29495149

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step3500~~


1	+ global_step4000

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d17f7aa721b5bf66d195101eeb7532aba710f38c1348eeda7e9e1927fcb5d364
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3cda7acc40557204710df648d13c6c64dd3bee9e11d98ca8ec6bf9765f6fd55b
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b00c1e9949deeaeaee9b8afe63d1213b81b693226f393b73c75b76cb9300b54a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:df659af25f38deebdca58158c68718a93017141cfb7b33e8079633d427d6debf
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3bf736fc64eb84ddbe364e183cfed301bd08c6ce9463f9aacea48ab077038026
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f89a12d795a7d9929749bfcc711935eda3c929f167285a61a0defe0e6815157d
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4ff4aac5f7d7fe8d6253945ad55d59286ca926a9e46b229588f4a981b62a9d0
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:595bcf6bb327a594b78f46fc654a60578f254399a5961cafc50cf97fe1934fba
 size 15024

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.4755480607082632,
   "eval_steps": 500,
-  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2107,13 +2107,313 @@
       "learning_rate": 1e-05,
       "loss": 0.6091,
       "step": 3500
     }
   ],
   "logging_steps": 10,
   "max_steps": 5000,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 879733537505280.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.6863406408094435,
   "eval_steps": 500,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1e-05,
       "loss": 0.6091,
       "step": 3500
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 1e-05,
+      "loss": 0.6603,
+      "step": 3510
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 1e-05,
+      "loss": 0.6306,
+      "step": 3520
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 1e-05,
+      "loss": 0.6345,
+      "step": 3530
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 1e-05,
+      "loss": 0.636,
+      "step": 3540
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 1e-05,
+      "loss": 0.692,
+      "step": 3550
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 1e-05,
+      "loss": 0.6703,
+      "step": 3560
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 1e-05,
+      "loss": 0.672,
+      "step": 3570
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 1e-05,
+      "loss": 0.6706,
+      "step": 3580
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 1e-05,
+      "loss": 0.6546,
+      "step": 3590
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 1e-05,
+      "loss": 0.6503,
+      "step": 3600
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 1e-05,
+      "loss": 0.6934,
+      "step": 3610
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 1e-05,
+      "loss": 0.6327,
+      "step": 3620
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 1e-05,
+      "loss": 0.6649,
+      "step": 3630
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 1e-05,
+      "loss": 0.6225,
+      "step": 3640
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 1e-05,
+      "loss": 0.6425,
+      "step": 3650
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 1e-05,
+      "loss": 0.6409,
+      "step": 3660
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 1e-05,
+      "loss": 0.6685,
+      "step": 3670
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 1e-05,
+      "loss": 0.7274,
+      "step": 3680
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 1e-05,
+      "loss": 0.7256,
+      "step": 3690
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 1e-05,
+      "loss": 0.6972,
+      "step": 3700
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 1e-05,
+      "loss": 0.6425,
+      "step": 3710
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 1e-05,
+      "loss": 0.6627,
+      "step": 3720
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 1e-05,
+      "loss": 0.7265,
+      "step": 3730
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 1e-05,
+      "loss": 0.6436,
+      "step": 3740
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 1e-05,
+      "loss": 0.6597,
+      "step": 3750
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 1e-05,
+      "loss": 0.6968,
+      "step": 3760
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 1e-05,
+      "loss": 0.6513,
+      "step": 3770
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 1e-05,
+      "loss": 0.6204,
+      "step": 3780
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 1e-05,
+      "loss": 0.7159,
+      "step": 3790
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 1e-05,
+      "loss": 0.6509,
+      "step": 3800
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 1e-05,
+      "loss": 0.6105,
+      "step": 3810
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 1e-05,
+      "loss": 0.6581,
+      "step": 3820
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 1e-05,
+      "loss": 0.6775,
+      "step": 3830
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 1e-05,
+      "loss": 0.6243,
+      "step": 3840
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 1e-05,
+      "loss": 0.644,
+      "step": 3850
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 1e-05,
+      "loss": 0.6713,
+      "step": 3860
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 1e-05,
+      "loss": 0.6633,
+      "step": 3870
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 1e-05,
+      "loss": 0.7093,
+      "step": 3880
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 1e-05,
+      "loss": 0.685,
+      "step": 3890
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 1e-05,
+      "loss": 0.6923,
+      "step": 3900
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 1e-05,
+      "loss": 0.5949,
+      "step": 3910
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 1e-05,
+      "loss": 0.738,
+      "step": 3920
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 1e-05,
+      "loss": 0.6444,
+      "step": 3930
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 1e-05,
+      "loss": 0.6608,
+      "step": 3940
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 1e-05,
+      "loss": 0.6469,
+      "step": 3950
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 1e-05,
+      "loss": 0.6802,
+      "step": 3960
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 1e-05,
+      "loss": 0.6474,
+      "step": 3970
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 1e-05,
+      "loss": 0.69,
+      "step": 3980
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 1e-05,
+      "loss": 0.658,
+      "step": 3990
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1e-05,
+      "loss": 0.6745,
+      "step": 4000
     }
   ],
   "logging_steps": 10,
   "max_steps": 5000,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 1005625572065280.0,
   "trial_name": null,
   "trial_params": null
 }