kmnis
/

ZenAI-v2

Model card Files Files and versions Community

kmnis commited on Oct 15, 2023

Commit

48c9b52

1 Parent(s): 578c4de

Training in progress, step 2000, checkpoint

Browse files

Files changed (15) hide show

last-checkpoint/adapter_model.bin +1 -1
last-checkpoint/global_step2000/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2000/zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2000/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2000/zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2000/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2000/zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2000/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2000/zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/trainer_state.json +303 -3

last-checkpoint/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:227406cf9f8c3ed4c7b57871e5ea249d82e689257232840bcb04f29e3861b0eb
 size 19744138

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb9161afa5d6de49b7d4607930397f3b8680b15a014838d9a51b8431ed94b0c5
 size 19744138

last-checkpoint/global_step2000/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3e6486b33b9f9699e667a0d3bf2c0c9e7460150b77eac6aa64dd3ba6062b9f9
+size 6508458036

last-checkpoint/global_step2000/zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:710bec908b49c920ae032f919ee1c910c6209a803677937cbf6dcf2f127244d8
+size 29495149

last-checkpoint/global_step2000/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25213fc5dbea9d2f91a7def92940c4fb8a41382d6f1d0617d85116c0b92612c9
+size 6508458036

last-checkpoint/global_step2000/zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5c3528795d45372246c2b8fbe30f235dfb3382a9cbf4e630a7ba769c1566d31
+size 29495149

last-checkpoint/global_step2000/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2abe3724da23ef9e3105ccc9ec9ea5116de6c4af98ad83d973cfb6830fac6ef
+size 6508458036

last-checkpoint/global_step2000/zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f2c0cf6f89838a55f4bc9f0dda11faf0569bc734375b6560790a2c1f407725e
+size 29495149

last-checkpoint/global_step2000/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c4e983f783585a3c339c728679be5627b3559014ccec6418ba814746b830587
+size 6508458036

last-checkpoint/global_step2000/zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c18d17a5961435774a94a192edafbd12dc17b94cfddb11a6bd233abf0d99055
+size 29495149

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1500~~


1	+ global_step2000

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aae6d6720b15d33c5be4514b3a84567730795fd13a72414380b33c8627313482
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:5907a54cddc69fe20c02c40139b18624ac2dbae5bcf42b9774c58b64c40b44c7
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21210fc84cdeb9ead738b46e656c45624567b9d572c3ad0ea9fa169dff66448e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c083526885eb8bf3a2ee040372afafd0bb8ab3fad4c8309d345237f500f3a1c
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8694520fe08f7a3fe633f373a0dc945b74219cd9f27299648abfd33c17fb7442
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:19c68b0b0876647c73f1e948eb1f7cd95a5f2a05b6f8a5d5f754e4e9a76c606d
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20a9d6951e84f6da45adca2f04a48bf1d75088b7d2fe1a9040ff33c84bae9cfc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c858b96940d74592597bc7a918935a99c2fc8e9f641f494a7e5c566c09a6221
 size 15024

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6323777403035413,
   "eval_steps": 500,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -907,13 +907,313 @@
       "learning_rate": 1e-05,
       "loss": 0.705,
       "step": 1500
     }
   ],
   "logging_steps": 10,
   "max_steps": 10000,
   "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 376920751472640.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8431703204047217,
   "eval_steps": 500,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1e-05,
       "loss": 0.705,
       "step": 1500
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1e-05,
+      "loss": 0.6431,
+      "step": 1510
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1e-05,
+      "loss": 0.6615,
+      "step": 1520
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1e-05,
+      "loss": 0.7101,
+      "step": 1530
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1e-05,
+      "loss": 0.7265,
+      "step": 1540
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1e-05,
+      "loss": 0.7188,
+      "step": 1550
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1e-05,
+      "loss": 0.7148,
+      "step": 1560
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1e-05,
+      "loss": 0.7713,
+      "step": 1570
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1e-05,
+      "loss": 0.6934,
+      "step": 1580
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1e-05,
+      "loss": 0.6369,
+      "step": 1590
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1e-05,
+      "loss": 0.673,
+      "step": 1600
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1e-05,
+      "loss": 0.7517,
+      "step": 1610
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1e-05,
+      "loss": 0.6622,
+      "step": 1620
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1e-05,
+      "loss": 0.6657,
+      "step": 1630
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1e-05,
+      "loss": 0.6895,
+      "step": 1640
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1e-05,
+      "loss": 0.7961,
+      "step": 1650
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1e-05,
+      "loss": 0.677,
+      "step": 1660
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1e-05,
+      "loss": 0.6579,
+      "step": 1670
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1e-05,
+      "loss": 0.6797,
+      "step": 1680
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1e-05,
+      "loss": 0.7199,
+      "step": 1690
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1e-05,
+      "loss": 0.7065,
+      "step": 1700
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1e-05,
+      "loss": 0.7162,
+      "step": 1710
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1e-05,
+      "loss": 0.6851,
+      "step": 1720
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1e-05,
+      "loss": 0.7251,
+      "step": 1730
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1e-05,
+      "loss": 0.6808,
+      "step": 1740
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1e-05,
+      "loss": 0.7358,
+      "step": 1750
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1e-05,
+      "loss": 0.7403,
+      "step": 1760
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1e-05,
+      "loss": 0.7051,
+      "step": 1770
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1e-05,
+      "loss": 0.6662,
+      "step": 1780
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1e-05,
+      "loss": 0.6922,
+      "step": 1790
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1e-05,
+      "loss": 0.7086,
+      "step": 1800
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1e-05,
+      "loss": 0.6558,
+      "step": 1810
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 1e-05,
+      "loss": 0.6953,
+      "step": 1820
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 1e-05,
+      "loss": 0.7355,
+      "step": 1830
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1e-05,
+      "loss": 0.7042,
+      "step": 1840
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1e-05,
+      "loss": 0.6836,
+      "step": 1850
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1e-05,
+      "loss": 0.7482,
+      "step": 1860
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1e-05,
+      "loss": 0.7727,
+      "step": 1870
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1e-05,
+      "loss": 0.7302,
+      "step": 1880
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1e-05,
+      "loss": 0.686,
+      "step": 1890
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1e-05,
+      "loss": 0.7062,
+      "step": 1900
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1e-05,
+      "loss": 0.7315,
+      "step": 1910
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1e-05,
+      "loss": 0.6259,
+      "step": 1920
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1e-05,
+      "loss": 0.6999,
+      "step": 1930
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 1e-05,
+      "loss": 0.6675,
+      "step": 1940
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 1e-05,
+      "loss": 0.6953,
+      "step": 1950
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1e-05,
+      "loss": 0.7274,
+      "step": 1960
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1e-05,
+      "loss": 0.6864,
+      "step": 1970
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1e-05,
+      "loss": 0.6822,
+      "step": 1980
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 1e-05,
+      "loss": 0.6641,
+      "step": 1990
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 1e-05,
+      "loss": 0.6513,
+      "step": 2000
     }
   ],
   "logging_steps": 10,
   "max_steps": 10000,
   "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 502812786032640.0,
   "trial_name": null,
   "trial_params": null
 }