kmnis
/

ZenAI-v2

Model card Files Files and versions Community

kmnis commited on Oct 16, 2023

Commit

2ae4579

1 Parent(s): 5384898

Training in progress, step 2000, checkpoint

Browse files

Files changed (11) hide show

last-checkpoint/adapter_model.bin +1 -1
last-checkpoint/global_step2000/zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step2000/zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step2000/zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step2000/zero_pp_rank_3_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/trainer_state.json +303 -3

last-checkpoint/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d564790f12170e8eb3426162f97f210d011c0052f93d3536794c5fb4e973a8ac
 size 19744138

 version https://git-lfs.github.com/spec/v1
+oid sha256:be60ba8c5321f17ec4b3f2b6a50f255c7034e1a8d70ca9633be1a0b46a85dfa2
 size 19744138

last-checkpoint/global_step2000/zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:710bec908b49c920ae032f919ee1c910c6209a803677937cbf6dcf2f127244d8
 size 29495149

 version https://git-lfs.github.com/spec/v1
+oid sha256:42d369503dd4fd4bdad60fc90d2628b59d2e795fd18cdee222834189f862f23c
 size 29495149

last-checkpoint/global_step2000/zero_pp_rank_1_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5c3528795d45372246c2b8fbe30f235dfb3382a9cbf4e630a7ba769c1566d31
 size 29495149

 version https://git-lfs.github.com/spec/v1
+oid sha256:be225e65d7197f5b725701904801c9cdd58488da4138050054ab44b1f554a60e
 size 29495149

last-checkpoint/global_step2000/zero_pp_rank_2_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f2c0cf6f89838a55f4bc9f0dda11faf0569bc734375b6560790a2c1f407725e
 size 29495149

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a4e18ac198a1139f7df43ed9aa4dc46dd3d33c366ff7b7fb6170a26d27e10c2
 size 29495149

last-checkpoint/global_step2000/zero_pp_rank_3_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c18d17a5961435774a94a192edafbd12dc17b94cfddb11a6bd233abf0d99055
 size 29495149

 version https://git-lfs.github.com/spec/v1
+oid sha256:ddf330880c20f077a3d3fa4632e1233140626a4bbf0fe4f8394e2bb6ac784ef4
 size 29495149

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1500~~


1	+ global_step2000

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aae6d6720b15d33c5be4514b3a84567730795fd13a72414380b33c8627313482
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:5907a54cddc69fe20c02c40139b18624ac2dbae5bcf42b9774c58b64c40b44c7
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21210fc84cdeb9ead738b46e656c45624567b9d572c3ad0ea9fa169dff66448e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c083526885eb8bf3a2ee040372afafd0bb8ab3fad4c8309d345237f500f3a1c
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8694520fe08f7a3fe633f373a0dc945b74219cd9f27299648abfd33c17fb7442
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:19c68b0b0876647c73f1e948eb1f7cd95a5f2a05b6f8a5d5f754e4e9a76c606d
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20a9d6951e84f6da45adca2f04a48bf1d75088b7d2fe1a9040ff33c84bae9cfc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c858b96940d74592597bc7a918935a99c2fc8e9f641f494a7e5c566c09a6221
 size 15024

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6323777403035413,
   "eval_steps": 500,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -907,13 +907,313 @@
       "learning_rate": 1e-05,
       "loss": 0.7034,
       "step": 1500
     }
   ],
   "logging_steps": 10,
   "max_steps": 5000,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 376920751472640.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8431703204047217,
   "eval_steps": 500,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1e-05,
       "loss": 0.7034,
       "step": 1500
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1e-05,
+      "loss": 0.654,
+      "step": 1510
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1e-05,
+      "loss": 0.6833,
+      "step": 1520
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1e-05,
+      "loss": 0.7105,
+      "step": 1530
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1e-05,
+      "loss": 0.7379,
+      "step": 1540
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1e-05,
+      "loss": 0.7178,
+      "step": 1550
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1e-05,
+      "loss": 0.7208,
+      "step": 1560
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1e-05,
+      "loss": 0.7744,
+      "step": 1570
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1e-05,
+      "loss": 0.6935,
+      "step": 1580
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1e-05,
+      "loss": 0.6516,
+      "step": 1590
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1e-05,
+      "loss": 0.6761,
+      "step": 1600
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1e-05,
+      "loss": 0.7512,
+      "step": 1610
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1e-05,
+      "loss": 0.6614,
+      "step": 1620
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1e-05,
+      "loss": 0.6641,
+      "step": 1630
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1e-05,
+      "loss": 0.6886,
+      "step": 1640
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1e-05,
+      "loss": 0.7974,
+      "step": 1650
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1e-05,
+      "loss": 0.677,
+      "step": 1660
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1e-05,
+      "loss": 0.6576,
+      "step": 1670
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1e-05,
+      "loss": 0.6805,
+      "step": 1680
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1e-05,
+      "loss": 0.7206,
+      "step": 1690
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1e-05,
+      "loss": 0.7076,
+      "step": 1700
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1e-05,
+      "loss": 0.716,
+      "step": 1710
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1e-05,
+      "loss": 0.6832,
+      "step": 1720
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1e-05,
+      "loss": 0.7273,
+      "step": 1730
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1e-05,
+      "loss": 0.6822,
+      "step": 1740
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1e-05,
+      "loss": 0.7383,
+      "step": 1750
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1e-05,
+      "loss": 0.7376,
+      "step": 1760
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1e-05,
+      "loss": 0.7059,
+      "step": 1770
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1e-05,
+      "loss": 0.6817,
+      "step": 1780
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1e-05,
+      "loss": 0.691,
+      "step": 1790
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1e-05,
+      "loss": 0.7114,
+      "step": 1800
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1e-05,
+      "loss": 0.6577,
+      "step": 1810
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 1e-05,
+      "loss": 0.6957,
+      "step": 1820
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 1e-05,
+      "loss": 0.7366,
+      "step": 1830
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1e-05,
+      "loss": 0.7042,
+      "step": 1840
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1e-05,
+      "loss": 0.6852,
+      "step": 1850
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1e-05,
+      "loss": 0.7562,
+      "step": 1860
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1e-05,
+      "loss": 0.7761,
+      "step": 1870
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1e-05,
+      "loss": 0.7314,
+      "step": 1880
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1e-05,
+      "loss": 0.6932,
+      "step": 1890
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1e-05,
+      "loss": 0.7072,
+      "step": 1900
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1e-05,
+      "loss": 0.7314,
+      "step": 1910
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1e-05,
+      "loss": 0.6293,
+      "step": 1920
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1e-05,
+      "loss": 0.6994,
+      "step": 1930
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 1e-05,
+      "loss": 0.6681,
+      "step": 1940
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 1e-05,
+      "loss": 0.6923,
+      "step": 1950
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1e-05,
+      "loss": 0.7328,
+      "step": 1960
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1e-05,
+      "loss": 0.6874,
+      "step": 1970
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1e-05,
+      "loss": 0.682,
+      "step": 1980
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 1e-05,
+      "loss": 0.6647,
+      "step": 1990
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 1e-05,
+      "loss": 0.6565,
+      "step": 2000
     }
   ],
   "logging_steps": 10,
   "max_steps": 5000,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 502812786032640.0,
   "trial_name": null,
   "trial_params": null
 }