kmnis
/

ZenAI-v2

Model card Files Files and versions Community

kmnis commited on Oct 15, 2023

Commit

d23892c

1 Parent(s): 6802fc8

Training in progress, step 1000, checkpoint

Browse files

Files changed (11) hide show

last-checkpoint/adapter_model.bin +1 -1
last-checkpoint/global_step1000/zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step1000/zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step1000/zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step1000/zero_pp_rank_3_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/trainer_state.json +303 -3

last-checkpoint/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e0bd5a956197be0c1a8b5cac24dd2a4dd9688c2c9dc1af319c085d00a7d9d841
 size 19744138

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2104c69c76bb5f7498e20e536872f422f030978404b94d89a9de441010a5a69
 size 19744138

last-checkpoint/global_step1000/zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1695449d3493f10f348f1d266c5f678205f7b256f5d214edda0db2f5bf0ecea3
 size 29495149

 version https://git-lfs.github.com/spec/v1
+oid sha256:17a8cd2efcd4e3d1626983d15655cc14bfc21b653eac85aaf60285a347f42490
 size 29495149

last-checkpoint/global_step1000/zero_pp_rank_1_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9908eee9a0c5a3e17ddbb06ad950070c77971f13a2af06217dca96451a74c35
 size 29495149

 version https://git-lfs.github.com/spec/v1
+oid sha256:0264a422fe462bcef63f8dfbb26089de49809ad0f9c2b4899f1f9f1e90330260
 size 29495149

last-checkpoint/global_step1000/zero_pp_rank_2_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38b24f48827da95ad56d514a95f149fcafddaadaaa59cf8a282453ada3348b73
 size 29495149

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3b848a700018e5ee727be7bb9f1d12ec7036e2c124e18cd925fabefc9e66fb3
 size 29495149

last-checkpoint/global_step1000/zero_pp_rank_3_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ebd2802da6e315454f86d1bbd5ff76f68afaf3fbcb372783421493151838257e
 size 29495149

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4b7a7b0edf3483c448083fe0c150d6223222f5761034f0841355f772cc2017a
 size 29495149

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step500~~


1	+ global_step1000

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9976543de9f119ea23f0d3d19cb19c1ebf8dc1199c2eced562ed8a81bede4ce4
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e8728622af315db29b20e7895285cdcf395df663817cbd8286e8a542da77a9e
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07776cd14e2ab437aeaf689fc9163f17b480c00faf9e8208966547c393da9da9
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:abcaf5452298de0401ff6275854839dac435f28b7ef9e373a40036dc3a2d0391
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ef57df9a932bb3ce8f10c1f2008cfc8e2be859028c82985794c240d4fbb3ab4
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:95f0bdcdc9a519a9ba2d416e546cb553cfb5a5725027ca6027cc188c0e93d2da
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5b8096bc66bc08bb9976da0d78247b4d04977d253c4e2f13b8215a3736b970c
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:8bf5603ebd4cae7ae6cdcd72b39a5bb65e2c71003884ab266de81eddf51ac20d
 size 15024

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.21079258010118043,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -307,13 +307,313 @@
       "learning_rate": 1e-05,
       "loss": 0.7537,
       "step": 500
     }
   ],
   "logging_steps": 10,
   "max_steps": 5000,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 125136682352640.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.42158516020236086,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1e-05,
       "loss": 0.7537,
       "step": 500
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 1e-05,
+      "loss": 0.7956,
+      "step": 510
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 1e-05,
+      "loss": 0.8438,
+      "step": 520
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 1e-05,
+      "loss": 0.7865,
+      "step": 530
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 1e-05,
+      "loss": 0.7995,
+      "step": 540
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 1e-05,
+      "loss": 0.6958,
+      "step": 550
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 1e-05,
+      "loss": 0.805,
+      "step": 560
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 1e-05,
+      "loss": 0.7969,
+      "step": 570
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 1e-05,
+      "loss": 0.7798,
+      "step": 580
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 1e-05,
+      "loss": 0.7764,
+      "step": 590
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 1e-05,
+      "loss": 0.7392,
+      "step": 600
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 1e-05,
+      "loss": 0.7266,
+      "step": 610
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 1e-05,
+      "loss": 0.7475,
+      "step": 620
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 1e-05,
+      "loss": 0.7397,
+      "step": 630
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 1e-05,
+      "loss": 0.72,
+      "step": 640
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 1e-05,
+      "loss": 0.7729,
+      "step": 650
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 1e-05,
+      "loss": 0.7378,
+      "step": 660
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 1e-05,
+      "loss": 0.7306,
+      "step": 670
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 1e-05,
+      "loss": 0.8145,
+      "step": 680
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 1e-05,
+      "loss": 0.69,
+      "step": 690
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 1e-05,
+      "loss": 0.7128,
+      "step": 700
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 1e-05,
+      "loss": 0.7634,
+      "step": 710
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 1e-05,
+      "loss": 0.7451,
+      "step": 720
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 1e-05,
+      "loss": 0.7208,
+      "step": 730
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 1e-05,
+      "loss": 0.8274,
+      "step": 740
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 1e-05,
+      "loss": 0.6745,
+      "step": 750
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 1e-05,
+      "loss": 0.6813,
+      "step": 760
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 1e-05,
+      "loss": 0.7841,
+      "step": 770
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1e-05,
+      "loss": 0.7459,
+      "step": 780
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1e-05,
+      "loss": 0.7265,
+      "step": 790
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 1e-05,
+      "loss": 0.6608,
+      "step": 800
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 1e-05,
+      "loss": 0.6852,
+      "step": 810
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 1e-05,
+      "loss": 0.6859,
+      "step": 820
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 1e-05,
+      "loss": 0.7223,
+      "step": 830
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 1e-05,
+      "loss": 0.7669,
+      "step": 840
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 1e-05,
+      "loss": 0.7634,
+      "step": 850
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 1e-05,
+      "loss": 0.7344,
+      "step": 860
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 1e-05,
+      "loss": 0.7292,
+      "step": 870
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 1e-05,
+      "loss": 0.7836,
+      "step": 880
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 1e-05,
+      "loss": 0.6891,
+      "step": 890
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 1e-05,
+      "loss": 0.7374,
+      "step": 900
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 1e-05,
+      "loss": 0.749,
+      "step": 910
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 1e-05,
+      "loss": 0.7338,
+      "step": 920
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 1e-05,
+      "loss": 0.7597,
+      "step": 930
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1e-05,
+      "loss": 0.6914,
+      "step": 940
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1e-05,
+      "loss": 0.6781,
+      "step": 950
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1e-05,
+      "loss": 0.7396,
+      "step": 960
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 1e-05,
+      "loss": 0.7296,
+      "step": 970
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 1e-05,
+      "loss": 0.7038,
+      "step": 980
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 1e-05,
+      "loss": 0.7363,
+      "step": 990
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 1e-05,
+      "loss": 0.7154,
+      "step": 1000
     }
   ],
   "logging_steps": 10,
   "max_steps": 5000,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 251028716912640.0,
   "trial_name": null,
   "trial_params": null
 }