kmnis
/

ZenAI-v2

Model card Files Files and versions Community

kmnis commited on Oct 16, 2023

Commit

69a879e

1 Parent(s): d9dcd89

Training in progress, step 3500, checkpoint

Browse files

Files changed (15) hide show

last-checkpoint/adapter_model.bin +1 -1
last-checkpoint/global_step3500/zero_pp_rank_0_mp_rank_00_model_states.pt +1 -1
last-checkpoint/global_step3500/zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step3500/zero_pp_rank_1_mp_rank_00_model_states.pt +1 -1
last-checkpoint/global_step3500/zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step3500/zero_pp_rank_2_mp_rank_00_model_states.pt +1 -1
last-checkpoint/global_step3500/zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step3500/zero_pp_rank_3_mp_rank_00_model_states.pt +1 -1
last-checkpoint/global_step3500/zero_pp_rank_3_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/trainer_state.json +303 -3

last-checkpoint/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09ca6bc9ed7563f7804e6870dfb0262ec9d7ef1b9b317e3e50537421dc41436e
 size 19744138

 version https://git-lfs.github.com/spec/v1
+oid sha256:7475b8ecf45853a6e11d3131546bc2494a0f2f9aef14d558aebd64613aa5fa63
 size 19744138

last-checkpoint/global_step3500/zero_pp_rank_0_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fce09c29b811c7ea4199006dbd6d8339c1fc7bdc081893f35ccdb3a70a05909
 size 6508458036

 version https://git-lfs.github.com/spec/v1
+oid sha256:58a12985547b6d63d9c944b31660b27e2429626c42ac44c8e10bc4dee2c74e03
 size 6508458036

last-checkpoint/global_step3500/zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf152ee02d109cd4e41ac960a2bab701e26fafbfabfe86cb19b80f43429c24e7
 size 29495149

 version https://git-lfs.github.com/spec/v1
+oid sha256:8323588d81b6e6dd32945a9095e9cb4bb35b70ef9c48247d18a8ff1ade805fb8
 size 29495149

last-checkpoint/global_step3500/zero_pp_rank_1_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e59eb771ebbe1285b7c5deeedbfd1aa04e30c76c33d6e25f438bd099a62e79c
 size 6508458036

 version https://git-lfs.github.com/spec/v1
+oid sha256:7da19a7144d1b39bdca6b707be0afd8f1679d74aeeddeb269ca8e3202954f475
 size 6508458036

last-checkpoint/global_step3500/zero_pp_rank_1_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a193d82cab005b1cfd1bc9232106ef8e261cdb0da14a6725ee1e0572575c04b6
 size 29495149

 version https://git-lfs.github.com/spec/v1
+oid sha256:edd7c0d02413f1c9f3ff5f833a04357860e89627e6d53cb497f368ff8e83783f
 size 29495149

last-checkpoint/global_step3500/zero_pp_rank_2_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5c9eb46b0e3d1511072d4205695779d8a1414845797072ec774fa9b749d14fe
 size 6508458036

 version https://git-lfs.github.com/spec/v1
+oid sha256:29a7958de549fd19fc2df99664d7c1603c4c0efa905991e0e67cfd3d071833d7
 size 6508458036

last-checkpoint/global_step3500/zero_pp_rank_2_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1dccd1b9d85a4881d31c4dfc2980d120236983d59c9f58430be6b0a9a86f9de
 size 29495149

 version https://git-lfs.github.com/spec/v1
+oid sha256:311f318e31767a09670b9edce765eafa2ef2a2d52df2d2132dea612da960ee27
 size 29495149

last-checkpoint/global_step3500/zero_pp_rank_3_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f28172e8ff0d7773db83bab45d556eed1e926e85287a1f922b64f6b83ca87516
 size 6508458036

 version https://git-lfs.github.com/spec/v1
+oid sha256:2505329397209039888e36669c6a2a2795e847603459437768b6f58b0907222c
 size 6508458036

last-checkpoint/global_step3500/zero_pp_rank_3_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d0b6b0145ae9c8306b861b62e9d9002f51233a48f0913f318923b42cace9933
 size 29495149

 version https://git-lfs.github.com/spec/v1
+oid sha256:52b85d91f7bc855f1fb1ea77100f4278103706b49555968152882b0e560aa66b
 size 29495149

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step3000~~


1	+ global_step3500

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d887fde7ddbc72491d6886015e2826b2f67780c0d1c9fd59e1d88ce5fc09e31b
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d17f7aa721b5bf66d195101eeb7532aba710f38c1348eeda7e9e1927fcb5d364
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7edde062ca170b1a53cd6353a93ce1f9782a4edeac65ea031afcf5aea5323ca4
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b00c1e9949deeaeaee9b8afe63d1213b81b693226f393b73c75b76cb9300b54a
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:559285b660bfd3d01043c44ad11fa1111ae6e093b1d70a9a10b4160231b87936
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3bf736fc64eb84ddbe364e183cfed301bd08c6ce9463f9aacea48ab077038026
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ac86af3890b7d390a131628964790e2daa6e964a408d352e767975a2f58c75c
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4ff4aac5f7d7fe8d6253945ad55d59286ca926a9e46b229588f4a981b62a9d0
 size 15024

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.2647554806070826,
   "eval_steps": 500,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1807,13 +1807,313 @@
       "learning_rate": 1e-05,
       "loss": 0.6872,
       "step": 3000
     }
   ],
   "logging_steps": 10,
   "max_steps": 5000,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 754093287014400.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.4755480607082632,
   "eval_steps": 500,
+  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1e-05,
       "loss": 0.6872,
       "step": 3000
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 1e-05,
+      "loss": 0.6221,
+      "step": 3010
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 1e-05,
+      "loss": 0.6229,
+      "step": 3020
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 1e-05,
+      "loss": 0.5707,
+      "step": 3030
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 1e-05,
+      "loss": 0.6352,
+      "step": 3040
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 1e-05,
+      "loss": 0.6581,
+      "step": 3050
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 1e-05,
+      "loss": 0.7119,
+      "step": 3060
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 1e-05,
+      "loss": 0.6462,
+      "step": 3070
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 1e-05,
+      "loss": 0.628,
+      "step": 3080
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 1e-05,
+      "loss": 0.6886,
+      "step": 3090
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 1e-05,
+      "loss": 0.6323,
+      "step": 3100
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 1e-05,
+      "loss": 0.6333,
+      "step": 3110
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 1e-05,
+      "loss": 0.6815,
+      "step": 3120
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 1e-05,
+      "loss": 0.6526,
+      "step": 3130
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 1e-05,
+      "loss": 0.6232,
+      "step": 3140
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 1e-05,
+      "loss": 0.6477,
+      "step": 3150
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 1e-05,
+      "loss": 0.6534,
+      "step": 3160
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1e-05,
+      "loss": 0.6534,
+      "step": 3170
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1e-05,
+      "loss": 0.6548,
+      "step": 3180
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1e-05,
+      "loss": 0.6622,
+      "step": 3190
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 1e-05,
+      "loss": 0.6524,
+      "step": 3200
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 1e-05,
+      "loss": 0.6364,
+      "step": 3210
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 1e-05,
+      "loss": 0.6687,
+      "step": 3220
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 1e-05,
+      "loss": 0.6814,
+      "step": 3230
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1e-05,
+      "loss": 0.6885,
+      "step": 3240
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1e-05,
+      "loss": 0.6885,
+      "step": 3250
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1e-05,
+      "loss": 0.6826,
+      "step": 3260
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1e-05,
+      "loss": 0.6689,
+      "step": 3270
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1e-05,
+      "loss": 0.8184,
+      "step": 3280
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 1e-05,
+      "loss": 0.617,
+      "step": 3290
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 1e-05,
+      "loss": 0.7429,
+      "step": 3300
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1e-05,
+      "loss": 0.6808,
+      "step": 3310
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1e-05,
+      "loss": 0.6454,
+      "step": 3320
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1e-05,
+      "loss": 0.6676,
+      "step": 3330
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 1e-05,
+      "loss": 0.6154,
+      "step": 3340
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 1e-05,
+      "loss": 0.6773,
+      "step": 3350
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 1e-05,
+      "loss": 0.6902,
+      "step": 3360
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 1e-05,
+      "loss": 0.6361,
+      "step": 3370
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 1e-05,
+      "loss": 0.6433,
+      "step": 3380
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 1e-05,
+      "loss": 0.6637,
+      "step": 3390
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 1e-05,
+      "loss": 0.7161,
+      "step": 3400
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 1e-05,
+      "loss": 0.691,
+      "step": 3410
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 1e-05,
+      "loss": 0.5989,
+      "step": 3420
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 1e-05,
+      "loss": 0.6744,
+      "step": 3430
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 1e-05,
+      "loss": 0.6739,
+      "step": 3440
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 1e-05,
+      "loss": 0.6385,
+      "step": 3450
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 1e-05,
+      "loss": 0.6796,
+      "step": 3460
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 1e-05,
+      "loss": 0.6625,
+      "step": 3470
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 1e-05,
+      "loss": 0.7484,
+      "step": 3480
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 1e-05,
+      "loss": 0.6711,
+      "step": 3490
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 1e-05,
+      "loss": 0.6091,
+      "step": 3500
     }
   ],
   "logging_steps": 10,
   "max_steps": 5000,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 879733537505280.0,
   "trial_name": null,
   "trial_params": null
 }