AmberYifan commited on Dec 13, 2024

Commit

df9028a

verified ·

1 Parent(s): 8b4ff08

Training in progress, epoch 3, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/global_step189/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step189/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step189/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step189/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step189/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step189/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step189/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step189/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +215 -3

last-checkpoint/global_step189/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6081e564e513c9402dcf61f78f98d9e8b26ded1a6ee973fd9e854620ce0a7076
+size 13476836524

last-checkpoint/global_step189/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b0e18f56e4345f3af8aa0c15a2ea678f100487dde468b82488af5ff3f42e24e
+size 13476836524

last-checkpoint/global_step189/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a7554ee9730fb0ae961428506fa8602fc7c2eac442b931d7c9c3abb9649732e
+size 13476836524

last-checkpoint/global_step189/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:143efe61d71168f9ed7700cd5f226a1bb0b14cc7819755664d18084200230110
+size 13476836524

last-checkpoint/global_step189/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fad6f8e38bd53cc02696fdd324acefc6450b408b94aa0efc4ff10b7c6725a66e
+size 150693

last-checkpoint/global_step189/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2769a91ee3073096451825a14033196304aa61466a0742d138c51e7daf74827
+size 150693

last-checkpoint/global_step189/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a1731958171867a7d85e560aa4daebfb823dbd70dd783e2e66bc88bb7340988
+size 150693

last-checkpoint/global_step189/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:65f5c3867311d6afda2cf705c7b21af911b58685f925c8915171e17d8ab9b14d
+size 150693

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step63~~


1	+ global_step189

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef527b7dde5facc11abae6babe543591822623fb93c2a35cb3c3333e3696df47
 size 4938985352

 version https://git-lfs.github.com/spec/v1
+oid sha256:c44b1877f31c5dea1c82aae87688d6d7078a2a62d5596411f63e7a34a8ff778c
 size 4938985352

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7258c17d6a4e60dc33403764363daf4e0e275d973a19160b5476ceaafd7f9c2f
 size 4947390880

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b5308ec103107908292fa5b2f9745b7e4bc731164c1606e2c8e24e231c659a5
 size 4947390880

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:877cdf5c59f81d9839b84d9dcfb1e9f6c713b1115f1d08d054bdf7baf0d4dfc5
 size 3590488816

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c56b15df5aaf5c981db5b2dce9a40892a0c71f3c80f6747328b264f42f0df52
 size 3590488816

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1ce770862b76ceecb3453a5d0b9ef65311eab0f6a60f52997726a89d718de08
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab7cf0d34d60dfda516cf9661904550e2e294e723edd07c25c738f05e8ba92d1
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bcae6573442578b752be3e988d4ccb38056b45c31b5c02eb579ec6cebcfa62e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7b183324e8227a51a9556d86b2ad893a8c4c52205ed4a737356c6611dac7353
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:398ff45072fee2975e88b9e078f915103d75d94bc08753303cf855b915973623
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac69e994090f4818cb1fa6f6cefa363178552c3c731c6507ff195bcb07fd5bef
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f4b210bc832d4c648e3bee8c21dca26e5a8b365d6ec90c638062005a052e57b
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f68e61b63402f8afb1f69c960f7944965655dac11e3ccf29919c282f23931f86
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:845f8eea760ff90e22dadf5fb7f80c9079f8c2298a8770c5d4c3b3309b38a6ef
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c988df4a306242fbc45c908424c576078313f1b5bb472bee13c3b6371b94095e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 63,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -128,6 +128,218 @@
       "eval_samples_per_second": 16.875,
       "eval_steps_per_second": 0.574,
       "step": 63
     }
   ],
   "logging_steps": 10,
@@ -142,7 +354,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 189,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 16.875,
       "eval_steps_per_second": 0.574,
       "step": 63
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 10.940163753846868,
+      "learning_rate": 3.5e-07,
+      "logits/chosen": -1.5625,
+      "logits/rejected": -1.5234375,
+      "logps/chosen": -151.0,
+      "logps/rejected": -126.5,
+      "loss": 0.5062,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.4453125,
+      "rewards/margins": 0.46875,
+      "rewards/rejected": -0.9140625,
+      "step": 70
+    },
+    {
+      "epoch": 1.2698412698412698,
+      "grad_norm": 10.448217147222541,
+      "learning_rate": 3.205882352941177e-07,
+      "logits/chosen": -1.515625,
+      "logits/rejected": -1.4609375,
+      "logps/chosen": -142.0,
+      "logps/rejected": -123.5,
+      "loss": 0.4673,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -0.5625,
+      "rewards/margins": 0.57421875,
+      "rewards/rejected": -1.1328125,
+      "step": 80
+    },
+    {
+      "epoch": 1.4285714285714286,
+      "grad_norm": 10.288072810717312,
+      "learning_rate": 2.911764705882353e-07,
+      "logits/chosen": -1.578125,
+      "logits/rejected": -1.53125,
+      "logps/chosen": -157.0,
+      "logps/rejected": -147.0,
+      "loss": 0.4288,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -0.53515625,
+      "rewards/margins": 0.6953125,
+      "rewards/rejected": -1.2265625,
+      "step": 90
+    },
+    {
+      "epoch": 1.5873015873015874,
+      "grad_norm": 10.019896435666249,
+      "learning_rate": 2.6176470588235295e-07,
+      "logits/chosen": -1.609375,
+      "logits/rejected": -1.6015625,
+      "logps/chosen": -162.0,
+      "logps/rejected": -155.0,
+      "loss": 0.4419,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -0.640625,
+      "rewards/margins": 0.65625,
+      "rewards/rejected": -1.296875,
+      "step": 100
+    },
+    {
+      "epoch": 1.746031746031746,
+      "grad_norm": 12.080281395370564,
+      "learning_rate": 2.323529411764706e-07,
+      "logits/chosen": -1.5625,
+      "logits/rejected": -1.546875,
+      "logps/chosen": -156.0,
+      "logps/rejected": -148.0,
+      "loss": 0.4641,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -0.53515625,
+      "rewards/margins": 0.79296875,
+      "rewards/rejected": -1.328125,
+      "step": 110
+    },
+    {
+      "epoch": 1.9047619047619047,
+      "grad_norm": 11.329269122728626,
+      "learning_rate": 2.0294117647058823e-07,
+      "logits/chosen": -1.4921875,
+      "logits/rejected": -1.5078125,
+      "logps/chosen": -140.0,
+      "logps/rejected": -145.0,
+      "loss": 0.4385,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.5390625,
+      "rewards/margins": 0.63671875,
+      "rewards/rejected": -1.171875,
+      "step": 120
+    },
+    {
+      "epoch": 2.0,
+      "eval_logits/chosen": -1.6015625,
+      "eval_logits/rejected": -1.453125,
+      "eval_logps/chosen": -161.0,
+      "eval_logps/rejected": -119.5,
+      "eval_loss": 0.6192867755889893,
+      "eval_rewards/accuracies": 0.7250000238418579,
+      "eval_rewards/chosen": -0.625,
+      "eval_rewards/margins": 0.3515625,
+      "eval_rewards/rejected": -0.9765625,
+      "eval_runtime": 10.8318,
+      "eval_samples_per_second": 13.571,
+      "eval_steps_per_second": 0.462,
+      "step": 126
+    },
+    {
+      "epoch": 2.0634920634920633,
+      "grad_norm": 9.801925381761396,
+      "learning_rate": 1.7352941176470587e-07,
+      "logits/chosen": -1.5625,
+      "logits/rejected": -1.4921875,
+      "logps/chosen": -159.0,
+      "logps/rejected": -144.0,
+      "loss": 0.404,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -0.263671875,
+      "rewards/margins": 0.90234375,
+      "rewards/rejected": -1.1640625,
+      "step": 130
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 10.394699460580199,
+      "learning_rate": 1.441176470588235e-07,
+      "logits/chosen": -1.5859375,
+      "logits/rejected": -1.53125,
+      "logps/chosen": -152.0,
+      "logps/rejected": -146.0,
+      "loss": 0.3731,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.271484375,
+      "rewards/margins": 0.96875,
+      "rewards/rejected": -1.2421875,
+      "step": 140
+    },
+    {
+      "epoch": 2.380952380952381,
+      "grad_norm": 7.8219119833188975,
+      "learning_rate": 1.1470588235294116e-07,
+      "logits/chosen": -1.5390625,
+      "logits/rejected": -1.453125,
+      "logps/chosen": -162.0,
+      "logps/rejected": -132.0,
+      "loss": 0.3477,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -0.376953125,
+      "rewards/margins": 0.90625,
+      "rewards/rejected": -1.28125,
+      "step": 150
+    },
+    {
+      "epoch": 2.5396825396825395,
+      "grad_norm": 8.679287106154373,
+      "learning_rate": 8.529411764705883e-08,
+      "logits/chosen": -1.5625,
+      "logits/rejected": -1.4921875,
+      "logps/chosen": -163.0,
+      "logps/rejected": -153.0,
+      "loss": 0.3479,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -0.3046875,
+      "rewards/margins": 1.125,
+      "rewards/rejected": -1.4296875,
+      "step": 160
+    },
+    {
+      "epoch": 2.6984126984126986,
+      "grad_norm": 8.351083925741897,
+      "learning_rate": 5.5882352941176474e-08,
+      "logits/chosen": -1.5078125,
+      "logits/rejected": -1.53125,
+      "logps/chosen": -146.0,
+      "logps/rejected": -157.0,
+      "loss": 0.3607,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.4609375,
+      "rewards/margins": 0.9375,
+      "rewards/rejected": -1.3984375,
+      "step": 170
+    },
+    {
+      "epoch": 2.857142857142857,
+      "grad_norm": 7.683812751753157,
+      "learning_rate": 2.6470588235294116e-08,
+      "logits/chosen": -1.53125,
+      "logits/rejected": -1.546875,
+      "logps/chosen": -154.0,
+      "logps/rejected": -157.0,
+      "loss": 0.3708,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -0.408203125,
+      "rewards/margins": 0.96875,
+      "rewards/rejected": -1.375,
+      "step": 180
+    },
+    {
+      "epoch": 3.0,
+      "eval_logits/chosen": -1.6015625,
+      "eval_logits/rejected": -1.453125,
+      "eval_logps/chosen": -161.0,
+      "eval_logps/rejected": -120.5,
+      "eval_loss": 0.6126700639724731,
+      "eval_rewards/accuracies": 0.75,
+      "eval_rewards/chosen": -0.67578125,
+      "eval_rewards/margins": 0.42578125,
+      "eval_rewards/rejected": -1.1015625,
+      "eval_runtime": 13.2152,
+      "eval_samples_per_second": 11.124,
+      "eval_steps_per_second": 0.378,
+      "step": 189
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }