AmberYifan commited on Nov 25, 2024

Commit

2b0ba6e

verified ·

1 Parent(s): b221608

Training in progress, epoch 2, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/global_step313/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step313/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step313/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step313/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step313/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step313/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step313/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step313/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +258 -2

last-checkpoint/global_step313/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:121475720cf2bbbe48861499254612f066f3b0872293cd5d8156c27eb3505041
+size 13476835648

last-checkpoint/global_step313/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a7ca3d7c7752e1a2c58d7e1ce8c5539506733e22351fce55b0794448ca33e02
+size 13476835648

last-checkpoint/global_step313/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02ba558106df3bf28e2faffc37c045fafaecf252cf954a40879b9e9ac0b1503b
+size 13476835648

last-checkpoint/global_step313/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2e62b939842439c944dcb24aece333ee0d8beded32c31f4cf8adeef092e42c5
+size 13476835648

last-checkpoint/global_step313/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87b448f691cfa4a46495dc05e49e01cff1797eee23ebb09e55632c64c52dc224
+size 150693

last-checkpoint/global_step313/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:211e1ef93c6886703f99a126064c19878398b27bfd7d6fe55c0993b88fd20b06
+size 150693

last-checkpoint/global_step313/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f5a18f8c5c0e35b7a56b01112f6b3a949d7c33eb71375ee3d414c563c689d607
+size 150693

last-checkpoint/global_step313/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:42b9a66ad55de6e97e1ca4bcd8022a87634ef75bde4ced7652fa266ac694f25f
+size 150693

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step156~~


1	+ global_step313

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cbca58b53cd47541d268f82399ffad5cbf319009372de99641a382b4b0bc5da1
 size 4938985352

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5607479e21e60cbfd6ba75dd86857fbf07c406a070c0661031268bd8e07512f
 size 4938985352

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:576e598617877202a81086b8a32ca9d9a8aee6a5b0b21768edf1cfc6ffb95009
 size 4947390880

 version https://git-lfs.github.com/spec/v1
+oid sha256:87a8a69aad0f1f95dc1e092863ef0fd7033ce518b3f7f469966d2657fc2dcce0
 size 4947390880

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dafc82f3f9a5385f386a865069c04310d4a433477684ceb4da429097f35328f2
 size 3590488816

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f7f0dbf4f652fd9181d26c5c8295c27ef559faabc793e597c12982c4491b1fd
 size 3590488816

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4a1dc8b9f546123ce9b44c28828ae71d9d0ecd6f59c6b7b8337c73cb2e24c49
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:50ca27603f7c4a4d9a980223e1a102922ac31561acfa7da4f28042e4e8b3528b
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a8b225b0323772b66570a16b5c7e6446dc3c9ee076597906a2c90e3c0a383bf
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c57f658c3d9b6de611da50021823095fc4067036fb9a4b34655cc2e34fbf5c2b
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c036a8d528905f7018266618c8bebe4add10c2778ef432fd0116369fa622d815
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:109da2c363a1e09432fa2ea2b7dceb6f67d1f91975069fc669e71dd536d654d8
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b93d88429d97654e76d10b1ba4c36f29a47e210c65a03efdc136f04af8282797
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:bda65e490958bfe3fe01157ed131eb2354f8fc19536842d27c998ecf29d48991
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83d5ef0cb3d7d5c4ee48b323753e4be796504f2feec3727a9d0af4a98df5f901
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:afa7143d1f3515855bc2dc683c033423673c7ec610b3bb70a98e9e265d312b47
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9968051118210862,
   "eval_steps": 500,
-  "global_step": 156,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -263,6 +263,262 @@
       "eval_samples_per_second": 17.459,
       "eval_steps_per_second": 0.611,
       "step": 156
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 313,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 17.459,
       "eval_steps_per_second": 0.611,
       "step": 156
+    },
+    {
+      "epoch": 1.0223642172523961,
+      "grad_norm": 9.22711379768867,
+      "learning_rate": 3.6579572446555817e-07,
+      "logits/chosen": -1.4921875,
+      "logits/rejected": -1.46875,
+      "logps/chosen": -141.0,
+      "logps/rejected": -139.0,
+      "loss": 0.5811,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.8828125,
+      "rewards/margins": 0.34765625,
+      "rewards/rejected": -1.2265625,
+      "step": 160
+    },
+    {
+      "epoch": 1.0862619808306708,
+      "grad_norm": 9.508478185274804,
+      "learning_rate": 3.5391923990498813e-07,
+      "logits/chosen": -1.5078125,
+      "logits/rejected": -1.5,
+      "logps/chosen": -145.0,
+      "logps/rejected": -134.0,
+      "loss": 0.5337,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.71875,
+      "rewards/margins": 0.5546875,
+      "rewards/rejected": -1.2734375,
+      "step": 170
+    },
+    {
+      "epoch": 1.1501597444089458,
+      "grad_norm": 9.316918076373987,
+      "learning_rate": 3.42042755344418e-07,
+      "logits/chosen": -1.5625,
+      "logits/rejected": -1.53125,
+      "logps/chosen": -157.0,
+      "logps/rejected": -146.0,
+      "loss": 0.544,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.66015625,
+      "rewards/margins": 0.56640625,
+      "rewards/rejected": -1.2265625,
+      "step": 180
+    },
+    {
+      "epoch": 1.2140575079872205,
+      "grad_norm": 8.759483351227418,
+      "learning_rate": 3.3016627078384796e-07,
+      "logits/chosen": -1.5703125,
+      "logits/rejected": -1.5234375,
+      "logps/chosen": -152.0,
+      "logps/rejected": -146.0,
+      "loss": 0.5362,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.74609375,
+      "rewards/margins": 0.5,
+      "rewards/rejected": -1.25,
+      "step": 190
+    },
+    {
+      "epoch": 1.2779552715654952,
+      "grad_norm": 9.97195116624129,
+      "learning_rate": 3.182897862232779e-07,
+      "logits/chosen": -1.515625,
+      "logits/rejected": -1.515625,
+      "logps/chosen": -151.0,
+      "logps/rejected": -141.0,
+      "loss": 0.5373,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.7890625,
+      "rewards/margins": 0.55859375,
+      "rewards/rejected": -1.34375,
+      "step": 200
+    },
+    {
+      "epoch": 1.34185303514377,
+      "grad_norm": 8.576220811968858,
+      "learning_rate": 3.0641330166270784e-07,
+      "logits/chosen": -1.578125,
+      "logits/rejected": -1.5234375,
+      "logps/chosen": -151.0,
+      "logps/rejected": -140.0,
+      "loss": 0.5339,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.83984375,
+      "rewards/margins": 0.462890625,
+      "rewards/rejected": -1.3046875,
+      "step": 210
+    },
+    {
+      "epoch": 1.4057507987220448,
+      "grad_norm": 8.688671845017401,
+      "learning_rate": 2.9453681710213776e-07,
+      "logits/chosen": -1.53125,
+      "logits/rejected": -1.53125,
+      "logps/chosen": -148.0,
+      "logps/rejected": -143.0,
+      "loss": 0.5366,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.8671875,
+      "rewards/margins": 0.5078125,
+      "rewards/rejected": -1.375,
+      "step": 220
+    },
+    {
+      "epoch": 1.4696485623003195,
+      "grad_norm": 9.030983047385451,
+      "learning_rate": 2.8266033254156767e-07,
+      "logits/chosen": -1.546875,
+      "logits/rejected": -1.515625,
+      "logps/chosen": -145.0,
+      "logps/rejected": -142.0,
+      "loss": 0.5346,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.8046875,
+      "rewards/margins": 0.53515625,
+      "rewards/rejected": -1.34375,
+      "step": 230
+    },
+    {
+      "epoch": 1.5335463258785942,
+      "grad_norm": 11.622095941624893,
+      "learning_rate": 2.7078384798099764e-07,
+      "logits/chosen": -1.484375,
+      "logits/rejected": -1.4609375,
+      "logps/chosen": -145.0,
+      "logps/rejected": -153.0,
+      "loss": 0.553,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.80859375,
+      "rewards/margins": 0.51171875,
+      "rewards/rejected": -1.3203125,
+      "step": 240
+    },
+    {
+      "epoch": 1.5974440894568689,
+      "grad_norm": 9.38942767820535,
+      "learning_rate": 2.589073634204275e-07,
+      "logits/chosen": -1.5625,
+      "logits/rejected": -1.4765625,
+      "logps/chosen": -146.0,
+      "logps/rejected": -132.0,
+      "loss": 0.54,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.50390625,
+      "rewards/margins": 0.578125,
+      "rewards/rejected": -1.078125,
+      "step": 250
+    },
+    {
+      "epoch": 1.6613418530351438,
+      "grad_norm": 9.87005880531835,
+      "learning_rate": 2.4703087885985747e-07,
+      "logits/chosen": -1.5546875,
+      "logits/rejected": -1.5234375,
+      "logps/chosen": -160.0,
+      "logps/rejected": -148.0,
+      "loss": 0.5312,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.55859375,
+      "rewards/margins": 0.5546875,
+      "rewards/rejected": -1.1171875,
+      "step": 260
+    },
+    {
+      "epoch": 1.7252396166134185,
+      "grad_norm": 8.251251897175216,
+      "learning_rate": 2.351543942992874e-07,
+      "logits/chosen": -1.5234375,
+      "logits/rejected": -1.4921875,
+      "logps/chosen": -146.0,
+      "logps/rejected": -143.0,
+      "loss": 0.5354,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.609375,
+      "rewards/margins": 0.56640625,
+      "rewards/rejected": -1.171875,
+      "step": 270
+    },
+    {
+      "epoch": 1.7891373801916934,
+      "grad_norm": 9.817987165601615,
+      "learning_rate": 2.2327790973871732e-07,
+      "logits/chosen": -1.53125,
+      "logits/rejected": -1.4921875,
+      "logps/chosen": -148.0,
+      "logps/rejected": -144.0,
+      "loss": 0.5347,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.5546875,
+      "rewards/margins": 0.58984375,
+      "rewards/rejected": -1.1484375,
+      "step": 280
+    },
+    {
+      "epoch": 1.8530351437699681,
+      "grad_norm": 9.610664273576093,
+      "learning_rate": 2.1140142517814726e-07,
+      "logits/chosen": -1.5390625,
+      "logits/rejected": -1.4921875,
+      "logps/chosen": -164.0,
+      "logps/rejected": -148.0,
+      "loss": 0.5186,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.57421875,
+      "rewards/margins": 0.59375,
+      "rewards/rejected": -1.1640625,
+      "step": 290
+    },
+    {
+      "epoch": 1.9169329073482428,
+      "grad_norm": 9.80773406850179,
+      "learning_rate": 1.9952494061757718e-07,
+      "logits/chosen": -1.53125,
+      "logits/rejected": -1.5078125,
+      "logps/chosen": -151.0,
+      "logps/rejected": -148.0,
+      "loss": 0.5476,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.75,
+      "rewards/margins": 0.439453125,
+      "rewards/rejected": -1.1875,
+      "step": 300
+    },
+    {
+      "epoch": 1.9808306709265175,
+      "grad_norm": 9.05899810741374,
+      "learning_rate": 1.876484560570071e-07,
+      "logits/chosen": -1.578125,
+      "logits/rejected": -1.53125,
+      "logps/chosen": -156.0,
+      "logps/rejected": -144.0,
+      "loss": 0.5245,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.71875,
+      "rewards/margins": 0.5703125,
+      "rewards/rejected": -1.2890625,
+      "step": 310
+    },
+    {
+      "epoch": 2.0,
+      "eval_logits/chosen": -1.5,
+      "eval_logits/rejected": -1.4921875,
+      "eval_logps/chosen": -144.0,
+      "eval_logps/rejected": -134.0,
+      "eval_loss": 0.5994531512260437,
+      "eval_rewards/accuracies": 0.6964285969734192,
+      "eval_rewards/chosen": -0.546875,
+      "eval_rewards/margins": 0.458984375,
+      "eval_rewards/rejected": -1.0078125,
+      "eval_runtime": 11.4667,
+      "eval_samples_per_second": 17.442,
+      "eval_steps_per_second": 0.61,
+      "step": 313
     }
   ],
   "logging_steps": 10,