Training in progress, epoch 3, checkpoint

Browse files

Files changed (14) hide show

last-checkpoint/global_step939/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step939/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step939/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step939/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +484 -3

last-checkpoint/global_step939/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18b9459d75413f7190241883d2a8dea34256e8762f3b9b9a6ecffcb1235c4862
 size 14496051368

 version https://git-lfs.github.com/spec/v1
+oid sha256:899200ae6594e1fb2e18a6bc9591591a823bcbb852ea8bbc918bdd3b5beab763
 size 14496051368

last-checkpoint/global_step939/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:644d1718bfd7942b7cf838cce4d8ef844f8e0006c2366323dda931fdc1ac5440
 size 14496051368

 version https://git-lfs.github.com/spec/v1
+oid sha256:94a20536672cc923c95eca41d08f37c9b63c335429eea13f191311e03ca5d333
 size 14496051368

last-checkpoint/global_step939/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f0ad77a3c5af70d4a39641874487d2b8b97f25d55d00e18372de52de125b694
 size 14496051368

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e0dc0cbd308f69a8e6d7281eedeb4375ec43daed3a9d5827f937bdc1a41b142
 size 14496051368

last-checkpoint/global_step939/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12c613586cad71613e55daf5903b024534aec74d6c6b654efc5317d35f8addfe
 size 14496051368

 version https://git-lfs.github.com/spec/v1
+oid sha256:4cdfe298e167e9ac3546a3c07465fc2e0b4eb273bd9de235cedcfb86f8acfdf3
 size 14496051368

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step626~~


1	+ global_step939

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e3d6b8494c2b4bdbb752b4fff7c6da0258880b954076d5ef3e53ddbbe43d0a0
 size 4949453792

 version https://git-lfs.github.com/spec/v1
+oid sha256:7651e0c81a9b598372060cd6171956af80dd8b2085f3a2ff9952735ac9a56c09
 size 4949453792

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:563014950b0781d39fa4b245a7ac0e534496966d7f78e5a55a436236e1546492
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:482058215d26b8e897ba2a70086c6703f0dd9dd5e8fc4e36317a8934b826b23d
 size 4999819336

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b41dbd4fd684a2e89f7ed562d64fdcc3a134081743f54f515e9ddd58937bdbb8
 size 4546807800

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a87c38b18ac40f2c1ccbf62e75c07dcc4cb730872d40a703fca3f120732b310
 size 4546807800

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2307c03867cef25b5028feb9a23f80e784b9af9a615de13ddca560a6a90fb593
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab7cf0d34d60dfda516cf9661904550e2e294e723edd07c25c738f05e8ba92d1
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50218cfaecdd818354e567b7167c13899e3b42297e7d8f58bd7e732cfa547800
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7b183324e8227a51a9556d86b2ad893a8c4c52205ed4a737356c6611dac7353
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9814a66b49861f5495b06dae3be12ddf7185b88e2cae1fb808ca9efd99d5807f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac69e994090f4818cb1fa6f6cefa363178552c3c731c6507ff195bcb07fd5bef
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7be93040a65e0a29975f6c70b94418e1fdf88423a50c58aa572141d3c92fbfc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f68e61b63402f8afb1f69c960f7944965655dac11e3ccf29919c282f23931f86
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3fd160e69e5766b513d913785299b2ff6d181cae9fd47f741adc100cb17d22e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:640747ca69b57ef58ae079eec14158d13652c8bf30fb7c733fab30d65edaeb50
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 626,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -984,6 +984,487 @@
       "eval_samples_per_second": 16.119,
       "eval_steps_per_second": 0.564,
       "step": 626
     }
   ],
   "logging_steps": 10,
@@ -998,7 +1479,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 939,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 16.119,
       "eval_steps_per_second": 0.564,
       "step": 626
+    },
+    {
+      "epoch": 2.012779552715655,
+      "grad_norm": 0.0002995311735215579,
+      "learning_rate": 1.8284023668639053e-07,
+      "logits/chosen": -3.0,
+      "logits/rejected": -2.78125,
+      "logps/chosen": -179.0,
+      "logps/rejected": -382.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.66796875,
+      "rewards/margins": 25.5,
+      "rewards/rejected": -26.125,
+      "step": 630
+    },
+    {
+      "epoch": 2.0447284345047922,
+      "grad_norm": 0.0007360144072745451,
+      "learning_rate": 1.7692307692307693e-07,
+      "logits/chosen": -3.0,
+      "logits/rejected": -2.84375,
+      "logps/chosen": -149.0,
+      "logps/rejected": -380.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.26171875,
+      "rewards/margins": 26.0,
+      "rewards/rejected": -26.25,
+      "step": 640
+    },
+    {
+      "epoch": 2.07667731629393,
+      "grad_norm": 7.200122629303882e-05,
+      "learning_rate": 1.710059171597633e-07,
+      "logits/chosen": -2.9375,
+      "logits/rejected": -2.71875,
+      "logps/chosen": -170.0,
+      "logps/rejected": -382.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.66796875,
+      "rewards/margins": 25.0,
+      "rewards/rejected": -25.75,
+      "step": 650
+    },
+    {
+      "epoch": 2.108626198083067,
+      "grad_norm": 0.0005337190402402807,
+      "learning_rate": 1.650887573964497e-07,
+      "logits/chosen": -2.9375,
+      "logits/rejected": -2.703125,
+      "logps/chosen": -175.0,
+      "logps/rejected": -388.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.5703125,
+      "rewards/margins": 26.0,
+      "rewards/rejected": -26.625,
+      "step": 660
+    },
+    {
+      "epoch": 2.1405750798722045,
+      "grad_norm": 9.639763045686634e-05,
+      "learning_rate": 1.591715976331361e-07,
+      "logits/chosen": -2.90625,
+      "logits/rejected": -2.796875,
+      "logps/chosen": -167.0,
+      "logps/rejected": -376.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.609375,
+      "rewards/margins": 25.25,
+      "rewards/rejected": -25.875,
+      "step": 670
+    },
+    {
+      "epoch": 2.1725239616613417,
+      "grad_norm": 6.995868636338041e-05,
+      "learning_rate": 1.5325443786982248e-07,
+      "logits/chosen": -2.9375,
+      "logits/rejected": -2.734375,
+      "logps/chosen": -157.0,
+      "logps/rejected": -376.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.453125,
+      "rewards/margins": 25.125,
+      "rewards/rejected": -25.625,
+      "step": 680
+    },
+    {
+      "epoch": 2.2044728434504792,
+      "grad_norm": 2.902935917834795e-06,
+      "learning_rate": 1.4733727810650885e-07,
+      "logits/chosen": -2.90625,
+      "logits/rejected": -2.75,
+      "logps/chosen": -157.0,
+      "logps/rejected": -380.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.5546875,
+      "rewards/margins": 25.25,
+      "rewards/rejected": -25.875,
+      "step": 690
+    },
+    {
+      "epoch": 2.236421725239617,
+      "grad_norm": 2.496039811099546e-05,
+      "learning_rate": 1.4142011834319526e-07,
+      "logits/chosen": -2.875,
+      "logits/rejected": -2.734375,
+      "logps/chosen": -176.0,
+      "logps/rejected": -384.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.52734375,
+      "rewards/margins": 25.875,
+      "rewards/rejected": -26.375,
+      "step": 700
+    },
+    {
+      "epoch": 2.268370607028754,
+      "grad_norm": 0.0007535369831177368,
+      "learning_rate": 1.3550295857988164e-07,
+      "logits/chosen": -2.90625,
+      "logits/rejected": -2.734375,
+      "logps/chosen": -137.0,
+      "logps/rejected": -390.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.52734375,
+      "rewards/margins": 25.75,
+      "rewards/rejected": -26.375,
+      "step": 710
+    },
+    {
+      "epoch": 2.3003194888178915,
+      "grad_norm": 3.433513476668793e-05,
+      "learning_rate": 1.2958579881656802e-07,
+      "logits/chosen": -2.921875,
+      "logits/rejected": -2.75,
+      "logps/chosen": -170.0,
+      "logps/rejected": -378.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.515625,
+      "rewards/margins": 24.5,
+      "rewards/rejected": -25.125,
+      "step": 720
+    },
+    {
+      "epoch": 2.3322683706070286,
+      "grad_norm": 6.19179422080526e-05,
+      "learning_rate": 1.2366863905325443e-07,
+      "logits/chosen": -2.953125,
+      "logits/rejected": -2.6875,
+      "logps/chosen": -176.0,
+      "logps/rejected": -386.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.59375,
+      "rewards/margins": 26.0,
+      "rewards/rejected": -26.625,
+      "step": 730
+    },
+    {
+      "epoch": 2.364217252396166,
+      "grad_norm": 7.621063491496295e-05,
+      "learning_rate": 1.1775147928994082e-07,
+      "logits/chosen": -2.890625,
+      "logits/rejected": -2.703125,
+      "logps/chosen": -166.0,
+      "logps/rejected": -386.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.765625,
+      "rewards/margins": 25.75,
+      "rewards/rejected": -26.5,
+      "step": 740
+    },
+    {
+      "epoch": 2.3961661341853033,
+      "grad_norm": 0.010658960126496895,
+      "learning_rate": 1.1183431952662721e-07,
+      "logits/chosen": -2.953125,
+      "logits/rejected": -2.75,
+      "logps/chosen": -175.0,
+      "logps/rejected": -394.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7578125,
+      "rewards/margins": 26.75,
+      "rewards/rejected": -27.375,
+      "step": 750
+    },
+    {
+      "epoch": 2.428115015974441,
+      "grad_norm": 1.9886464080428738e-05,
+      "learning_rate": 1.059171597633136e-07,
+      "logits/chosen": -2.90625,
+      "logits/rejected": -2.71875,
+      "logps/chosen": -158.0,
+      "logps/rejected": -390.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7109375,
+      "rewards/margins": 25.375,
+      "rewards/rejected": -26.125,
+      "step": 760
+    },
+    {
+      "epoch": 2.460063897763578,
+      "grad_norm": 0.0002488714626064026,
+      "learning_rate": 1e-07,
+      "logits/chosen": -2.890625,
+      "logits/rejected": -2.75,
+      "logps/chosen": -150.0,
+      "logps/rejected": -400.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.86328125,
+      "rewards/margins": 26.25,
+      "rewards/rejected": -27.125,
+      "step": 770
+    },
+    {
+      "epoch": 2.4920127795527156,
+      "grad_norm": 0.00016121672886946543,
+      "learning_rate": 9.408284023668639e-08,
+      "logits/chosen": -2.890625,
+      "logits/rejected": -2.75,
+      "logps/chosen": -174.0,
+      "logps/rejected": -394.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.84375,
+      "rewards/margins": 25.75,
+      "rewards/rejected": -26.625,
+      "step": 780
+    },
+    {
+      "epoch": 2.523961661341853,
+      "grad_norm": 5.202363139806019e-05,
+      "learning_rate": 8.816568047337278e-08,
+      "logits/chosen": -2.796875,
+      "logits/rejected": -2.640625,
+      "logps/chosen": -170.0,
+      "logps/rejected": -400.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.9921875,
+      "rewards/margins": 26.125,
+      "rewards/rejected": -27.25,
+      "step": 790
+    },
+    {
+      "epoch": 2.5559105431309903,
+      "grad_norm": 0.00026720074074842884,
+      "learning_rate": 8.224852071005916e-08,
+      "logits/chosen": -2.84375,
+      "logits/rejected": -2.671875,
+      "logps/chosen": -180.0,
+      "logps/rejected": -394.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.91015625,
+      "rewards/margins": 25.875,
+      "rewards/rejected": -26.75,
+      "step": 800
+    },
+    {
+      "epoch": 2.587859424920128,
+      "grad_norm": 4.582941461064897e-06,
+      "learning_rate": 7.633136094674555e-08,
+      "logits/chosen": -2.84375,
+      "logits/rejected": -2.640625,
+      "logps/chosen": -150.0,
+      "logps/rejected": -370.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6328125,
+      "rewards/margins": 24.5,
+      "rewards/rejected": -25.125,
+      "step": 810
+    },
+    {
+      "epoch": 2.619808306709265,
+      "grad_norm": 0.00013491541270218465,
+      "learning_rate": 7.041420118343195e-08,
+      "logits/chosen": -2.859375,
+      "logits/rejected": -2.6875,
+      "logps/chosen": -172.0,
+      "logps/rejected": -400.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8828125,
+      "rewards/margins": 27.0,
+      "rewards/rejected": -27.875,
+      "step": 820
+    },
+    {
+      "epoch": 2.6517571884984026,
+      "grad_norm": 9.158762056685416e-05,
+      "learning_rate": 6.449704142011835e-08,
+      "logits/chosen": -2.890625,
+      "logits/rejected": -2.703125,
+      "logps/chosen": -179.0,
+      "logps/rejected": -384.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.09375,
+      "rewards/margins": 24.875,
+      "rewards/rejected": -26.0,
+      "step": 830
+    },
+    {
+      "epoch": 2.68370607028754,
+      "grad_norm": 0.00017437168798643718,
+      "learning_rate": 5.857988165680473e-08,
+      "logits/chosen": -2.90625,
+      "logits/rejected": -2.703125,
+      "logps/chosen": -168.0,
+      "logps/rejected": -400.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.95703125,
+      "rewards/margins": 26.25,
+      "rewards/rejected": -27.25,
+      "step": 840
+    },
+    {
+      "epoch": 2.7156549520766773,
+      "grad_norm": 5.8399803924560536e-05,
+      "learning_rate": 5.266272189349112e-08,
+      "logits/chosen": -2.90625,
+      "logits/rejected": -2.59375,
+      "logps/chosen": -189.0,
+      "logps/rejected": -396.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.890625,
+      "rewards/margins": 26.5,
+      "rewards/rejected": -27.5,
+      "step": 850
+    },
+    {
+      "epoch": 2.747603833865815,
+      "grad_norm": 3.8305510276667966e-05,
+      "learning_rate": 4.674556213017751e-08,
+      "logits/chosen": -2.84375,
+      "logits/rejected": -2.609375,
+      "logps/chosen": -174.0,
+      "logps/rejected": -400.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.9921875,
+      "rewards/margins": 26.0,
+      "rewards/rejected": -27.0,
+      "step": 860
+    },
+    {
+      "epoch": 2.779552715654952,
+      "grad_norm": 4.711499537336409e-05,
+      "learning_rate": 4.082840236686391e-08,
+      "logits/chosen": -2.890625,
+      "logits/rejected": -2.625,
+      "logps/chosen": -157.0,
+      "logps/rejected": -396.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.86328125,
+      "rewards/margins": 26.375,
+      "rewards/rejected": -27.25,
+      "step": 870
+    },
+    {
+      "epoch": 2.8115015974440896,
+      "grad_norm": 6.254389531377533e-05,
+      "learning_rate": 3.4911242603550294e-08,
+      "logits/chosen": -2.84375,
+      "logits/rejected": -2.625,
+      "logps/chosen": -144.0,
+      "logps/rejected": -412.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.72265625,
+      "rewards/margins": 28.125,
+      "rewards/rejected": -28.875,
+      "step": 880
+    },
+    {
+      "epoch": 2.8434504792332267,
+      "grad_norm": 0.0003230797654674014,
+      "learning_rate": 2.8994082840236687e-08,
+      "logits/chosen": -2.828125,
+      "logits/rejected": -2.671875,
+      "logps/chosen": -184.0,
+      "logps/rejected": -418.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1015625,
+      "rewards/margins": 28.0,
+      "rewards/rejected": -29.125,
+      "step": 890
+    },
+    {
+      "epoch": 2.8753993610223643,
+      "grad_norm": 0.0003811987661985824,
+      "learning_rate": 2.3076923076923076e-08,
+      "logits/chosen": -2.828125,
+      "logits/rejected": -2.609375,
+      "logps/chosen": -170.0,
+      "logps/rejected": -402.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.2265625,
+      "rewards/margins": 27.125,
+      "rewards/rejected": -28.375,
+      "step": 900
+    },
+    {
+      "epoch": 2.9073482428115014,
+      "grad_norm": 0.00010610309145449586,
+      "learning_rate": 1.7159763313609465e-08,
+      "logits/chosen": -2.78125,
+      "logits/rejected": -2.625,
+      "logps/chosen": -179.0,
+      "logps/rejected": -404.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1328125,
+      "rewards/margins": 26.375,
+      "rewards/rejected": -27.5,
+      "step": 910
+    },
+    {
+      "epoch": 2.939297124600639,
+      "grad_norm": 1.1872477415615446e-05,
+      "learning_rate": 1.1242603550295858e-08,
+      "logits/chosen": -2.796875,
+      "logits/rejected": -2.65625,
+      "logps/chosen": -158.0,
+      "logps/rejected": -414.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.83203125,
+      "rewards/margins": 28.25,
+      "rewards/rejected": -29.125,
+      "step": 920
+    },
+    {
+      "epoch": 2.9712460063897765,
+      "grad_norm": 0.00020819970285151538,
+      "learning_rate": 5.325443786982248e-09,
+      "logits/chosen": -2.84375,
+      "logits/rejected": -2.671875,
+      "logps/chosen": -167.0,
+      "logps/rejected": -404.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1953125,
+      "rewards/margins": 27.125,
+      "rewards/rejected": -28.375,
+      "step": 930
+    },
+    {
+      "epoch": 3.0,
+      "eval_logits/chosen": -2.890625,
+      "eval_logits/rejected": -2.640625,
+      "eval_logps/chosen": -161.0,
+      "eval_logps/rejected": -404.0,
+      "eval_loss": 7.691533596698719e-07,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/chosen": -1.0234375,
+      "eval_rewards/margins": 27.25,
+      "eval_rewards/rejected": -28.375,
+      "eval_runtime": 15.3546,
+      "eval_samples_per_second": 13.025,
+      "eval_steps_per_second": 0.456,
+      "step": 939
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }