AmberYifan commited on 14 days ago

Commit

1844941

verified ·

1 Parent(s): 987b12b

Training in progress, epoch 3, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/global_step930/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step930/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step930/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step930/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step930/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step930/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step930/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step930/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +484 -3

last-checkpoint/global_step930/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e3f5ec6e41092d04b2fabf6f4881dc62f2368c8193b7ab7effa7e86fe914753
+size 14496051368

last-checkpoint/global_step930/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ec7d3700593f9a2d6248eb2910cb64bac902c9c0e1788ccef463c447d969806
+size 14496051368

last-checkpoint/global_step930/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:33b4336749519f86702d4ac9c56027bbb5fd0a285fddc29c96076d55db83f0f3
+size 14496051368

last-checkpoint/global_step930/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b3110e6749843e53a50a29f0105a93789bd335a72e4639a8ac3e30055b30e57f
+size 14496051368

last-checkpoint/global_step930/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b21aba8486196f9285f8f6e2ff830fd03ef7fdc344d1908fcdbed3c8d3a31e56
+size 150629

last-checkpoint/global_step930/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:875c8826cccf9c7bbafbe2eb5aefd7006b82020a4bf595fce49f156e51ac4586
+size 150629

last-checkpoint/global_step930/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d7e437fd1ca6281a928627ecb6349520b8485053b4c33302950261a8933af880
+size 150629

last-checkpoint/global_step930/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3219946b4f64e8587b6366bbd62c8f1d640f11764d2b84f74ce3a451981b736b
+size 150629

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step620~~


1	+ global_step930

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f04063fa12fe1619800b0ebefb5d2970cc38d956a23578ca52e3402af7bdb404
 size 4949453792

 version https://git-lfs.github.com/spec/v1
+oid sha256:66d51a21bf63fda47bb7fcd9afce0ebb0d1348c51d04b669b2b20f2443873250
 size 4949453792

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c51f4c858b8f0002bbb5989a332166c0c0881bdcf50c06a05a01716f1af25c7
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:0078ab561d4b6f9f250279621f4eb553d3c041c4acad25bd8f0d935e77facf89
 size 4999819336

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ec599ee402233affa2e8dbb51036577834c1d4166681a044ef5ea67c46203f0
 size 4546807800

 version https://git-lfs.github.com/spec/v1
+oid sha256:8fb36fb4800d8a729199547e1129dd9b07d5baa8b17f85545bf4ebc481b28463
 size 4546807800

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2307c03867cef25b5028feb9a23f80e784b9af9a615de13ddca560a6a90fb593
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab7cf0d34d60dfda516cf9661904550e2e294e723edd07c25c738f05e8ba92d1
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50218cfaecdd818354e567b7167c13899e3b42297e7d8f58bd7e732cfa547800
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7b183324e8227a51a9556d86b2ad893a8c4c52205ed4a737356c6611dac7353
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9814a66b49861f5495b06dae3be12ddf7185b88e2cae1fb808ca9efd99d5807f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac69e994090f4818cb1fa6f6cefa363178552c3c731c6507ff195bcb07fd5bef
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7be93040a65e0a29975f6c70b94418e1fdf88423a50c58aa572141d3c92fbfc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f68e61b63402f8afb1f69c960f7944965655dac11e3ccf29919c282f23931f86
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cc6b970d8e5e214aa823c0d575643a91300739c2aa894dc016cba903d55bb8d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c10f428b67fa0d88b04b78a5cc93219d70a153e68839352f1a83bcb578198a7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 620,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -984,6 +984,487 @@
       "eval_samples_per_second": 15.1,
       "eval_steps_per_second": 0.528,
       "step": 620
     }
   ],
   "logging_steps": 10,
@@ -998,7 +1479,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 930,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.1,
       "eval_steps_per_second": 0.528,
       "step": 620
+    },
+    {
+      "epoch": 2.032258064516129,
+      "grad_norm": 0.45384363049400467,
+      "learning_rate": 1.7921146953405018e-07,
+      "logits/chosen": -3.5625,
+      "logits/rejected": -3.578125,
+      "logps/chosen": -191.0,
+      "logps/rejected": -300.0,
+      "loss": 0.0012,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.28125,
+      "rewards/margins": 10.1875,
+      "rewards/rejected": -10.4375,
+      "step": 630
+    },
+    {
+      "epoch": 2.064516129032258,
+      "grad_norm": 2.0283023878654722,
+      "learning_rate": 1.7323775388291518e-07,
+      "logits/chosen": -3.609375,
+      "logits/rejected": -3.640625,
+      "logps/chosen": -191.0,
+      "logps/rejected": -298.0,
+      "loss": 0.0019,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.302734375,
+      "rewards/margins": 10.25,
+      "rewards/rejected": -10.5625,
+      "step": 640
+    },
+    {
+      "epoch": 2.096774193548387,
+      "grad_norm": 0.9217664266560652,
+      "learning_rate": 1.6726403823178015e-07,
+      "logits/chosen": -3.6875,
+      "logits/rejected": -3.75,
+      "logps/chosen": -193.0,
+      "logps/rejected": -298.0,
+      "loss": 0.0013,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.93359375,
+      "rewards/margins": 9.625,
+      "rewards/rejected": -10.5625,
+      "step": 650
+    },
+    {
+      "epoch": 2.129032258064516,
+      "grad_norm": 0.44858819876518125,
+      "learning_rate": 1.6129032258064515e-07,
+      "logits/chosen": -3.6875,
+      "logits/rejected": -3.703125,
+      "logps/chosen": -207.0,
+      "logps/rejected": -316.0,
+      "loss": 0.0012,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.3046875,
+      "rewards/margins": 10.125,
+      "rewards/rejected": -11.4375,
+      "step": 660
+    },
+    {
+      "epoch": 2.161290322580645,
+      "grad_norm": 9.792046659236782,
+      "learning_rate": 1.5531660692951015e-07,
+      "logits/chosen": -3.578125,
+      "logits/rejected": -3.59375,
+      "logps/chosen": -199.0,
+      "logps/rejected": -310.0,
+      "loss": 0.0019,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1875,
+      "rewards/margins": 9.875,
+      "rewards/rejected": -11.0625,
+      "step": 670
+    },
+    {
+      "epoch": 2.193548387096774,
+      "grad_norm": 0.3983602269153926,
+      "learning_rate": 1.4934289127837515e-07,
+      "logits/chosen": -3.5,
+      "logits/rejected": -3.703125,
+      "logps/chosen": -188.0,
+      "logps/rejected": -302.0,
+      "loss": 0.0024,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.59375,
+      "rewards/margins": 10.25,
+      "rewards/rejected": -10.875,
+      "step": 680
+    },
+    {
+      "epoch": 2.225806451612903,
+      "grad_norm": 1.2472683997191045,
+      "learning_rate": 1.4336917562724012e-07,
+      "logits/chosen": -3.59375,
+      "logits/rejected": -3.65625,
+      "logps/chosen": -202.0,
+      "logps/rejected": -312.0,
+      "loss": 0.0011,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.0546875,
+      "rewards/margins": 10.25,
+      "rewards/rejected": -11.3125,
+      "step": 690
+    },
+    {
+      "epoch": 2.258064516129032,
+      "grad_norm": 0.9104056031581937,
+      "learning_rate": 1.3739545997610514e-07,
+      "logits/chosen": -3.453125,
+      "logits/rejected": -3.53125,
+      "logps/chosen": -192.0,
+      "logps/rejected": -308.0,
+      "loss": 0.0008,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.90625,
+      "rewards/margins": 10.625,
+      "rewards/rejected": -11.5625,
+      "step": 700
+    },
+    {
+      "epoch": 2.2903225806451615,
+      "grad_norm": 0.5005896742747854,
+      "learning_rate": 1.3142174432497014e-07,
+      "logits/chosen": -3.453125,
+      "logits/rejected": -3.5625,
+      "logps/chosen": -196.0,
+      "logps/rejected": -316.0,
+      "loss": 0.0015,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.51953125,
+      "rewards/margins": 11.4375,
+      "rewards/rejected": -11.9375,
+      "step": 710
+    },
+    {
+      "epoch": 2.3225806451612905,
+      "grad_norm": 2.0961727669442247,
+      "learning_rate": 1.254480286738351e-07,
+      "logits/chosen": -3.53125,
+      "logits/rejected": -3.546875,
+      "logps/chosen": -206.0,
+      "logps/rejected": -318.0,
+      "loss": 0.0011,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.515625,
+      "rewards/margins": 10.5,
+      "rewards/rejected": -12.0,
+      "step": 720
+    },
+    {
+      "epoch": 2.3548387096774195,
+      "grad_norm": 0.33710671811391674,
+      "learning_rate": 1.194743130227001e-07,
+      "logits/chosen": -3.53125,
+      "logits/rejected": -3.578125,
+      "logps/chosen": -201.0,
+      "logps/rejected": -318.0,
+      "loss": 0.0008,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.625,
+      "rewards/margins": 10.375,
+      "rewards/rejected": -12.0,
+      "step": 730
+    },
+    {
+      "epoch": 2.3870967741935485,
+      "grad_norm": 3.7387698089394634,
+      "learning_rate": 1.135005973715651e-07,
+      "logits/chosen": -3.59375,
+      "logits/rejected": -3.625,
+      "logps/chosen": -202.0,
+      "logps/rejected": -314.0,
+      "loss": 0.0014,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.3671875,
+      "rewards/margins": 10.375,
+      "rewards/rejected": -11.75,
+      "step": 740
+    },
+    {
+      "epoch": 2.4193548387096775,
+      "grad_norm": 3.5076436110564426,
+      "learning_rate": 1.0752688172043011e-07,
+      "logits/chosen": -3.5625,
+      "logits/rejected": -3.6875,
+      "logps/chosen": -192.0,
+      "logps/rejected": -306.0,
+      "loss": 0.0019,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.53125,
+      "rewards/margins": 10.4375,
+      "rewards/rejected": -11.0,
+      "step": 750
+    },
+    {
+      "epoch": 2.4516129032258065,
+      "grad_norm": 0.3051005963902528,
+      "learning_rate": 1.0155316606929509e-07,
+      "logits/chosen": -3.46875,
+      "logits/rejected": -3.53125,
+      "logps/chosen": -194.0,
+      "logps/rejected": -312.0,
+      "loss": 0.0009,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.94140625,
+      "rewards/margins": 10.625,
+      "rewards/rejected": -11.5625,
+      "step": 760
+    },
+    {
+      "epoch": 2.4838709677419355,
+      "grad_norm": 0.4055555200925197,
+      "learning_rate": 9.557945041816009e-08,
+      "logits/chosen": -3.40625,
+      "logits/rejected": -3.546875,
+      "logps/chosen": -190.0,
+      "logps/rejected": -314.0,
+      "loss": 0.0014,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.76953125,
+      "rewards/margins": 11.0,
+      "rewards/rejected": -11.75,
+      "step": 770
+    },
+    {
+      "epoch": 2.5161290322580645,
+      "grad_norm": 0.4423005388531537,
+      "learning_rate": 8.960573476702509e-08,
+      "logits/chosen": -3.5625,
+      "logits/rejected": -3.5625,
+      "logps/chosen": -211.0,
+      "logps/rejected": -336.0,
+      "loss": 0.0013,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.640625,
+      "rewards/margins": 11.5,
+      "rewards/rejected": -13.1875,
+      "step": 780
+    },
+    {
+      "epoch": 2.5483870967741935,
+      "grad_norm": 0.34201712686499286,
+      "learning_rate": 8.363201911589008e-08,
+      "logits/chosen": -3.4375,
+      "logits/rejected": -3.515625,
+      "logps/chosen": -197.0,
+      "logps/rejected": -312.0,
+      "loss": 0.001,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.81640625,
+      "rewards/margins": 10.9375,
+      "rewards/rejected": -11.75,
+      "step": 790
+    },
+    {
+      "epoch": 2.5806451612903225,
+      "grad_norm": 0.08324339497209432,
+      "learning_rate": 7.765830346475507e-08,
+      "logits/chosen": -3.421875,
+      "logits/rejected": -3.59375,
+      "logps/chosen": -207.0,
+      "logps/rejected": -330.0,
+      "loss": 0.0005,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.609375,
+      "rewards/margins": 11.5,
+      "rewards/rejected": -13.125,
+      "step": 800
+    },
+    {
+      "epoch": 2.6129032258064515,
+      "grad_norm": 0.35882151597975387,
+      "learning_rate": 7.168458781362006e-08,
+      "logits/chosen": -3.59375,
+      "logits/rejected": -3.6875,
+      "logps/chosen": -202.0,
+      "logps/rejected": -328.0,
+      "loss": 0.0045,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.03125,
+      "rewards/margins": 11.625,
+      "rewards/rejected": -12.6875,
+      "step": 810
+    },
+    {
+      "epoch": 2.6451612903225805,
+      "grad_norm": 0.3006723416131319,
+      "learning_rate": 6.571087216248507e-08,
+      "logits/chosen": -3.4375,
+      "logits/rejected": -3.609375,
+      "logps/chosen": -197.0,
+      "logps/rejected": -322.0,
+      "loss": 0.0026,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.40625,
+      "rewards/margins": 11.0,
+      "rewards/rejected": -12.4375,
+      "step": 820
+    },
+    {
+      "epoch": 2.6774193548387095,
+      "grad_norm": 0.9135709315414355,
+      "learning_rate": 5.973715651135006e-08,
+      "logits/chosen": -3.40625,
+      "logits/rejected": -3.546875,
+      "logps/chosen": -194.0,
+      "logps/rejected": -312.0,
+      "loss": 0.0026,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.046875,
+      "rewards/margins": 11.3125,
+      "rewards/rejected": -12.3125,
+      "step": 830
+    },
+    {
+      "epoch": 2.709677419354839,
+      "grad_norm": 0.11799710974470022,
+      "learning_rate": 5.3763440860215054e-08,
+      "logits/chosen": -3.453125,
+      "logits/rejected": -3.609375,
+      "logps/chosen": -193.0,
+      "logps/rejected": -330.0,
+      "loss": 0.001,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.79296875,
+      "rewards/margins": 12.8125,
+      "rewards/rejected": -13.625,
+      "step": 840
+    },
+    {
+      "epoch": 2.741935483870968,
+      "grad_norm": 0.24029168708895726,
+      "learning_rate": 4.7789725209080046e-08,
+      "logits/chosen": -3.484375,
+      "logits/rejected": -3.5625,
+      "logps/chosen": -200.0,
+      "logps/rejected": -320.0,
+      "loss": 0.0006,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.2734375,
+      "rewards/margins": 10.875,
+      "rewards/rejected": -12.1875,
+      "step": 850
+    },
+    {
+      "epoch": 2.774193548387097,
+      "grad_norm": 1.5601788534872705,
+      "learning_rate": 4.181600955794504e-08,
+      "logits/chosen": -3.484375,
+      "logits/rejected": -3.625,
+      "logps/chosen": -206.0,
+      "logps/rejected": -326.0,
+      "loss": 0.0009,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.265625,
+      "rewards/margins": 11.1875,
+      "rewards/rejected": -12.4375,
+      "step": 860
+    },
+    {
+      "epoch": 2.806451612903226,
+      "grad_norm": 2.7780970090627104,
+      "learning_rate": 3.584229390681003e-08,
+      "logits/chosen": -3.53125,
+      "logits/rejected": -3.65625,
+      "logps/chosen": -201.0,
+      "logps/rejected": -320.0,
+      "loss": 0.0025,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.0546875,
+      "rewards/margins": 10.8125,
+      "rewards/rejected": -11.875,
+      "step": 870
+    },
+    {
+      "epoch": 2.838709677419355,
+      "grad_norm": 0.36034720795454384,
+      "learning_rate": 2.986857825567503e-08,
+      "logits/chosen": -3.546875,
+      "logits/rejected": -3.578125,
+      "logps/chosen": -198.0,
+      "logps/rejected": -318.0,
+      "loss": 0.0008,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.86328125,
+      "rewards/margins": 11.25,
+      "rewards/rejected": -12.125,
+      "step": 880
+    },
+    {
+      "epoch": 2.870967741935484,
+      "grad_norm": 0.2764304820275906,
+      "learning_rate": 2.3894862604540023e-08,
+      "logits/chosen": -3.59375,
+      "logits/rejected": -3.671875,
+      "logps/chosen": -203.0,
+      "logps/rejected": -316.0,
+      "loss": 0.0037,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.03125,
+      "rewards/margins": 10.6875,
+      "rewards/rejected": -11.75,
+      "step": 890
+    },
+    {
+      "epoch": 2.903225806451613,
+      "grad_norm": 0.4293826404732342,
+      "learning_rate": 1.7921146953405015e-08,
+      "logits/chosen": -3.4375,
+      "logits/rejected": -3.546875,
+      "logps/chosen": -208.0,
+      "logps/rejected": -322.0,
+      "loss": 0.0011,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.859375,
+      "rewards/margins": 10.875,
+      "rewards/rejected": -12.6875,
+      "step": 900
+    },
+    {
+      "epoch": 2.935483870967742,
+      "grad_norm": 0.34603080271508346,
+      "learning_rate": 1.1947431302270011e-08,
+      "logits/chosen": -3.546875,
+      "logits/rejected": -3.703125,
+      "logps/chosen": -207.0,
+      "logps/rejected": -320.0,
+      "loss": 0.0007,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.265625,
+      "rewards/margins": 11.0,
+      "rewards/rejected": -12.25,
+      "step": 910
+    },
+    {
+      "epoch": 2.967741935483871,
+      "grad_norm": 2.3868143014919885,
+      "learning_rate": 5.973715651135006e-09,
+      "logits/chosen": -3.4375,
+      "logits/rejected": -3.65625,
+      "logps/chosen": -188.0,
+      "logps/rejected": -304.0,
+      "loss": 0.002,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.71484375,
+      "rewards/margins": 10.375,
+      "rewards/rejected": -11.125,
+      "step": 920
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.40772402916251804,
+      "learning_rate": 0.0,
+      "logits/chosen": -3.5,
+      "logits/rejected": -3.609375,
+      "logps/chosen": -194.0,
+      "logps/rejected": -320.0,
+      "loss": 0.0006,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1796875,
+      "rewards/margins": 10.9375,
+      "rewards/rejected": -12.125,
+      "step": 930
+    },
+    {
+      "epoch": 3.0,
+      "eval_logits/chosen": -3.734375,
+      "eval_logits/rejected": -3.75,
+      "eval_logps/chosen": -226.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.19125854969024658,
+      "eval_rewards/accuracies": 0.8928571343421936,
+      "eval_rewards/chosen": -2.703125,
+      "eval_rewards/margins": 6.3125,
+      "eval_rewards/rejected": -9.0,
+      "eval_runtime": 16.0795,
+      "eval_samples_per_second": 12.438,
+      "eval_steps_per_second": 0.435,
+      "step": 930
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }