Model save

Browse files

Files changed (7) hide show

README.md +24 -32
adapter_config.json +5 -5
adapter_model.safetensors +2 -2
all_results.json +4 -4
train_results.json +4 -4
trainer_state.json +366 -414
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -2,10 +2,6 @@
 license: apache-2.0
 library_name: peft
 tags:
-- choo-choo
-- trl
-- dpo
-- generated_from_trainer
 - trl
 - dpo
 - generated_from_trainer
@@ -20,17 +16,17 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-lora-dpo-dibt-v0
-This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the argilla/10k_prompts_dpo dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6880
-- Rewards/chosen: 0.0206
-- Rewards/rejected: 0.0095
-- Rewards/accuracies: 0.5543
-- Rewards/margins: 0.0111
-- Logps/rejected: -302.0764
-- Logps/chosen: -309.3295
-- Logits/rejected: -2.7006
-- Logits/chosen: -2.7426
 ## Model description
@@ -49,12 +45,11 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 5e-07
-- train_batch_size: 8
-- eval_batch_size: 8
 - seed: 42
-- distributed_type: multi-GPU
-- gradient_accumulation_steps: 2
 - total_train_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
@@ -65,19 +60,16 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.692         | 0.15  | 15   | 0.6941          | 0.0033         | 0.0045           | 0.4293             | -0.0012         | -302.1268      | -309.5031    | -2.7013         | -2.7433       |
-| 0.6928        | 0.29  | 30   | 0.6947          | 0.0052         | 0.0076           | 0.4674             | -0.0024         | -302.0954      | -309.4838    | -2.7012         | -2.7431       |
-| 0.6917        | 0.44  | 45   | 0.6915          | 0.0061         | 0.0022           | 0.4891             | 0.0039          | -302.1492      | -309.4744    | -2.7012         | -2.7431       |
-| 0.6924        | 0.58  | 60   | 0.6938          | 0.0076         | 0.0083           | 0.4837             | -0.0007         | -302.0891      | -309.4600    | -2.7012         | -2.7432       |
-| 0.6907        | 0.73  | 75   | 0.6897          | 0.0137         | 0.0061           | 0.5489             | 0.0076          | -302.1107      | -309.3987    | -2.7009         | -2.7428       |
-| 0.6921        | 0.87  | 90   | 0.6930          | 0.0096         | 0.0086           | 0.5163             | 0.0011          | -302.0862      | -309.4397    | -2.7008         | -2.7429       |
-| 0.6935        | 1.02  | 105  | 0.6894          | 0.0165         | 0.0080           | 0.5272             | 0.0085          | -302.0916      | -309.3708    | -2.7007         | -2.7427       |
-| 0.6873        | 1.17  | 120  | 0.6895          | 0.0192         | 0.0110           | 0.5435             | 0.0082          | -302.0618      | -309.3437    | -2.7005         | -2.7424       |
-| 0.6869        | 1.31  | 135  | 0.6874          | 0.0181         | 0.0059           | 0.5489             | 0.0122          | -302.1123      | -309.3547    | -2.7006         | -2.7426       |
-| 0.6842        | 1.46  | 150  | 0.6894          | 0.0179         | 0.0094           | 0.5543             | 0.0085          | -302.0776      | -309.3570    | -2.7005         | -2.7424       |
-| 0.6848        | 1.6   | 165  | 0.6885          | 0.0171         | 0.0069           | 0.5924             | 0.0102          | -302.1031      | -309.3650    | -2.7007         | -2.7426       |
-| 0.6906        | 1.75  | 180  | 0.6897          | 0.0183         | 0.0107           | 0.5652             | 0.0077          | -302.0652      | -309.3525    | -2.7007         | -2.7426       |
-| 0.6878        | 1.89  | 195  | 0.6880          | 0.0206         | 0.0095           | 0.5543             | 0.0111          | -302.0764      | -309.3295    | -2.7006         | -2.7426       |
 ### Framework versions

 license: apache-2.0
 library_name: peft
 tags:
 - trl
 - dpo
 - generated_from_trainer
 # zephyr-7b-lora-dpo-dibt-v0
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.1666
+- Rewards/chosen: -0.7428
+- Rewards/rejected: -5.5139
+- Rewards/accuracies: 0.9375
+- Rewards/margins: 4.7711
+- Logps/rejected: -387.5656
+- Logps/chosen: -341.2073
+- Logits/rejected: -2.1864
+- Logits/chosen: -2.2314
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 4
+- eval_batch_size: 16
 - seed: 42
+- gradient_accumulation_steps: 4
 - total_train_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.6028        | 0.19  | 20   | 0.5286          | 0.8789         | 0.4471           | 0.8125             | 0.4318          | -327.9556      | -324.9910    | -2.6143         | -2.6401       |
+| 0.3363        | 0.39  | 40   | 0.3232          | 0.5215         | -1.1097          | 0.8594             | 1.6312          | -343.5236      | -328.5651    | -2.5076         | -2.5352       |
+| 0.2458        | 0.58  | 60   | 0.2501          | 0.5738         | -1.8685          | 0.9115             | 2.4423          | -351.1114      | -328.0413    | -2.5602         | -2.5924       |
+| 0.2116        | 0.78  | 80   | 0.1991          | -0.6755        | -3.8274          | 0.9167             | 3.1519          | -370.7006      | -340.5351    | -2.3129         | -2.3427       |
+| 0.1386        | 0.97  | 100  | 0.2002          | 0.2920         | -3.0192          | 0.9375             | 3.3111          | -362.6181      | -330.8600    | -2.3132         | -2.3535       |
+| 0.0458        | 1.17  | 120  | 0.1748          | -1.3802        | -5.8772          | 0.9479             | 4.4969          | -391.1983      | -347.5820    | -2.2290         | -2.2717       |
+| 0.0426        | 1.36  | 140  | 0.1755          | -0.0635        | -4.3090          | 0.9375             | 4.2455          | -375.5160      | -334.4143    | -2.1959         | -2.2403       |
+| 0.029         | 1.55  | 160  | 0.1692          | -0.7990        | -5.4881          | 0.9375             | 4.6891          | -387.3076      | -341.7697    | -2.1893         | -2.2329       |
+| 0.0676        | 1.75  | 180  | 0.1676          | -0.6944        | -5.4513          | 0.9375             | 4.7569          | -386.9397      | -340.7238    | -2.1864         | -2.2314       |
+| 0.0517        | 1.94  | 200  | 0.1666          | -0.7428        | -5.5139          | 0.9375             | 4.7711          | -387.5656      | -341.2073    | -2.1864         | -2.2314       |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -19,13 +19,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "q_proj",
-    "o_proj",
-    "up_proj",
     "gate_proj",
-    "v_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
     "q_proj",
     "gate_proj",
+    "down_proj",
+    "up_proj",
+    "k_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40cc3fb10b4112d1d13d36de34f753a35d649edadff1464d61a9fa981dc2b240
-size 83945744

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9f9dcda5a1bb845877e783f80b70edbd516461f7ed542c3bdbef85cd88c3304
+size 83946192

all_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 2.0,
-    "train_loss": 0.6897733697613466,
-    "train_runtime": 4283.1211,
-    "train_samples_per_second": 0.77,
-    "train_steps_per_second": 0.048
 }

 {
     "epoch": 2.0,
+    "train_loss": 0.1882365908726905,
+    "train_runtime": 5068.0756,
+    "train_samples_per_second": 0.65,
+    "train_steps_per_second": 0.041
 }

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 2.0,
-    "train_loss": 0.6897733697613466,
-    "train_runtime": 4283.1211,
-    "train_samples_per_second": 0.77,
-    "train_steps_per_second": 0.048
 }

 {
     "epoch": 2.0,
+    "train_loss": 0.1882365908726905,
+    "train_runtime": 5068.0756,
+    "train_samples_per_second": 0.65,
+    "train_steps_per_second": 0.041
 }

trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 2.0,
-  "eval_steps": 15,
   "global_step": 206,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
@@ -10,12 +10,12 @@
   "log_history": [
     {
       "epoch": 0.01,
-      "grad_norm": 7.41796875,
-      "learning_rate": 2.3809523809523807e-08,
-      "logits/chosen": -2.756326198577881,
-      "logits/rejected": -2.847414255142212,
-      "logps/chosen": -339.47064208984375,
-      "logps/rejected": -420.81683349609375,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
@@ -25,520 +25,472 @@
     },
     {
       "epoch": 0.1,
-      "grad_norm": 6.6015625,
-      "learning_rate": 2.3809523809523806e-07,
-      "logits/chosen": -2.7214999198913574,
-      "logits/rejected": -2.6868648529052734,
-      "logps/chosen": -312.2082214355469,
-      "logps/rejected": -288.3475646972656,
-      "loss": 0.692,
-      "rewards/accuracies": 0.4027777910232544,
-      "rewards/chosen": 0.004871072247624397,
-      "rewards/margins": 0.002507249591872096,
-      "rewards/rejected": 0.0023638224229216576,
       "step": 10
     },
-    {
-      "epoch": 0.15,
-      "eval_logits/chosen": -2.7432966232299805,
-      "eval_logits/rejected": -2.7012619972229004,
-      "eval_logps/chosen": -309.50311279296875,
-      "eval_logps/rejected": -302.12677001953125,
-      "eval_loss": 0.6940569281578064,
-      "eval_rewards/accuracies": 0.42934781312942505,
-      "eval_rewards/chosen": 0.0032746284268796444,
-      "eval_rewards/margins": -0.0012154963333159685,
-      "eval_rewards/rejected": 0.004490124061703682,
-      "eval_runtime": 80.1148,
-      "eval_samples_per_second": 2.297,
-      "eval_steps_per_second": 0.287,
-      "step": 15
-    },
     {
       "epoch": 0.19,
-      "grad_norm": 6.4453125,
-      "learning_rate": 4.761904761904761e-07,
-      "logits/chosen": -2.7492623329162598,
-      "logits/rejected": -2.7453362941741943,
-      "logps/chosen": -308.85650634765625,
-      "logps/rejected": -305.1255798339844,
-      "loss": 0.695,
-      "rewards/accuracies": 0.4625000059604645,
-      "rewards/chosen": -0.0020826407708227634,
-      "rewards/margins": -0.0031254838686436415,
-      "rewards/rejected": 0.001042843097820878,
       "step": 20
     },
     {
-      "epoch": 0.29,
-      "grad_norm": 6.54296875,
-      "learning_rate": 4.97085891010373e-07,
-      "logits/chosen": -2.6984972953796387,
-      "logits/rejected": -2.6688642501831055,
-      "logps/chosen": -333.7822265625,
-      "logps/rejected": -332.2225036621094,
-      "loss": 0.6928,
-      "rewards/accuracies": 0.5249999761581421,
-      "rewards/chosen": 0.0055278996005654335,
-      "rewards/margins": 0.0012028769124299288,
-      "rewards/rejected": 0.004325023386627436,
-      "step": 30
     },
     {
       "epoch": 0.29,
-      "eval_logits/chosen": -2.743105173110962,
-      "eval_logits/rejected": -2.7011570930480957,
-      "eval_logps/chosen": -309.48382568359375,
-      "eval_logps/rejected": -302.09539794921875,
-      "eval_loss": 0.6946766972541809,
-      "eval_rewards/accuracies": 0.46739131212234497,
-      "eval_rewards/chosen": 0.0051994770765304565,
-      "eval_rewards/margins": -0.0024300608783960342,
-      "eval_rewards/rejected": 0.007629538420587778,
-      "eval_runtime": 80.0093,
-      "eval_samples_per_second": 2.3,
-      "eval_steps_per_second": 0.287,
       "step": 30
     },
     {
       "epoch": 0.39,
-      "grad_norm": 7.19140625,
-      "learning_rate": 4.870996167038154e-07,
-      "logits/chosen": -2.738722562789917,
-      "logits/rejected": -2.699627161026001,
-      "logps/chosen": -332.95074462890625,
-      "logps/rejected": -322.2561950683594,
-      "loss": 0.6917,
-      "rewards/accuracies": 0.4625000059604645,
-      "rewards/chosen": 0.0022713630460202694,
-      "rewards/margins": 0.003374040825292468,
-      "rewards/rejected": -0.001102677546441555,
       "step": 40
     },
     {
-      "epoch": 0.44,
-      "eval_logits/chosen": -2.7431130409240723,
-      "eval_logits/rejected": -2.701150417327881,
-      "eval_logps/chosen": -309.474365234375,
-      "eval_logps/rejected": -302.14923095703125,
-      "eval_loss": 0.6914945244789124,
-      "eval_rewards/accuracies": 0.489130437374115,
-      "eval_rewards/chosen": 0.006148318760097027,
-      "eval_rewards/margins": 0.0038983491249382496,
-      "eval_rewards/rejected": 0.0022499696351587772,
-      "eval_runtime": 80.0833,
-      "eval_samples_per_second": 2.298,
-      "eval_steps_per_second": 0.287,
-      "step": 45
     },
     {
       "epoch": 0.49,
-      "grad_norm": 6.23828125,
-      "learning_rate": 4.702924181108745e-07,
-      "logits/chosen": -2.7548866271972656,
-      "logits/rejected": -2.7012178897857666,
-      "logps/chosen": -347.8164367675781,
-      "logps/rejected": -330.61187744140625,
-      "loss": 0.6938,
-      "rewards/accuracies": 0.4312500059604645,
-      "rewards/chosen": 0.004203121177852154,
-      "rewards/margins": -0.0008790730498731136,
-      "rewards/rejected": 0.005082194693386555,
       "step": 50
     },
     {
       "epoch": 0.58,
-      "grad_norm": 6.83984375,
-      "learning_rate": 4.4714780773427975e-07,
-      "logits/chosen": -2.7282495498657227,
-      "logits/rejected": -2.695693254470825,
-      "logps/chosen": -320.3782653808594,
-      "logps/rejected": -316.97576904296875,
-      "loss": 0.6924,
-      "rewards/accuracies": 0.5375000238418579,
-      "rewards/chosen": 0.00440209498628974,
-      "rewards/margins": 0.0020671573001891375,
-      "rewards/rejected": 0.002334937918931246,
       "step": 60
     },
     {
       "epoch": 0.58,
-      "eval_logits/chosen": -2.7431647777557373,
-      "eval_logits/rejected": -2.7012221813201904,
-      "eval_logps/chosen": -309.4599914550781,
-      "eval_logps/rejected": -302.0891418457031,
-      "eval_loss": 0.6937867999076843,
-      "eval_rewards/accuracies": 0.4836956560611725,
-      "eval_rewards/chosen": 0.007588263601064682,
-      "eval_rewards/margins": -0.0006714080809615552,
-      "eval_rewards/rejected": 0.008259671740233898,
-      "eval_runtime": 80.0947,
-      "eval_samples_per_second": 2.297,
-      "eval_steps_per_second": 0.287,
       "step": 60
     },
     {
       "epoch": 0.68,
-      "grad_norm": 7.26953125,
-      "learning_rate": 4.1833161387527984e-07,
-      "logits/chosen": -2.7414700984954834,
-      "logits/rejected": -2.7190544605255127,
-      "logps/chosen": -344.57464599609375,
-      "logps/rejected": -304.53741455078125,
-      "loss": 0.6907,
-      "rewards/accuracies": 0.48124998807907104,
-      "rewards/chosen": 0.006406247615814209,
-      "rewards/margins": 0.0055833784863352776,
-      "rewards/rejected": 0.0008228697115555406,
       "step": 70
     },
-    {
-      "epoch": 0.73,
-      "eval_logits/chosen": -2.742759943008423,
-      "eval_logits/rejected": -2.700887680053711,
-      "eval_logps/chosen": -309.398681640625,
-      "eval_logps/rejected": -302.1106872558594,
-      "eval_loss": 0.6897082328796387,
-      "eval_rewards/accuracies": 0.5489130616188049,
-      "eval_rewards/chosen": 0.01371287927031517,
-      "eval_rewards/margins": 0.0076101175509393215,
-      "eval_rewards/rejected": 0.006102761719375849,
-      "eval_runtime": 80.0628,
-      "eval_samples_per_second": 2.298,
-      "eval_steps_per_second": 0.287,
-      "step": 75
-    },
     {
       "epoch": 0.78,
-      "grad_norm": 6.1953125,
-      "learning_rate": 3.8467282596568595e-07,
-      "logits/chosen": -2.7366466522216797,
-      "logits/rejected": -2.691721200942993,
-      "logps/chosen": -328.6690368652344,
-      "logps/rejected": -300.95269775390625,
-      "loss": 0.6903,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": 0.010947758331894875,
-      "rewards/margins": 0.0062617165967822075,
-      "rewards/rejected": 0.004686042666435242,
       "step": 80
     },
     {
-      "epoch": 0.87,
-      "grad_norm": 6.53125,
-      "learning_rate": 3.471397460512563e-07,
-      "logits/chosen": -2.743464946746826,
-      "logits/rejected": -2.73685359954834,
-      "logps/chosen": -333.5211486816406,
-      "logps/rejected": -327.77923583984375,
-      "loss": 0.6921,
-      "rewards/accuracies": 0.5249999761581421,
-      "rewards/chosen": 0.012939219363033772,
-      "rewards/margins": 0.002580250846222043,
-      "rewards/rejected": 0.010358968749642372,
-      "step": 90
     },
     {
       "epoch": 0.87,
-      "eval_logits/chosen": -2.742880344390869,
-      "eval_logits/rejected": -2.700843095779419,
-      "eval_logps/chosen": -309.439697265625,
-      "eval_logps/rejected": -302.086181640625,
-      "eval_loss": 0.6929823160171509,
-      "eval_rewards/accuracies": 0.5163043737411499,
-      "eval_rewards/chosen": 0.009615669958293438,
-      "eval_rewards/margins": 0.0010632658377289772,
-      "eval_rewards/rejected": 0.008552403189241886,
-      "eval_runtime": 80.0648,
-      "eval_samples_per_second": 2.298,
-      "eval_steps_per_second": 0.287,
       "step": 90
     },
     {
       "epoch": 0.97,
-      "grad_norm": 6.62109375,
-      "learning_rate": 3.068121325048225e-07,
-      "logits/chosen": -2.6984450817108154,
-      "logits/rejected": -2.6824753284454346,
-      "logps/chosen": -305.10772705078125,
-      "logps/rejected": -307.2846374511719,
-      "loss": 0.6935,
-      "rewards/accuracies": 0.4937500059604645,
-      "rewards/chosen": 0.007278606295585632,
-      "rewards/margins": -0.0001863084762590006,
-      "rewards/rejected": 0.00746491551399231,
       "step": 100
     },
     {
-      "epoch": 1.02,
-      "eval_logits/chosen": -2.742656946182251,
-      "eval_logits/rejected": -2.700707197189331,
-      "eval_logps/chosen": -309.3708190917969,
-      "eval_logps/rejected": -302.0916442871094,
-      "eval_loss": 0.6893685460090637,
-      "eval_rewards/accuracies": 0.5271739363670349,
-      "eval_rewards/chosen": 0.016502486541867256,
-      "eval_rewards/margins": 0.008497907780110836,
-      "eval_rewards/rejected": 0.00800458062440157,
-      "eval_runtime": 80.0666,
-      "eval_samples_per_second": 2.298,
-      "eval_steps_per_second": 0.287,
-      "step": 105
     },
     {
       "epoch": 1.07,
-      "grad_norm": 7.98046875,
-      "learning_rate": 2.648501373438142e-07,
-      "logits/chosen": -2.717855215072632,
-      "logits/rejected": -2.7231907844543457,
-      "logps/chosen": -324.5370788574219,
-      "logps/rejected": -332.6354675292969,
-      "loss": 0.6863,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": 0.015826944261789322,
-      "rewards/margins": 0.01423991471529007,
-      "rewards/rejected": 0.0015870295464992523,
       "step": 110
     },
     {
       "epoch": 1.17,
-      "grad_norm": 7.64453125,
-      "learning_rate": 2.2246093076900142e-07,
-      "logits/chosen": -2.7776942253112793,
-      "logits/rejected": -2.7235989570617676,
-      "logps/chosen": -353.61517333984375,
-      "logps/rejected": -319.27044677734375,
-      "loss": 0.6873,
-      "rewards/accuracies": 0.5687500238418579,
-      "rewards/chosen": 0.017044033855199814,
-      "rewards/margins": 0.012399711646139622,
-      "rewards/rejected": 0.004644324071705341,
       "step": 120
     },
     {
       "epoch": 1.17,
-      "eval_logits/chosen": -2.7423901557922363,
-      "eval_logits/rejected": -2.700549840927124,
-      "eval_logps/chosen": -309.3437194824219,
-      "eval_logps/rejected": -302.061767578125,
-      "eval_loss": 0.6894586086273193,
-      "eval_rewards/accuracies": 0.54347825050354,
-      "eval_rewards/chosen": 0.01921399123966694,
-      "eval_rewards/margins": 0.008224469609558582,
-      "eval_rewards/rejected": 0.010989520698785782,
-      "eval_runtime": 80.1067,
-      "eval_samples_per_second": 2.297,
-      "eval_steps_per_second": 0.287,
       "step": 120
     },
     {
       "epoch": 1.26,
-      "grad_norm": 6.19921875,
-      "learning_rate": 1.8086397307570723e-07,
-      "logits/chosen": -2.7408628463745117,
-      "logits/rejected": -2.710510730743408,
-      "logps/chosen": -310.96539306640625,
-      "logps/rejected": -304.93402099609375,
-      "loss": 0.6869,
-      "rewards/accuracies": 0.59375,
-      "rewards/chosen": 0.02044372819364071,
-      "rewards/margins": 0.013077561743557453,
-      "rewards/rejected": 0.007366166915744543,
       "step": 130
     },
-    {
-      "epoch": 1.31,
-      "eval_logits/chosen": -2.7425851821899414,
-      "eval_logits/rejected": -2.7006468772888184,
-      "eval_logps/chosen": -309.3547058105469,
-      "eval_logps/rejected": -302.1122741699219,
-      "eval_loss": 0.6874393820762634,
-      "eval_rewards/accuracies": 0.5489130616188049,
-      "eval_rewards/chosen": 0.018117737025022507,
-      "eval_rewards/margins": 0.012173162773251534,
-      "eval_rewards/rejected": 0.005944571923464537,
-      "eval_runtime": 80.1104,
-      "eval_samples_per_second": 2.297,
-      "eval_steps_per_second": 0.287,
-      "step": 135
-    },
     {
       "epoch": 1.36,
-      "grad_norm": 7.15625,
-      "learning_rate": 1.4125593300137765e-07,
-      "logits/chosen": -2.745990514755249,
-      "logits/rejected": -2.7245097160339355,
-      "logps/chosen": -329.66326904296875,
-      "logps/rejected": -323.501708984375,
-      "loss": 0.6861,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": 0.018962949514389038,
-      "rewards/margins": 0.014824052341282368,
-      "rewards/rejected": 0.004138897638767958,
       "step": 140
     },
     {
-      "epoch": 1.46,
-      "grad_norm": 6.859375,
-      "learning_rate": 1.0477626174477403e-07,
-      "logits/chosen": -2.733142375946045,
-      "logits/rejected": -2.704571008682251,
-      "logps/chosen": -322.4414978027344,
-      "logps/rejected": -289.4591369628906,
-      "loss": 0.6842,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": 0.018724968656897545,
-      "rewards/margins": 0.01844913512468338,
-      "rewards/rejected": 0.0002758347836788744,
-      "step": 150
     },
     {
       "epoch": 1.46,
-      "eval_logits/chosen": -2.7424399852752686,
-      "eval_logits/rejected": -2.700540542602539,
-      "eval_logps/chosen": -309.3570251464844,
-      "eval_logps/rejected": -302.0776062011719,
-      "eval_loss": 0.6893653273582458,
-      "eval_rewards/accuracies": 0.554347813129425,
-      "eval_rewards/chosen": 0.01788530871272087,
-      "eval_rewards/margins": 0.008479845710098743,
-      "eval_rewards/rejected": 0.009405463002622128,
-      "eval_runtime": 80.0859,
-      "eval_samples_per_second": 2.298,
-      "eval_steps_per_second": 0.287,
       "step": 150
     },
     {
       "epoch": 1.55,
-      "grad_norm": 5.984375,
-      "learning_rate": 7.247441302957857e-08,
-      "logits/chosen": -2.7013072967529297,
-      "logits/rejected": -2.6784555912017822,
-      "logps/chosen": -313.1523742675781,
-      "logps/rejected": -322.9856872558594,
-      "loss": 0.6848,
-      "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": 0.019991694018244743,
-      "rewards/margins": 0.01737087592482567,
-      "rewards/rejected": 0.0026208176277577877,
       "step": 160
     },
     {
-      "epoch": 1.6,
-      "eval_logits/chosen": -2.742584466934204,
-      "eval_logits/rejected": -2.7006893157958984,
-      "eval_logps/chosen": -309.364990234375,
-      "eval_logps/rejected": -302.1031188964844,
-      "eval_loss": 0.688545823097229,
-      "eval_rewards/accuracies": 0.592391312122345,
-      "eval_rewards/chosen": 0.01708848401904106,
-      "eval_rewards/margins": 0.01023196056485176,
-      "eval_rewards/rejected": 0.006856524385511875,
-      "eval_runtime": 80.1654,
-      "eval_samples_per_second": 2.295,
-      "eval_steps_per_second": 0.287,
-      "step": 165
     },
     {
       "epoch": 1.65,
-      "grad_norm": 7.17578125,
-      "learning_rate": 4.527965223149957e-08,
-      "logits/chosen": -2.7650394439697266,
-      "logits/rejected": -2.7313895225524902,
-      "logps/chosen": -362.62762451171875,
-      "logps/rejected": -352.7076416015625,
-      "loss": 0.6872,
-      "rewards/accuracies": 0.5874999761581421,
-      "rewards/chosen": 0.01878621242940426,
-      "rewards/margins": 0.012676900252699852,
-      "rewards/rejected": 0.006109311245381832,
       "step": 170
     },
     {
       "epoch": 1.75,
-      "grad_norm": 7.046875,
-      "learning_rate": 2.3974323105321325e-08,
-      "logits/chosen": -2.7575607299804688,
-      "logits/rejected": -2.718557834625244,
-      "logps/chosen": -344.5066223144531,
-      "logps/rejected": -322.46087646484375,
-      "loss": 0.6906,
-      "rewards/accuracies": 0.5,
-      "rewards/chosen": 0.009926950559020042,
-      "rewards/margins": 0.005830779671669006,
-      "rewards/rejected": 0.004096170887351036,
       "step": 180
     },
     {
       "epoch": 1.75,
-      "eval_logits/chosen": -2.7426013946533203,
-      "eval_logits/rejected": -2.7006635665893555,
-      "eval_logps/chosen": -309.3525085449219,
-      "eval_logps/rejected": -302.065185546875,
-      "eval_loss": 0.6897236108779907,
-      "eval_rewards/accuracies": 0.5652173757553101,
-      "eval_rewards/chosen": 0.018333308398723602,
-      "eval_rewards/margins": 0.007681697141379118,
-      "eval_rewards/rejected": 0.010651610791683197,
-      "eval_runtime": 80.2374,
-      "eval_samples_per_second": 2.293,
-      "eval_steps_per_second": 0.287,
       "step": 180
     },
     {
       "epoch": 1.84,
-      "grad_norm": 6.7578125,
-      "learning_rate": 9.171341179489034e-09,
-      "logits/chosen": -2.7172653675079346,
-      "logits/rejected": -2.6811535358428955,
-      "logps/chosen": -313.10675048828125,
-      "logps/rejected": -291.1024169921875,
-      "loss": 0.6878,
-      "rewards/accuracies": 0.581250011920929,
-      "rewards/chosen": 0.013504253700375557,
-      "rewards/margins": 0.011249206960201263,
-      "rewards/rejected": 0.002255047671496868,
       "step": 190
     },
     {
-      "epoch": 1.89,
-      "eval_logits/chosen": -2.7426187992095947,
-      "eval_logits/rejected": -2.7006161212921143,
-      "eval_logps/chosen": -309.3294982910156,
-      "eval_logps/rejected": -302.0763854980469,
-      "eval_loss": 0.6879727244377136,
-      "eval_rewards/accuracies": 0.554347813129425,
-      "eval_rewards/chosen": 0.020635133609175682,
-      "eval_rewards/margins": 0.011101042851805687,
-      "eval_rewards/rejected": 0.00953409168869257,
-      "eval_runtime": 80.1219,
-      "eval_samples_per_second": 2.297,
-      "eval_steps_per_second": 0.287,
-      "step": 195
     },
     {
       "epoch": 1.94,
-      "grad_norm": 7.3515625,
-      "learning_rate": 1.2965612922874458e-09,
-      "logits/chosen": -2.7186667919158936,
-      "logits/rejected": -2.7049057483673096,
-      "logps/chosen": -299.2220153808594,
-      "logps/rejected": -286.4860534667969,
-      "loss": 0.6894,
-      "rewards/accuracies": 0.53125,
-      "rewards/chosen": 0.015637261793017387,
-      "rewards/margins": 0.008065862581133842,
-      "rewards/rejected": 0.007571399211883545,
       "step": 200
     },
     {
       "epoch": 2.0,
       "step": 206,
       "total_flos": 0.0,
-      "train_loss": 0.6897733697613466,
-      "train_runtime": 4283.1211,
-      "train_samples_per_second": 0.77,
-      "train_steps_per_second": 0.048
     }
   ],
   "logging_steps": 10,
@@ -547,7 +499,7 @@
   "num_train_epochs": 2,
   "save_steps": 500,
   "total_flos": 0.0,
-  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 2.0,
+  "eval_steps": 20,
   "global_step": 206,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
+      "grad_norm": 8.9375,
+      "learning_rate": 2.3809523809523808e-06,
+      "logits/chosen": -2.7700600624084473,
+      "logits/rejected": -2.8606302738189697,
+      "logps/chosen": -421.64996337890625,
+      "logps/rejected": -531.4378662109375,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
     },
     {
       "epoch": 0.1,
+      "grad_norm": 7.375,
+      "learning_rate": 2.380952380952381e-05,
+      "logits/chosen": -2.7684054374694824,
+      "logits/rejected": -2.7337145805358887,
+      "logps/chosen": -333.7870178222656,
+      "logps/rejected": -312.4859313964844,
+      "loss": 0.6852,
+      "rewards/accuracies": 0.5277777910232544,
+      "rewards/chosen": 0.030088074505329132,
+      "rewards/margins": 0.01666567102074623,
+      "rewards/rejected": 0.013422403484582901,
       "step": 10
     },
     {
       "epoch": 0.19,
+      "grad_norm": 6.125,
+      "learning_rate": 4.761904761904762e-05,
+      "logits/chosen": -2.8010494709014893,
+      "logits/rejected": -2.79127836227417,
+      "logps/chosen": -331.8260498046875,
+      "logps/rejected": -332.01409912109375,
+      "loss": 0.6028,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": 0.41256317496299744,
+      "rewards/margins": 0.21184520423412323,
+      "rewards/rejected": 0.2007180005311966,
       "step": 20
     },
     {
+      "epoch": 0.19,
+      "eval_logits/chosen": -2.6401147842407227,
+      "eval_logits/rejected": -2.614283800125122,
+      "eval_logps/chosen": -324.9909973144531,
+      "eval_logps/rejected": -327.9555969238281,
+      "eval_loss": 0.5285959243774414,
+      "eval_rewards/accuracies": 0.8125,
+      "eval_rewards/chosen": 0.878866970539093,
+      "eval_rewards/margins": 0.43177998065948486,
+      "eval_rewards/rejected": 0.44708704948425293,
+      "eval_runtime": 114.9886,
+      "eval_samples_per_second": 1.6,
+      "eval_steps_per_second": 0.104,
+      "step": 20
     },
     {
       "epoch": 0.29,
+      "grad_norm": 4.84375,
+      "learning_rate": 4.9708589101037306e-05,
+      "logits/chosen": -2.6763195991516113,
+      "logits/rejected": -2.651015043258667,
+      "logps/chosen": -356.8539733886719,
+      "logps/rejected": -363.6021423339844,
+      "loss": 0.4643,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 0.943565845489502,
+      "rewards/margins": 0.708370566368103,
+      "rewards/rejected": 0.23519524931907654,
       "step": 30
     },
     {
       "epoch": 0.39,
+      "grad_norm": 5.75,
+      "learning_rate": 4.870996167038154e-05,
+      "logits/chosen": -2.655568838119507,
+      "logits/rejected": -2.6175591945648193,
+      "logps/chosen": -353.34619140625,
+      "logps/rejected": -359.96832275390625,
+      "loss": 0.3363,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": 0.6268302798271179,
+      "rewards/margins": 1.4118897914886475,
+      "rewards/rejected": -0.7850595712661743,
       "step": 40
     },
     {
+      "epoch": 0.39,
+      "eval_logits/chosen": -2.535161256790161,
+      "eval_logits/rejected": -2.5076351165771484,
+      "eval_logps/chosen": -328.5650939941406,
+      "eval_logps/rejected": -343.5235900878906,
+      "eval_loss": 0.32319265604019165,
+      "eval_rewards/accuracies": 0.859375,
+      "eval_rewards/chosen": 0.5214586853981018,
+      "eval_rewards/margins": 1.6311697959899902,
+      "eval_rewards/rejected": -1.1097110509872437,
+      "eval_runtime": 114.9563,
+      "eval_samples_per_second": 1.601,
+      "eval_steps_per_second": 0.104,
+      "step": 40
     },
     {
       "epoch": 0.49,
+      "grad_norm": 4.4375,
+      "learning_rate": 4.7029241811087457e-05,
+      "logits/chosen": -2.682722806930542,
+      "logits/rejected": -2.627808094024658,
+      "logps/chosen": -382.26690673828125,
+      "logps/rejected": -376.25689697265625,
+      "loss": 0.3043,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.3637928366661072,
+      "rewards/margins": 1.71381413936615,
+      "rewards/rejected": -1.3500211238861084,
       "step": 50
     },
     {
       "epoch": 0.58,
+      "grad_norm": 5.875,
+      "learning_rate": 4.471478077342798e-05,
+      "logits/chosen": -2.6791253089904785,
+      "logits/rejected": -2.641322374343872,
+      "logps/chosen": -344.8480529785156,
+      "logps/rejected": -372.0831298828125,
+      "loss": 0.2458,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.6151469349861145,
+      "rewards/margins": 2.2607688903808594,
+      "rewards/rejected": -1.6456218957901,
       "step": 60
     },
     {
       "epoch": 0.58,
+      "eval_logits/chosen": -2.592442274093628,
+      "eval_logits/rejected": -2.560177803039551,
+      "eval_logps/chosen": -328.04132080078125,
+      "eval_logps/rejected": -351.1114196777344,
+      "eval_loss": 0.2501268982887268,
+      "eval_rewards/accuracies": 0.9114583134651184,
+      "eval_rewards/chosen": 0.5738345980644226,
+      "eval_rewards/margins": 2.4423279762268066,
+      "eval_rewards/rejected": -1.8684934377670288,
+      "eval_runtime": 115.0094,
+      "eval_samples_per_second": 1.6,
+      "eval_steps_per_second": 0.104,
       "step": 60
     },
     {
       "epoch": 0.68,
+      "grad_norm": 4.3125,
+      "learning_rate": 4.1833161387527986e-05,
+      "logits/chosen": -2.6796765327453613,
+      "logits/rejected": -2.6534857749938965,
+      "logps/chosen": -371.1224670410156,
+      "logps/rejected": -358.3480529785156,
+      "loss": 0.2487,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -1.5859086513519287,
+      "rewards/margins": 2.399681329727173,
+      "rewards/rejected": -3.9855899810791016,
       "step": 70
     },
     {
       "epoch": 0.78,
+      "grad_norm": 4.4375,
+      "learning_rate": 3.84672825965686e-05,
+      "logits/chosen": -2.568530559539795,
+      "logits/rejected": -2.5246570110321045,
+      "logps/chosen": -354.64984130859375,
+      "logps/rejected": -360.8916931152344,
+      "loss": 0.2116,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -0.9132896661758423,
+      "rewards/margins": 2.766739845275879,
+      "rewards/rejected": -3.680030107498169,
       "step": 80
     },
     {
+      "epoch": 0.78,
+      "eval_logits/chosen": -2.3427236080169678,
+      "eval_logits/rejected": -2.3129446506500244,
+      "eval_logps/chosen": -340.5351257324219,
+      "eval_logps/rejected": -370.7005920410156,
+      "eval_loss": 0.19913233816623688,
+      "eval_rewards/accuracies": 0.9166666865348816,
+      "eval_rewards/chosen": -0.6755423545837402,
+      "eval_rewards/margins": 3.1518704891204834,
+      "eval_rewards/rejected": -3.8274126052856445,
+      "eval_runtime": 114.9725,
+      "eval_samples_per_second": 1.6,
+      "eval_steps_per_second": 0.104,
+      "step": 80
     },
     {
       "epoch": 0.87,
+      "grad_norm": 2.0,
+      "learning_rate": 3.471397460512563e-05,
+      "logits/chosen": -2.428431272506714,
+      "logits/rejected": -2.410618782043457,
+      "logps/chosen": -361.0326232910156,
+      "logps/rejected": -401.57269287109375,
+      "loss": 0.1841,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.7255961298942566,
+      "rewards/margins": 3.4665279388427734,
+      "rewards/rejected": -4.192124366760254,
       "step": 90
     },
     {
       "epoch": 0.97,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.0681213250482255e-05,
+      "logits/chosen": -2.3709776401519775,
+      "logits/rejected": -2.353501796722412,
+      "logps/chosen": -331.63623046875,
+      "logps/rejected": -377.9563903808594,
+      "loss": 0.1386,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -0.6168140172958374,
+      "rewards/margins": 3.699888229370117,
+      "rewards/rejected": -4.316702365875244,
       "step": 100
     },
     {
+      "epoch": 0.97,
+      "eval_logits/chosen": -2.3535118103027344,
+      "eval_logits/rejected": -2.3131775856018066,
+      "eval_logps/chosen": -330.8599548339844,
+      "eval_logps/rejected": -362.6181335449219,
+      "eval_loss": 0.20019526779651642,
+      "eval_rewards/accuracies": 0.9375,
+      "eval_rewards/chosen": 0.29197368025779724,
+      "eval_rewards/margins": 3.311133623123169,
+      "eval_rewards/rejected": -3.019160032272339,
+      "eval_runtime": 114.9013,
+      "eval_samples_per_second": 1.601,
+      "eval_steps_per_second": 0.104,
+      "step": 100
     },
     {
       "epoch": 1.07,
+      "grad_norm": 0.76953125,
+      "learning_rate": 2.648501373438142e-05,
+      "logits/chosen": -2.4437708854675293,
+      "logits/rejected": -2.4320626258850098,
+      "logps/chosen": -344.7204895019531,
+      "logps/rejected": -410.47601318359375,
+      "loss": 0.0711,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.051882706582546234,
+      "rewards/margins": 5.166382789611816,
+      "rewards/rejected": -5.218265533447266,
       "step": 110
     },
     {
       "epoch": 1.17,
+      "grad_norm": 1.4375,
+      "learning_rate": 2.2246093076900144e-05,
+      "logits/chosen": -2.430386781692505,
+      "logits/rejected": -2.34106183052063,
+      "logps/chosen": -400.32452392578125,
+      "logps/rejected": -425.37457275390625,
+      "loss": 0.0458,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.0012158155441284,
+      "rewards/margins": 6.266473293304443,
+      "rewards/rejected": -7.2676897048950195,
       "step": 120
     },
     {
       "epoch": 1.17,
+      "eval_logits/chosen": -2.2717294692993164,
+      "eval_logits/rejected": -2.2290468215942383,
+      "eval_logps/chosen": -347.5820007324219,
+      "eval_logps/rejected": -391.1982727050781,
+      "eval_loss": 0.17477566003799438,
+      "eval_rewards/accuracies": 0.9479166865348816,
+      "eval_rewards/chosen": -1.3802350759506226,
+      "eval_rewards/margins": 4.496945858001709,
+      "eval_rewards/rejected": -5.877180576324463,
+      "eval_runtime": 114.9627,
+      "eval_samples_per_second": 1.601,
+      "eval_steps_per_second": 0.104,
       "step": 120
     },
     {
       "epoch": 1.26,
+      "grad_norm": 1.0546875,
+      "learning_rate": 1.8086397307570723e-05,
+      "logits/chosen": -2.376091957092285,
+      "logits/rejected": -2.3415114879608154,
+      "logps/chosen": -337.0244140625,
+      "logps/rejected": -408.39263916015625,
+      "loss": 0.0283,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -0.006544408388435841,
+      "rewards/margins": 6.594322204589844,
+      "rewards/rejected": -6.600866794586182,
       "step": 130
     },
     {
       "epoch": 1.36,
+      "grad_norm": 1.3515625,
+      "learning_rate": 1.4125593300137766e-05,
+      "logits/chosen": -2.364224672317505,
+      "logits/rejected": -2.310997724533081,
+      "logps/chosen": -343.6619567871094,
+      "logps/rejected": -398.0953674316406,
+      "loss": 0.0426,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": 0.7415364384651184,
+      "rewards/margins": 6.200386047363281,
+      "rewards/rejected": -5.4588494300842285,
       "step": 140
     },
     {
+      "epoch": 1.36,
+      "eval_logits/chosen": -2.240306854248047,
+      "eval_logits/rejected": -2.195923328399658,
+      "eval_logps/chosen": -334.4142761230469,
+      "eval_logps/rejected": -375.5160217285156,
+      "eval_loss": 0.17553412914276123,
+      "eval_rewards/accuracies": 0.9375,
+      "eval_rewards/chosen": -0.06346017122268677,
+      "eval_rewards/margins": 4.2454915046691895,
+      "eval_rewards/rejected": -4.3089518547058105,
+      "eval_runtime": 115.021,
+      "eval_samples_per_second": 1.6,
+      "eval_steps_per_second": 0.104,
+      "step": 140
     },
     {
       "epoch": 1.46,
+      "grad_norm": 0.8515625,
+      "learning_rate": 1.0477626174477404e-05,
+      "logits/chosen": -2.3424103260040283,
+      "logits/rejected": -2.2978971004486084,
+      "logps/chosen": -347.8079528808594,
+      "logps/rejected": -375.98260498046875,
+      "loss": 0.0508,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.3227364122867584,
+      "rewards/margins": 5.873551845550537,
+      "rewards/rejected": -5.550815582275391,
       "step": 150
     },
     {
       "epoch": 1.55,
+      "grad_norm": 1.96875,
+      "learning_rate": 7.247441302957858e-06,
+      "logits/chosen": -2.3495125770568848,
+      "logits/rejected": -2.307555675506592,
+      "logps/chosen": -331.29718017578125,
+      "logps/rejected": -415.452392578125,
+      "loss": 0.029,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": 0.16269809007644653,
+      "rewards/margins": 6.475255012512207,
+      "rewards/rejected": -6.312556266784668,
       "step": 160
     },
     {
+      "epoch": 1.55,
+      "eval_logits/chosen": -2.232851266860962,
+      "eval_logits/rejected": -2.1893069744110107,
+      "eval_logps/chosen": -341.7696533203125,
+      "eval_logps/rejected": -387.3076171875,
+      "eval_loss": 0.16915130615234375,
+      "eval_rewards/accuracies": 0.9375,
+      "eval_rewards/chosen": -0.7989979386329651,
+      "eval_rewards/margins": 4.689115524291992,
+      "eval_rewards/rejected": -5.4881134033203125,
+      "eval_runtime": 114.9918,
+      "eval_samples_per_second": 1.6,
+      "eval_steps_per_second": 0.104,
+      "step": 160
     },
     {
       "epoch": 1.65,
+      "grad_norm": 0.345703125,
+      "learning_rate": 4.527965223149957e-06,
+      "logits/chosen": -2.407200336456299,
+      "logits/rejected": -2.3430123329162598,
+      "logps/chosen": -387.9550476074219,
+      "logps/rejected": -445.9234313964844,
+      "loss": 0.0175,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": 0.19500017166137695,
+      "rewards/margins": 7.179248809814453,
+      "rewards/rejected": -6.984248161315918,
       "step": 170
     },
     {
       "epoch": 1.75,
+      "grad_norm": 3.015625,
+      "learning_rate": 2.397432310532133e-06,
+      "logits/chosen": -2.3570303916931152,
+      "logits/rejected": -2.300320863723755,
+      "logps/chosen": -367.35577392578125,
+      "logps/rejected": -424.9029235839844,
+      "loss": 0.0676,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": 0.1322220414876938,
+      "rewards/margins": 6.755249977111816,
+      "rewards/rejected": -6.623027801513672,
       "step": 180
     },
     {
       "epoch": 1.75,
+      "eval_logits/chosen": -2.2314395904541016,
+      "eval_logits/rejected": -2.1864326000213623,
+      "eval_logps/chosen": -340.7237854003906,
+      "eval_logps/rejected": -386.9397277832031,
+      "eval_loss": 0.16764594614505768,
+      "eval_rewards/accuracies": 0.9375,
+      "eval_rewards/chosen": -0.6944115161895752,
+      "eval_rewards/margins": 4.756911754608154,
+      "eval_rewards/rejected": -5.45132303237915,
+      "eval_runtime": 114.865,
+      "eval_samples_per_second": 1.602,
+      "eval_steps_per_second": 0.104,
       "step": 180
     },
     {
       "epoch": 1.84,
+      "grad_norm": 0.56640625,
+      "learning_rate": 9.171341179489034e-07,
+      "logits/chosen": -2.3660504817962646,
+      "logits/rejected": -2.2959539890289307,
+      "logps/chosen": -335.60052490234375,
+      "logps/rejected": -383.60040283203125,
+      "loss": 0.0178,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.19160650670528412,
+      "rewards/margins": 6.720318794250488,
+      "rewards/rejected": -6.528712272644043,
       "step": 190
     },
     {
+      "epoch": 1.94,
+      "grad_norm": 3.9375,
+      "learning_rate": 1.296561292287446e-07,
+      "logits/chosen": -2.3115243911743164,
+      "logits/rejected": -2.281430959701538,
+      "logps/chosen": -323.0104675292969,
+      "logps/rejected": -385.94757080078125,
+      "loss": 0.0517,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.006203270051628351,
+      "rewards/margins": 6.517538547515869,
+      "rewards/rejected": -6.523741722106934,
+      "step": 200
     },
     {
       "epoch": 1.94,
+      "eval_logits/chosen": -2.231421709060669,
+      "eval_logits/rejected": -2.186391830444336,
+      "eval_logps/chosen": -341.20733642578125,
+      "eval_logps/rejected": -387.5655517578125,
+      "eval_loss": 0.16659200191497803,
+      "eval_rewards/accuracies": 0.9375,
+      "eval_rewards/chosen": -0.7427660822868347,
+      "eval_rewards/margins": 4.771137237548828,
+      "eval_rewards/rejected": -5.513904094696045,
+      "eval_runtime": 114.34,
+      "eval_samples_per_second": 1.609,
+      "eval_steps_per_second": 0.105,
       "step": 200
     },
     {
       "epoch": 2.0,
       "step": 206,
       "total_flos": 0.0,
+      "train_loss": 0.1882365908726905,
+      "train_runtime": 5068.0756,
+      "train_samples_per_second": 0.65,
+      "train_steps_per_second": 0.041
     }
   ],
   "logging_steps": 10,
   "num_train_epochs": 2,
   "save_steps": 500,
   "total_flos": 0.0,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0fd11e1b32f0c413ca79ac7fef8a2641762d362dbbbf3a708039e3abbfcb7e65
 size 5112

 version https://git-lfs.github.com/spec/v1
+oid sha256:76581c05c1b2da8bbdb25fc2365035a91b842667aea3cc6aa3a8ecf3c7cded68
 size 5112