{
  "best_metric": 14.046432495117188,
  "best_model_checkpoint": "./qwen2.5-0.5b/qwen2.5-0.5b-expo-L2EXPO-ES-100/checkpoint-550",
  "epoch": 2.9806329711856403,
  "eval_steps": 50,
  "global_step": 1050,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "dpo_loss": 0.6931471824645996,
      "epoch": 0.002834199338686821,
      "grad_norm": 36884.87916049903,
      "learning_rate": 2.840909090909091e-08,
      "logits": -1.359458565711975,
      "logps": -84.69721221923828,
      "loss": 0.3913,
      "objective": 0.3618059456348419,
      "ranking_idealized": 0.5833333134651184,
      "ranking_idealized_expo": 0.5833333134651184,
      "ranking_simple": 0.5833333134651184,
      "regularize": 0.3618059456348419,
      "step": 1,
      "wo_beta": 14.830931663513184
    },
    {
      "dpo_loss": 20.195844650268555,
      "epoch": 0.14170996693434104,
      "grad_norm": 35665.35173471636,
      "learning_rate": 1.4204545454545458e-06,
      "logits": -1.4575351476669312,
      "logps": -84.27513122558594,
      "loss": 43.2587,
      "objective": 41.916500091552734,
      "ranking_idealized": 0.5221088528633118,
      "ranking_idealized_expo": 0.5216836929321289,
      "ranking_simple": 0.5216836929321289,
      "regularize": 41.916500091552734,
      "step": 50,
      "wo_beta": 15.635692596435547
    },
    {
      "epoch": 0.14170996693434104,
      "eval_dpo_loss": 26.447525024414062,
      "eval_logits": -1.4447709321975708,
      "eval_logps": -90.52921295166016,
      "eval_loss": 52.66217041015625,
      "eval_objective": 53.697696685791016,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.5263975262641907,
      "eval_regularize": 53.697696685791016,
      "eval_runtime": 309.407,
      "eval_samples_per_second": 18.713,
      "eval_steps_per_second": 1.561,
      "eval_wo_beta": 16.170011520385742,
      "step": 50
    },
    {
      "dpo_loss": 89.97029876708984,
      "epoch": 0.2834199338686821,
      "grad_norm": 28235.60144716246,
      "learning_rate": 2.8409090909090916e-06,
      "logits": -1.398974061012268,
      "logps": -82.89569091796875,
      "loss": 169.8852,
      "objective": 172.36553955078125,
      "ranking_idealized": 0.5137500166893005,
      "ranking_idealized_expo": 0.5137500166893005,
      "ranking_simple": 0.51583331823349,
      "regularize": 172.36553955078125,
      "step": 100,
      "wo_beta": 15.30754566192627
    },
    {
      "epoch": 0.2834199338686821,
      "eval_dpo_loss": 85.763916015625,
      "eval_logits": -1.3620884418487549,
      "eval_logps": -85.2786636352539,
      "eval_loss": 173.986083984375,
      "eval_objective": 172.1890869140625,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.5243270993232727,
      "eval_regularize": 172.1890869140625,
      "eval_runtime": 308.6643,
      "eval_samples_per_second": 18.758,
      "eval_steps_per_second": 1.565,
      "eval_wo_beta": 15.439105033874512,
      "step": 100
    },
    {
      "dpo_loss": 149.43614196777344,
      "epoch": 0.42512990080302315,
      "grad_norm": 21173.096618846714,
      "learning_rate": 4.2613636363636365e-06,
      "logits": -1.213483214378357,
      "logps": -78.55652618408203,
      "loss": 285.0432,
      "objective": 280.7228088378906,
      "ranking_idealized": 0.527916669845581,
      "ranking_idealized_expo": 0.527916669845581,
      "ranking_simple": 0.5229166746139526,
      "regularize": 280.7228088378906,
      "step": 150,
      "wo_beta": 15.080223083496094
    },
    {
      "epoch": 0.42512990080302315,
      "eval_dpo_loss": 143.02996826171875,
      "eval_logits": -1.1693531274795532,
      "eval_logps": -83.2181167602539,
      "eval_loss": 291.4833679199219,
      "eval_objective": 293.4403991699219,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.5279502868652344,
      "eval_regularize": 293.4403991699219,
      "eval_runtime": 311.5234,
      "eval_samples_per_second": 18.586,
      "eval_steps_per_second": 1.55,
      "eval_wo_beta": 15.222454071044922,
      "step": 150
    },
    {
      "dpo_loss": 181.66571044921875,
      "epoch": 0.5668398677373642,
      "grad_norm": 20619.52737873687,
      "learning_rate": 4.997168347957521e-06,
      "logits": -0.9392554759979248,
      "logps": -78.61503601074219,
      "loss": 355.4066,
      "objective": 356.2313232421875,
      "ranking_idealized": 0.51541668176651,
      "ranking_idealized_expo": 0.51541668176651,
      "ranking_simple": 0.5191666483879089,
      "regularize": 356.2313232421875,
      "step": 200,
      "wo_beta": 15.349950790405273
    },
    {
      "epoch": 0.5668398677373642,
      "eval_dpo_loss": 189.846923828125,
      "eval_logits": -0.9273601174354553,
      "eval_logps": -84.03199768066406,
      "eval_loss": 372.7905578613281,
      "eval_objective": 365.21240234375,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.5232919454574585,
      "eval_regularize": 365.21240234375,
      "eval_runtime": 308.8911,
      "eval_samples_per_second": 18.744,
      "eval_steps_per_second": 1.564,
      "eval_wo_beta": 14.868427276611328,
      "step": 200
    },
    {
      "dpo_loss": 186.671142578125,
      "epoch": 0.7085498346717053,
      "grad_norm": 17849.874243754268,
      "learning_rate": 4.973122855144066e-06,
      "logits": -0.822012186050415,
      "logps": -76.92431640625,
      "loss": 368.9811,
      "objective": 366.2552490234375,
      "ranking_idealized": 0.5162500143051147,
      "ranking_idealized_expo": 0.5162500143051147,
      "ranking_simple": 0.5074999928474426,
      "regularize": 366.2552490234375,
      "step": 250,
      "wo_beta": 15.5939359664917
    },
    {
      "epoch": 0.7085498346717053,
      "eval_dpo_loss": 216.4584197998047,
      "eval_logits": -0.7745867967605591,
      "eval_logps": -81.50496673583984,
      "eval_loss": 446.6966247558594,
      "eval_objective": 442.3320617675781,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.5258799195289612,
      "eval_regularize": 442.3320617675781,
      "eval_runtime": 308.996,
      "eval_samples_per_second": 18.738,
      "eval_steps_per_second": 1.563,
      "eval_wo_beta": 14.479047775268555,
      "step": 250
    },
    {
      "dpo_loss": 182.8459930419922,
      "epoch": 0.8502598016060463,
      "grad_norm": 16846.286343055544,
      "learning_rate": 4.924776641419513e-06,
      "logits": -0.6342157125473022,
      "logps": -78.78164672851562,
      "loss": 360.5868,
      "objective": 363.29473876953125,
      "ranking_idealized": 0.4950000047683716,
      "ranking_idealized_expo": 0.4950000047683716,
      "ranking_simple": 0.4970833361148834,
      "regularize": 363.29473876953125,
      "step": 300,
      "wo_beta": 15.358329772949219
    },
    {
      "epoch": 0.8502598016060463,
      "eval_dpo_loss": 222.88400268554688,
      "eval_logits": -0.5983948707580566,
      "eval_logps": -82.20111083984375,
      "eval_loss": 448.9505920410156,
      "eval_objective": 443.9051208496094,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.5248447060585022,
      "eval_regularize": 443.9051208496094,
      "eval_runtime": 309.9292,
      "eval_samples_per_second": 18.682,
      "eval_steps_per_second": 1.558,
      "eval_wo_beta": 14.392961502075195,
      "step": 300
    },
    {
      "dpo_loss": 171.55615234375,
      "epoch": 0.9919697685403873,
      "grad_norm": 16864.304890654712,
      "learning_rate": 4.8526047530778175e-06,
      "logits": -0.6237902641296387,
      "logps": -79.1826400756836,
      "loss": 338.3987,
      "objective": 335.6865234375,
      "ranking_idealized": 0.5254166722297668,
      "ranking_idealized_expo": 0.5254166722297668,
      "ranking_simple": 0.5216666460037231,
      "regularize": 335.6865234375,
      "step": 350,
      "wo_beta": 15.20045280456543
    },
    {
      "epoch": 0.9919697685403873,
      "eval_dpo_loss": 232.93649291992188,
      "eval_logits": -0.78554368019104,
      "eval_logps": -84.16381072998047,
      "eval_loss": 462.19232177734375,
      "eval_objective": 461.2073059082031,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.5269151329994202,
      "eval_regularize": 461.2073059082031,
      "eval_runtime": 308.3435,
      "eval_samples_per_second": 18.778,
      "eval_steps_per_second": 1.566,
      "eval_wo_beta": 14.297853469848633,
      "step": 350
    },
    {
      "dpo_loss": 158.00930786132812,
      "epoch": 1.1336797354747283,
      "grad_norm": 16419.225936790586,
      "learning_rate": 4.757316345716554e-06,
      "logits": -0.689696192741394,
      "logps": -80.24182891845703,
      "loss": 309.1712,
      "objective": 306.0483703613281,
      "ranking_idealized": 0.5320833325386047,
      "ranking_idealized_expo": 0.5320833325386047,
      "ranking_simple": 0.5229166746139526,
      "regularize": 306.0483703613281,
      "step": 400,
      "wo_beta": 15.245408058166504
    },
    {
      "epoch": 1.1336797354747283,
      "eval_dpo_loss": 248.07177734375,
      "eval_logits": -0.6413922905921936,
      "eval_logps": -82.49343872070312,
      "eval_loss": 480.5964660644531,
      "eval_objective": 478.7404479980469,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.5253623127937317,
      "eval_regularize": 478.7404479980469,
      "eval_runtime": 308.667,
      "eval_samples_per_second": 18.758,
      "eval_steps_per_second": 1.565,
      "eval_wo_beta": 14.387246131896973,
      "step": 400
    },
    {
      "dpo_loss": 142.9551239013672,
      "epoch": 1.2753897024090695,
      "grad_norm": 16215.238701636586,
      "learning_rate": 4.639847716126855e-06,
      "logits": -0.5957368612289429,
      "logps": -78.66122436523438,
      "loss": 298.1424,
      "objective": 298.3353271484375,
      "ranking_idealized": 0.5191666483879089,
      "ranking_idealized_expo": 0.5191666483879089,
      "ranking_simple": 0.5204166769981384,
      "regularize": 298.3353271484375,
      "step": 450,
      "wo_beta": 15.736668586730957
    },
    {
      "epoch": 1.2753897024090695,
      "eval_dpo_loss": 247.8721923828125,
      "eval_logits": -0.7014132142066956,
      "eval_logps": -82.14649200439453,
      "eval_loss": 480.3255615234375,
      "eval_objective": 482.1766052246094,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.523809552192688,
      "eval_regularize": 482.1766052246094,
      "eval_runtime": 309.6985,
      "eval_samples_per_second": 18.696,
      "eval_steps_per_second": 1.56,
      "eval_wo_beta": 14.369455337524414,
      "step": 450
    },
    {
      "dpo_loss": 135.57347106933594,
      "epoch": 1.4170996693434104,
      "grad_norm": 15944.03549179383,
      "learning_rate": 4.501353102310901e-06,
      "logits": -0.5253962278366089,
      "logps": -78.11959075927734,
      "loss": 282.4504,
      "objective": 278.3994445800781,
      "ranking_idealized": 0.4970833361148834,
      "ranking_idealized_expo": 0.4970833361148834,
      "ranking_simple": 0.49958333373069763,
      "regularize": 278.3994445800781,
      "step": 500,
      "wo_beta": 15.295467376708984
    },
    {
      "epoch": 1.4170996693434104,
      "eval_dpo_loss": 252.20928955078125,
      "eval_logits": -0.45775941014289856,
      "eval_logps": -83.41010284423828,
      "eval_loss": 493.7484436035156,
      "eval_objective": 495.763916015625,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.5248447060585022,
      "eval_regularize": 495.763916015625,
      "eval_runtime": 308.7418,
      "eval_samples_per_second": 18.754,
      "eval_steps_per_second": 1.564,
      "eval_wo_beta": 14.174327850341797,
      "step": 500
    },
    {
      "dpo_loss": 138.2200164794922,
      "epoch": 1.5588096362777515,
      "grad_norm": 14777.775900953873,
      "learning_rate": 4.34319334202531e-06,
      "logits": -0.43370625376701355,
      "logps": -79.58238220214844,
      "loss": 261.1027,
      "objective": 261.7706298828125,
      "ranking_idealized": 0.5104166865348816,
      "ranking_idealized_expo": 0.5104166865348816,
      "ranking_simple": 0.5104166865348816,
      "regularize": 261.7706298828125,
      "step": 550,
      "wo_beta": 15.099705696105957
    },
    {
      "epoch": 1.5588096362777515,
      "eval_dpo_loss": 245.87562561035156,
      "eval_logits": -0.5435077548027039,
      "eval_logps": -82.8267593383789,
      "eval_loss": 486.1625671386719,
      "eval_objective": 489.7927551269531,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.5253623127937317,
      "eval_regularize": 489.7927551269531,
      "eval_runtime": 313.2811,
      "eval_samples_per_second": 18.482,
      "eval_steps_per_second": 1.542,
      "eval_wo_beta": 14.046432495117188,
      "step": 550
    },
    {
      "dpo_loss": 129.54061889648438,
      "epoch": 1.7005196032120926,
      "grad_norm": 15449.253251441141,
      "learning_rate": 4.16692250129073e-06,
      "logits": -0.4195112884044647,
      "logps": -79.62303924560547,
      "loss": 255.9288,
      "objective": 256.1207275390625,
      "ranking_idealized": 0.5149999856948853,
      "ranking_idealized_expo": 0.5149999856948853,
      "ranking_simple": 0.5095833539962769,
      "regularize": 256.1207275390625,
      "step": 600,
      "wo_beta": 15.011371612548828
    },
    {
      "epoch": 1.7005196032120926,
      "eval_dpo_loss": 251.29342651367188,
      "eval_logits": -0.5346657633781433,
      "eval_logps": -82.17684173583984,
      "eval_loss": 500.38006591796875,
      "eval_objective": 502.1727294921875,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.5269151329994202,
      "eval_regularize": 502.1727294921875,
      "eval_runtime": 309.4233,
      "eval_samples_per_second": 18.712,
      "eval_steps_per_second": 1.561,
      "eval_wo_beta": 14.243566513061523,
      "step": 600
    },
    {
      "dpo_loss": 130.9433135986328,
      "epoch": 1.8422295701464337,
      "grad_norm": 15825.93366010816,
      "learning_rate": 3.974272604254906e-06,
      "logits": -0.4912276566028595,
      "logps": -78.56413269042969,
      "loss": 248.6787,
      "objective": 253.7882843017578,
      "ranking_idealized": 0.527916669845581,
      "ranking_idealized_expo": 0.527916669845581,
      "ranking_simple": 0.5224999785423279,
      "regularize": 253.7882843017578,
      "step": 650,
      "wo_beta": 15.684560775756836
    },
    {
      "epoch": 1.8422295701464337,
      "eval_dpo_loss": 254.5959014892578,
      "eval_logits": -0.5140498876571655,
      "eval_logps": -81.49234771728516,
      "eval_loss": 502.3152770996094,
      "eval_objective": 504.1581726074219,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.5248447060585022,
      "eval_regularize": 504.1581726074219,
      "eval_runtime": 308.5565,
      "eval_samples_per_second": 18.765,
      "eval_steps_per_second": 1.565,
      "eval_wo_beta": 14.331953048706055,
      "step": 650
    },
    {
      "dpo_loss": 112.15733337402344,
      "epoch": 1.9839395370807746,
      "grad_norm": 16229.838704301123,
      "learning_rate": 3.767136614452458e-06,
      "logits": -0.4758701026439667,
      "logps": -78.98329162597656,
      "loss": 226.4676,
      "objective": 224.5537567138672,
      "ranking_idealized": 0.5112500190734863,
      "ranking_idealized_expo": 0.5108333230018616,
      "ranking_simple": 0.5087500214576721,
      "regularize": 224.5537567138672,
      "step": 700,
      "wo_beta": 15.5169095993042
    },
    {
      "epoch": 1.9839395370807746,
      "eval_dpo_loss": 264.166015625,
      "eval_logits": -0.4816124141216278,
      "eval_logps": -83.42156219482422,
      "eval_loss": 512.698974609375,
      "eval_objective": 516.7103271484375,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.5253623127937317,
      "eval_regularize": 516.7103271484375,
      "eval_runtime": 308.9876,
      "eval_samples_per_second": 18.739,
      "eval_steps_per_second": 1.563,
      "eval_wo_beta": 14.08342456817627,
      "step": 700
    },
    {
      "dpo_loss": 105.4539566040039,
      "epoch": 2.1256495040151155,
      "grad_norm": 15281.11762954245,
      "learning_rate": 3.547549834686222e-06,
      "logits": -0.47171100974082947,
      "logps": -79.71944427490234,
      "loss": 207.1551,
      "objective": 207.78355407714844,
      "ranking_idealized": 0.5112500190734863,
      "ranking_idealized_expo": 0.5112500190734863,
      "ranking_simple": 0.51583331823349,
      "regularize": 207.78355407714844,
      "step": 750,
      "wo_beta": 15.408516883850098
    },
    {
      "epoch": 2.1256495040151155,
      "eval_dpo_loss": 259.2528381347656,
      "eval_logits": -0.5409926772117615,
      "eval_logps": -83.45890045166016,
      "eval_loss": 506.4237365722656,
      "eval_objective": 510.6129150390625,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.523809552192688,
      "eval_regularize": 510.6129150390625,
      "eval_runtime": 308.6604,
      "eval_samples_per_second": 18.758,
      "eval_steps_per_second": 1.565,
      "eval_wo_beta": 14.129502296447754,
      "step": 750
    },
    {
      "dpo_loss": 97.64974975585938,
      "epoch": 2.2673594709494567,
      "grad_norm": 15212.863475959,
      "learning_rate": 3.3176699082935546e-06,
      "logits": -0.48046550154685974,
      "logps": -81.52581787109375,
      "loss": 197.3545,
      "objective": 198.5575714111328,
      "ranking_idealized": 0.512499988079071,
      "ranking_idealized_expo": 0.512499988079071,
      "ranking_simple": 0.5083333253860474,
      "regularize": 198.5575714111328,
      "step": 800,
      "wo_beta": 15.000423431396484
    },
    {
      "epoch": 2.2673594709494567,
      "eval_dpo_loss": 262.3102111816406,
      "eval_logits": -0.5658813118934631,
      "eval_logps": -84.87467956542969,
      "eval_loss": 513.39794921875,
      "eval_objective": 514.31201171875,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.522774338722229,
      "eval_regularize": 514.31201171875,
      "eval_runtime": 310.3348,
      "eval_samples_per_second": 18.657,
      "eval_steps_per_second": 1.556,
      "eval_wo_beta": 14.070388793945312,
      "step": 800
    },
    {
      "dpo_loss": 94.56294250488281,
      "epoch": 2.413793103448276,
      "grad_norm": 14099.488226379159,
      "learning_rate": 3.0797556183036582e-06,
      "logits": -0.5114213824272156,
      "logps": -81.04893493652344,
      "loss": 182.3796,
      "objective": 182.07008361816406,
      "ranking_idealized": 0.5145833492279053,
      "ranking_idealized_expo": 0.5137500166893005,
      "ranking_simple": 0.5129166841506958,
      "regularize": 182.07008361816406,
      "step": 850,
      "wo_beta": 15.241059303283691
    },
    {
      "epoch": 2.413793103448276,
      "eval_dpo_loss": 254.12506103515625,
      "eval_logits": -0.5509631037712097,
      "eval_logps": -82.86239624023438,
      "eval_loss": 501.88311767578125,
      "eval_objective": 504.852294921875,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.5274327397346497,
      "eval_regularize": 504.852294921875,
      "eval_runtime": 309.6743,
      "eval_samples_per_second": 18.697,
      "eval_steps_per_second": 1.56,
      "eval_wo_beta": 14.17065143585205,
      "step": 850
    },
    {
      "dpo_loss": 92.21830749511719,
      "epoch": 2.555503070382617,
      "grad_norm": 14214.15214964791,
      "learning_rate": 2.8361446928038298e-06,
      "logits": -0.49887704849243164,
      "logps": -80.69136810302734,
      "loss": 176.042,
      "objective": 176.71592712402344,
      "ranking_idealized": 0.5183333158493042,
      "ranking_idealized_expo": 0.5179166793823242,
      "ranking_simple": 0.5129166841506958,
      "regularize": 176.71592712402344,
      "step": 900,
      "wo_beta": 15.599862098693848
    },
    {
      "epoch": 2.555503070382617,
      "eval_dpo_loss": 263.27996826171875,
      "eval_logits": -0.5038771033287048,
      "eval_logps": -85.07097625732422,
      "eval_loss": 518.1983032226562,
      "eval_objective": 519.5007934570312,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.523809552192688,
      "eval_regularize": 519.5007934570312,
      "eval_runtime": 308.5117,
      "eval_samples_per_second": 18.768,
      "eval_steps_per_second": 1.566,
      "eval_wo_beta": 14.112290382385254,
      "step": 900
    },
    {
      "dpo_loss": 81.76506805419922,
      "epoch": 2.697213037316958,
      "grad_norm": 14116.155586290091,
      "learning_rate": 2.5892308345974517e-06,
      "logits": -0.45734792947769165,
      "logps": -81.56855773925781,
      "loss": 164.8281,
      "objective": 161.75088500976562,
      "ranking_idealized": 0.5045833587646484,
      "ranking_idealized_expo": 0.5045833587646484,
      "ranking_simple": 0.5099999904632568,
      "regularize": 161.75088500976562,
      "step": 950,
      "wo_beta": 15.513051986694336
    },
    {
      "epoch": 2.697213037316958,
      "eval_dpo_loss": 262.8074035644531,
      "eval_logits": -0.5199795961380005,
      "eval_logps": -84.58429718017578,
      "eval_loss": 512.1844482421875,
      "eval_objective": 512.7650756835938,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.523809552192688,
      "eval_regularize": 512.7650756835938,
      "eval_runtime": 309.6572,
      "eval_samples_per_second": 18.698,
      "eval_steps_per_second": 1.56,
      "eval_wo_beta": 14.164327621459961,
      "step": 950
    },
    {
      "dpo_loss": 76.9761962890625,
      "epoch": 2.838923004251299,
      "grad_norm": 13709.192801586882,
      "learning_rate": 2.341440200858589e-06,
      "logits": -0.46604040265083313,
      "logps": -79.8453598022461,
      "loss": 150.0401,
      "objective": 150.50038146972656,
      "ranking_idealized": 0.5112500190734863,
      "ranking_idealized_expo": 0.5112500190734863,
      "ranking_simple": 0.5099999904632568,
      "regularize": 150.50038146972656,
      "step": 1000,
      "wo_beta": 15.057799339294434
    },
    {
      "epoch": 2.838923004251299,
      "eval_dpo_loss": 263.6168518066406,
      "eval_logits": -0.5218656659126282,
      "eval_logps": -83.73433685302734,
      "eval_loss": 514.70361328125,
      "eval_objective": 516.595947265625,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.5258799195289612,
      "eval_regularize": 516.595947265625,
      "eval_runtime": 308.5762,
      "eval_samples_per_second": 18.764,
      "eval_steps_per_second": 1.565,
      "eval_wo_beta": 14.180042266845703,
      "step": 1000
    },
    {
      "dpo_loss": 69.53437805175781,
      "epoch": 2.9806329711856403,
      "grad_norm": 14565.063000853466,
      "learning_rate": 2.0952075638923656e-06,
      "logits": -0.4686031639575958,
      "logps": -80.63922882080078,
      "loss": 141.0317,
      "objective": 136.92088317871094,
      "ranking_idealized": 0.5174999833106995,
      "ranking_idealized_expo": 0.5174999833106995,
      "ranking_simple": 0.5262500047683716,
      "regularize": 136.92088317871094,
      "step": 1050,
      "wo_beta": 15.512243270874023
    },
    {
      "epoch": 2.9806329711856403,
      "eval_dpo_loss": 266.94525146484375,
      "eval_logits": -0.49528759717941284,
      "eval_logps": -84.26761627197266,
      "eval_loss": 519.2467041015625,
      "eval_objective": 521.8153076171875,
      "eval_ranking_idealized": 0.5212215185165405,
      "eval_ranking_idealized_expo": 0.5212215185165405,
      "eval_ranking_simple": 0.5263975262641907,
      "eval_regularize": 521.8153076171875,
      "eval_runtime": 308.2205,
      "eval_samples_per_second": 18.785,
      "eval_steps_per_second": 1.567,
      "eval_wo_beta": 14.257741928100586,
      "step": 1050
    },
    {
      "epoch": 2.9806329711856403,
      "step": 1050,
      "total_flos": 0.0,
      "train_loss": 38.77721726190476,
      "train_runtime": 6898.2426,
      "train_samples_per_second": 36.822,
      "train_steps_per_second": 0.255
    }
  ],
  "logging_steps": 50,
  "max_steps": 1760,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}