{
  "best_metric": 14.316285133361816,
  "best_model_checkpoint": "./qwen2.5-0.5b/qwen2.5-0.5b-expo-L2EXPO-ES-0.1/checkpoint-800",
  "epoch": 2.975909305621162,
  "eval_steps": 50,
  "global_step": 1050,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "dpo_loss": 0.6931471824645996,
      "epoch": 0.002834199338686821,
      "grad_norm": 36.88507599678088,
      "learning_rate": 2.840909090909091e-08,
      "logits": -1.359458565711975,
      "logps": -84.69721221923828,
      "loss": 0.3913,
      "objective": 0.3618059456348419,
      "ranking_idealized": 0.6458333134651184,
      "ranking_idealized_expo": 0.5833333134651184,
      "ranking_simple": 0.5833333134651184,
      "regularize": 0.3618059456348419,
      "step": 1,
      "wo_beta": 14.830931663513184
    },
    {
      "dpo_loss": 0.6800611615180969,
      "epoch": 0.14170996693434104,
      "grad_norm": 34.65452784204521,
      "learning_rate": 1.4204545454545458e-06,
      "logits": -1.481619119644165,
      "logps": -83.80532836914062,
      "loss": 0.4017,
      "objective": 0.4062296152114868,
      "ranking_idealized": 0.608418345451355,
      "ranking_idealized_expo": 0.5229591727256775,
      "ranking_simple": 0.5250850319862366,
      "regularize": 0.4062296152114868,
      "step": 50,
      "wo_beta": 15.713354110717773
    },
    {
      "epoch": 0.14170996693434104,
      "eval_dpo_loss": 0.6868039965629578,
      "eval_logits": -1.5024017095565796,
      "eval_logps": -93.17259979248047,
      "eval_loss": 0.4164615273475647,
      "eval_objective": 0.41487643122673035,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.5258799195289612,
      "eval_regularize": 0.41487643122673035,
      "eval_runtime": 308.9601,
      "eval_samples_per_second": 18.74,
      "eval_steps_per_second": 1.563,
      "eval_wo_beta": 16.426729202270508,
      "step": 50
    },
    {
      "dpo_loss": 0.6331456303596497,
      "epoch": 0.2834199338686821,
      "grad_norm": 29.48988078429707,
      "learning_rate": 2.8409090909090916e-06,
      "logits": -1.514231562614441,
      "logps": -84.27212524414062,
      "loss": 0.3777,
      "objective": 0.38673925399780273,
      "ranking_idealized": 0.6016666889190674,
      "ranking_idealized_expo": 0.5141666531562805,
      "ranking_simple": 0.5520833134651184,
      "regularize": 0.38673925399780273,
      "step": 100,
      "wo_beta": 15.562942504882812
    },
    {
      "epoch": 0.2834199338686821,
      "eval_dpo_loss": 0.6818161606788635,
      "eval_logits": -1.4774748086929321,
      "eval_logps": -92.86526489257812,
      "eval_loss": 0.4359625577926636,
      "eval_objective": 0.4269382953643799,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.531573474407196,
      "eval_regularize": 0.4269382953643799,
      "eval_runtime": 308.6402,
      "eval_samples_per_second": 18.76,
      "eval_steps_per_second": 1.565,
      "eval_wo_beta": 16.243934631347656,
      "step": 100
    },
    {
      "dpo_loss": 0.6157870292663574,
      "epoch": 0.42512990080302315,
      "grad_norm": 23.64962148842917,
      "learning_rate": 4.2613636363636365e-06,
      "logits": -1.363812804222107,
      "logps": -83.03893280029297,
      "loss": 0.4057,
      "objective": 0.4109911620616913,
      "ranking_idealized": 0.6066666841506958,
      "ranking_idealized_expo": 0.5287500023841858,
      "ranking_simple": 0.5679166913032532,
      "regularize": 0.4109911620616913,
      "step": 150,
      "wo_beta": 15.67545223236084
    },
    {
      "epoch": 0.42512990080302315,
      "eval_dpo_loss": 0.6897013783454895,
      "eval_logits": -1.2946008443832397,
      "eval_logps": -84.17744445800781,
      "eval_loss": 0.49110475182533264,
      "eval_objective": 0.48045814037323,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.5383023023605347,
      "eval_regularize": 0.48045814037323,
      "eval_runtime": 312.8899,
      "eval_samples_per_second": 18.505,
      "eval_steps_per_second": 1.544,
      "eval_wo_beta": 15.630563735961914,
      "step": 150
    },
    {
      "dpo_loss": 0.6037490963935852,
      "epoch": 0.5668398677373642,
      "grad_norm": 20.792422526564724,
      "learning_rate": 4.997168347957521e-06,
      "logits": -1.1515488624572754,
      "logps": -78.54210662841797,
      "loss": 0.4475,
      "objective": 0.4344017505645752,
      "ranking_idealized": 0.5924999713897705,
      "ranking_idealized_expo": 0.5166666507720947,
      "ranking_simple": 0.5537499785423279,
      "regularize": 0.4344017505645752,
      "step": 200,
      "wo_beta": 15.705690383911133
    },
    {
      "epoch": 0.5668398677373642,
      "eval_dpo_loss": 0.7102847695350647,
      "eval_logits": -0.9896814823150635,
      "eval_logps": -89.7341537475586,
      "eval_loss": 0.5660186409950256,
      "eval_objective": 0.5515478253364563,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.531573474407196,
      "eval_regularize": 0.5515478253364563,
      "eval_runtime": 307.7447,
      "eval_samples_per_second": 18.814,
      "eval_steps_per_second": 1.569,
      "eval_wo_beta": 15.128002166748047,
      "step": 200
    },
    {
      "dpo_loss": 0.6019502878189087,
      "epoch": 0.7085498346717053,
      "grad_norm": 19.149849902460005,
      "learning_rate": 4.973122855144066e-06,
      "logits": -0.9062835574150085,
      "logps": -77.80750274658203,
      "loss": 0.455,
      "objective": 0.4496636390686035,
      "ranking_idealized": 0.5991666913032532,
      "ranking_idealized_expo": 0.5170833468437195,
      "ranking_simple": 0.5724999904632568,
      "regularize": 0.4496636390686035,
      "step": 250,
      "wo_beta": 16.00295639038086
    },
    {
      "epoch": 0.7085498346717053,
      "eval_dpo_loss": 0.7171492576599121,
      "eval_logits": -1.0032674074172974,
      "eval_logps": -78.19169616699219,
      "eval_loss": 0.5978298783302307,
      "eval_objective": 0.5822399258613586,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.5310559272766113,
      "eval_regularize": 0.5822399258613586,
      "eval_runtime": 309.2921,
      "eval_samples_per_second": 18.72,
      "eval_steps_per_second": 1.562,
      "eval_wo_beta": 14.676263809204102,
      "step": 250
    },
    {
      "dpo_loss": 0.5993608236312866,
      "epoch": 0.8502598016060463,
      "grad_norm": 17.89888160897824,
      "learning_rate": 4.924776641419513e-06,
      "logits": -0.8504629731178284,
      "logps": -74.18943786621094,
      "loss": 0.4337,
      "objective": 0.42672449350357056,
      "ranking_idealized": 0.5799999833106995,
      "ranking_idealized_expo": 0.4970833361148834,
      "ranking_simple": 0.5529166460037231,
      "regularize": 0.42672449350357056,
      "step": 300,
      "wo_beta": 15.642317771911621
    },
    {
      "epoch": 0.8502598016060463,
      "eval_dpo_loss": 0.710507333278656,
      "eval_logits": -0.6760910153388977,
      "eval_logps": -78.8918228149414,
      "eval_loss": 0.5993344783782959,
      "eval_objective": 0.5779486894607544,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.5300207138061523,
      "eval_regularize": 0.5779486894607544,
      "eval_runtime": 308.8688,
      "eval_samples_per_second": 18.746,
      "eval_steps_per_second": 1.564,
      "eval_wo_beta": 14.919622421264648,
      "step": 300
    },
    {
      "dpo_loss": 0.5866905450820923,
      "epoch": 0.9919697685403873,
      "grad_norm": 18.680005245459032,
      "learning_rate": 4.8526047530778175e-06,
      "logits": -0.6557392477989197,
      "logps": -72.1249008178711,
      "loss": 0.4039,
      "objective": 0.3963530361652374,
      "ranking_idealized": 0.60916668176651,
      "ranking_idealized_expo": 0.5270833373069763,
      "ranking_simple": 0.5874999761581421,
      "regularize": 0.3963530361652374,
      "step": 350,
      "wo_beta": 15.802534103393555
    },
    {
      "epoch": 0.9919697685403873,
      "eval_dpo_loss": 0.707767128944397,
      "eval_logits": -0.7968087792396545,
      "eval_logps": -75.1519775390625,
      "eval_loss": 0.5977659821510315,
      "eval_objective": 0.5765314102172852,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.5289855003356934,
      "eval_regularize": 0.5765314102172852,
      "eval_runtime": 309.2048,
      "eval_samples_per_second": 18.725,
      "eval_steps_per_second": 1.562,
      "eval_wo_beta": 14.653112411499023,
      "step": 350
    },
    {
      "dpo_loss": 0.571822464466095,
      "epoch": 1.1336797354747283,
      "grad_norm": 17.758722724655755,
      "learning_rate": 4.757316345716554e-06,
      "logits": -0.6229808926582336,
      "logps": -71.7779541015625,
      "loss": 0.3729,
      "objective": 0.38071343302726746,
      "ranking_idealized": 0.6087499856948853,
      "ranking_idealized_expo": 0.5337499976158142,
      "ranking_simple": 0.596666693687439,
      "regularize": 0.38071343302726746,
      "step": 400,
      "wo_beta": 15.872475624084473
    },
    {
      "epoch": 1.1336797354747283,
      "eval_dpo_loss": 0.7153333425521851,
      "eval_logits": -0.5569362044334412,
      "eval_logps": -75.14326477050781,
      "eval_loss": 0.6180254817008972,
      "eval_objective": 0.6000439524650574,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.522774338722229,
      "eval_regularize": 0.6000439524650574,
      "eval_runtime": 308.681,
      "eval_samples_per_second": 18.757,
      "eval_steps_per_second": 1.565,
      "eval_wo_beta": 14.647075653076172,
      "step": 400
    },
    {
      "dpo_loss": 0.5686503052711487,
      "epoch": 1.2753897024090695,
      "grad_norm": 17.208572847816768,
      "learning_rate": 4.639847716126855e-06,
      "logits": -0.558698296546936,
      "logps": -71.48841094970703,
      "loss": 0.3454,
      "objective": 0.34283894300460815,
      "ranking_idealized": 0.5975000262260437,
      "ranking_idealized_expo": 0.5199999809265137,
      "ranking_simple": 0.59375,
      "regularize": 0.34283894300460815,
      "step": 450,
      "wo_beta": 16.339805603027344
    },
    {
      "epoch": 1.2753897024090695,
      "eval_dpo_loss": 0.716464638710022,
      "eval_logits": -0.6214241981506348,
      "eval_logps": -76.22888946533203,
      "eval_loss": 0.6315773725509644,
      "eval_objective": 0.6131163239479065,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.533643901348114,
      "eval_regularize": 0.6131163239479065,
      "eval_runtime": 309.544,
      "eval_samples_per_second": 18.705,
      "eval_steps_per_second": 1.56,
      "eval_wo_beta": 14.503443717956543,
      "step": 450
    },
    {
      "dpo_loss": 0.5579800605773926,
      "epoch": 1.4170996693434104,
      "grad_norm": 17.247428143304518,
      "learning_rate": 4.501353102310901e-06,
      "logits": -0.5506080985069275,
      "logps": -72.05484008789062,
      "loss": 0.3226,
      "objective": 0.321167916059494,
      "ranking_idealized": 0.57833331823349,
      "ranking_idealized_expo": 0.4983333349227905,
      "ranking_simple": 0.5724999904632568,
      "regularize": 0.321167916059494,
      "step": 500,
      "wo_beta": 15.88575553894043
    },
    {
      "epoch": 1.4170996693434104,
      "eval_dpo_loss": 0.7203696370124817,
      "eval_logits": -0.5608097910881042,
      "eval_logps": -77.60398864746094,
      "eval_loss": 0.6255373358726501,
      "eval_objective": 0.6084341406822205,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.5284678936004639,
      "eval_regularize": 0.6084341406822205,
      "eval_runtime": 308.7073,
      "eval_samples_per_second": 18.756,
      "eval_steps_per_second": 1.565,
      "eval_wo_beta": 14.499795913696289,
      "step": 500
    },
    {
      "dpo_loss": 0.5586966872215271,
      "epoch": 1.5588096362777515,
      "grad_norm": 16.23813175362919,
      "learning_rate": 4.34319334202531e-06,
      "logits": -0.5342339873313904,
      "logps": -74.90955352783203,
      "loss": 0.3133,
      "objective": 0.31819403171539307,
      "ranking_idealized": 0.5945833325386047,
      "ranking_idealized_expo": 0.5116666555404663,
      "ranking_simple": 0.5854166746139526,
      "regularize": 0.31819403171539307,
      "step": 550,
      "wo_beta": 15.694311141967773
    },
    {
      "epoch": 1.5588096362777515,
      "eval_dpo_loss": 0.7138590216636658,
      "eval_logits": -0.6736307144165039,
      "eval_logps": -78.62907409667969,
      "eval_loss": 0.6281688809394836,
      "eval_objective": 0.613820493221283,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.533643901348114,
      "eval_regularize": 0.613820493221283,
      "eval_runtime": 309.2677,
      "eval_samples_per_second": 18.722,
      "eval_steps_per_second": 1.562,
      "eval_wo_beta": 14.406906127929688,
      "step": 550
    },
    {
      "dpo_loss": 0.5538429021835327,
      "epoch": 1.7005196032120926,
      "grad_norm": 16.284668340767176,
      "learning_rate": 4.16692250129073e-06,
      "logits": -0.5140345692634583,
      "logps": -74.2342758178711,
      "loss": 0.2944,
      "objective": 0.29470422863960266,
      "ranking_idealized": 0.6004166603088379,
      "ranking_idealized_expo": 0.51583331823349,
      "ranking_simple": 0.5895833373069763,
      "regularize": 0.29470422863960266,
      "step": 600,
      "wo_beta": 15.488865852355957
    },
    {
      "epoch": 1.7005196032120926,
      "eval_dpo_loss": 0.717461884021759,
      "eval_logits": -0.5620033740997314,
      "eval_logps": -78.91792297363281,
      "eval_loss": 0.6321352124214172,
      "eval_objective": 0.6138916015625,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.5357142686843872,
      "eval_regularize": 0.6138916015625,
      "eval_runtime": 308.6792,
      "eval_samples_per_second": 18.757,
      "eval_steps_per_second": 1.565,
      "eval_wo_beta": 14.614200592041016,
      "step": 600
    },
    {
      "dpo_loss": 0.5554340481758118,
      "epoch": 1.8422295701464337,
      "grad_norm": 15.91791899711329,
      "learning_rate": 3.974272604254906e-06,
      "logits": -0.5311375260353088,
      "logps": -74.39502716064453,
      "loss": 0.2915,
      "objective": 0.28872814774513245,
      "ranking_idealized": 0.6058333516120911,
      "ranking_idealized_expo": 0.5295833349227905,
      "ranking_simple": 0.5991666913032532,
      "regularize": 0.28872814774513245,
      "step": 650,
      "wo_beta": 16.528623580932617
    },
    {
      "epoch": 1.8422295701464337,
      "eval_dpo_loss": 0.7137619256973267,
      "eval_logits": -0.702060341835022,
      "eval_logps": -77.44371795654297,
      "eval_loss": 0.6321162581443787,
      "eval_objective": 0.6157041788101196,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.5367494821548462,
      "eval_regularize": 0.6157041788101196,
      "eval_runtime": 309.0389,
      "eval_samples_per_second": 18.736,
      "eval_steps_per_second": 1.563,
      "eval_wo_beta": 14.385796546936035,
      "step": 650
    },
    {
      "dpo_loss": 0.5520748496055603,
      "epoch": 1.9839395370807746,
      "grad_norm": 15.323602142583136,
      "learning_rate": 3.767136614452458e-06,
      "logits": -0.5264750719070435,
      "logps": -75.2638931274414,
      "loss": 0.2675,
      "objective": 0.2728944420814514,
      "ranking_idealized": 0.5954166650772095,
      "ranking_idealized_expo": 0.5129166841506958,
      "ranking_simple": 0.5883333086967468,
      "regularize": 0.2728944420814514,
      "step": 700,
      "wo_beta": 15.999488830566406
    },
    {
      "epoch": 1.9839395370807746,
      "eval_dpo_loss": 0.7185091972351074,
      "eval_logits": -0.561150312423706,
      "eval_logps": -79.35997009277344,
      "eval_loss": 0.6386255621910095,
      "eval_objective": 0.6233482956886292,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.5289855003356934,
      "eval_regularize": 0.6233482956886292,
      "eval_runtime": 309.5574,
      "eval_samples_per_second": 18.704,
      "eval_steps_per_second": 1.56,
      "eval_wo_beta": 14.317137718200684,
      "step": 700
    },
    {
      "dpo_loss": 0.5413146615028381,
      "epoch": 2.1256495040151155,
      "grad_norm": 14.916489496350042,
      "learning_rate": 3.547549834686222e-06,
      "logits": -0.5209631323814392,
      "logps": -75.42438507080078,
      "loss": 0.2415,
      "objective": 0.23713654279708862,
      "ranking_idealized": 0.6066666841506958,
      "ranking_idealized_expo": 0.5133333206176758,
      "ranking_simple": 0.597083330154419,
      "regularize": 0.23713654279708862,
      "step": 750,
      "wo_beta": 15.934895515441895
    },
    {
      "epoch": 2.1256495040151155,
      "eval_dpo_loss": 0.7177355885505676,
      "eval_logits": -0.6173678636550903,
      "eval_logps": -80.0989761352539,
      "eval_loss": 0.6405187249183655,
      "eval_objective": 0.6263132095336914,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.534679114818573,
      "eval_regularize": 0.6263132095336914,
      "eval_runtime": 309.3835,
      "eval_samples_per_second": 18.715,
      "eval_steps_per_second": 1.561,
      "eval_wo_beta": 14.430180549621582,
      "step": 750
    },
    {
      "dpo_loss": 0.5419275760650635,
      "epoch": 2.2673594709494567,
      "grad_norm": 15.335797694469315,
      "learning_rate": 3.3176699082935546e-06,
      "logits": -0.5584273338317871,
      "logps": -76.04695129394531,
      "loss": 0.2263,
      "objective": 0.223616361618042,
      "ranking_idealized": 0.5941666960716248,
      "ranking_idealized_expo": 0.5129166841506958,
      "ranking_simple": 0.5866666436195374,
      "regularize": 0.223616361618042,
      "step": 800,
      "wo_beta": 15.526464462280273
    },
    {
      "epoch": 2.2673594709494567,
      "eval_dpo_loss": 0.7205542922019958,
      "eval_logits": -0.5665243268013,
      "eval_logps": -79.37840270996094,
      "eval_loss": 0.6457626223564148,
      "eval_objective": 0.6297247409820557,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.534679114818573,
      "eval_regularize": 0.6297247409820557,
      "eval_runtime": 308.5045,
      "eval_samples_per_second": 18.768,
      "eval_steps_per_second": 1.566,
      "eval_wo_beta": 14.316285133361816,
      "step": 800
    },
    {
      "dpo_loss": 0.539085865020752,
      "epoch": 2.409069437883798,
      "grad_norm": 15.300324456571563,
      "learning_rate": 3.0797556183036582e-06,
      "logits": -0.5494623780250549,
      "logps": -75.91812133789062,
      "loss": 0.2148,
      "objective": 0.2133045643568039,
      "ranking_idealized": 0.5979166626930237,
      "ranking_idealized_expo": 0.5166666507720947,
      "ranking_simple": 0.5879166722297668,
      "regularize": 0.2133045643568039,
      "step": 850,
      "wo_beta": 15.76329231262207
    },
    {
      "epoch": 2.409069437883798,
      "eval_dpo_loss": 0.7192490100860596,
      "eval_logits": -0.5793017148971558,
      "eval_logps": -79.08055114746094,
      "eval_loss": 0.6435712575912476,
      "eval_objective": 0.6275891661643982,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.5362318754196167,
      "eval_regularize": 0.6275891661643982,
      "eval_runtime": 312.2924,
      "eval_samples_per_second": 18.54,
      "eval_steps_per_second": 1.547,
      "eval_wo_beta": 14.426342010498047,
      "step": 850
    },
    {
      "dpo_loss": 0.5431251525878906,
      "epoch": 2.550779404818139,
      "grad_norm": 15.744993696603856,
      "learning_rate": 2.8361446928038298e-06,
      "logits": -0.5151351690292358,
      "logps": -75.99987030029297,
      "loss": 0.1993,
      "objective": 0.1999633014202118,
      "ranking_idealized": 0.5887500047683716,
      "ranking_idealized_expo": 0.518750011920929,
      "ranking_simple": 0.5899999737739563,
      "regularize": 0.1999633014202118,
      "step": 900,
      "wo_beta": 16.303361892700195
    },
    {
      "epoch": 2.550779404818139,
      "eval_dpo_loss": 0.7217252850532532,
      "eval_logits": -0.5620540976524353,
      "eval_logps": -80.38152313232422,
      "eval_loss": 0.6453951001167297,
      "eval_objective": 0.6301912665367126,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.5341615080833435,
      "eval_regularize": 0.6301912665367126,
      "eval_runtime": 308.7307,
      "eval_samples_per_second": 18.754,
      "eval_steps_per_second": 1.564,
      "eval_wo_beta": 14.44913387298584,
      "step": 900
    },
    {
      "dpo_loss": 0.5340785980224609,
      "epoch": 2.69248937175248,
      "grad_norm": 15.888338408049977,
      "learning_rate": 2.5892308345974517e-06,
      "logits": -0.5341619253158569,
      "logps": -76.2621841430664,
      "loss": 0.1887,
      "objective": 0.1899857223033905,
      "ranking_idealized": 0.5975000262260437,
      "ranking_idealized_expo": 0.5087500214576721,
      "ranking_simple": 0.5933333039283752,
      "regularize": 0.1899857223033905,
      "step": 950,
      "wo_beta": 16.227678298950195
    },
    {
      "epoch": 2.69248937175248,
      "eval_dpo_loss": 0.7204239964485168,
      "eval_logits": -0.6216442584991455,
      "eval_logps": -79.14459228515625,
      "eval_loss": 0.6443176865577698,
      "eval_objective": 0.6274449825286865,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.533643901348114,
      "eval_regularize": 0.6274449825286865,
      "eval_runtime": 309.1927,
      "eval_samples_per_second": 18.726,
      "eval_steps_per_second": 1.562,
      "eval_wo_beta": 14.318567276000977,
      "step": 950
    },
    {
      "dpo_loss": 0.5356190204620361,
      "epoch": 2.8341993386868207,
      "grad_norm": 14.415639648177313,
      "learning_rate": 2.341440200858589e-06,
      "logits": -0.5420577526092529,
      "logps": -74.890869140625,
      "loss": 0.1764,
      "objective": 0.17968998849391937,
      "ranking_idealized": 0.6020833253860474,
      "ranking_idealized_expo": 0.5104166865348816,
      "ranking_simple": 0.590416669845581,
      "regularize": 0.17968998849391937,
      "step": 1000,
      "wo_beta": 15.519268035888672
    },
    {
      "epoch": 2.8341993386868207,
      "eval_dpo_loss": 0.7200449705123901,
      "eval_logits": -0.6086606383323669,
      "eval_logps": -79.77206420898438,
      "eval_loss": 0.639886736869812,
      "eval_objective": 0.6246000528335571,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.533643901348114,
      "eval_regularize": 0.6246000528335571,
      "eval_runtime": 309.9286,
      "eval_samples_per_second": 18.682,
      "eval_steps_per_second": 1.558,
      "eval_wo_beta": 14.450177192687988,
      "step": 1000
    },
    {
      "dpo_loss": 0.5345789194107056,
      "epoch": 2.975909305621162,
      "grad_norm": 14.911688792125858,
      "learning_rate": 2.0952075638923656e-06,
      "logits": -0.5775164365768433,
      "logps": -75.94026184082031,
      "loss": 0.163,
      "objective": 0.162851020693779,
      "ranking_idealized": 0.6075000166893005,
      "ranking_idealized_expo": 0.5179166793823242,
      "ranking_simple": 0.6041666865348816,
      "regularize": 0.162851020693779,
      "step": 1050,
      "wo_beta": 16.27153205871582
    },
    {
      "epoch": 2.975909305621162,
      "eval_dpo_loss": 0.721105694770813,
      "eval_logits": -0.6067584156990051,
      "eval_logps": -79.58184814453125,
      "eval_loss": 0.6428102850914001,
      "eval_objective": 0.6266354322433472,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.531573474407196,
      "eval_regularize": 0.6266354322433472,
      "eval_runtime": 308.0819,
      "eval_samples_per_second": 18.794,
      "eval_steps_per_second": 1.568,
      "eval_wo_beta": 14.340644836425781,
      "step": 1050
    },
    {
      "epoch": 2.975909305621162,
      "step": 1050,
      "total_flos": 0.0,
      "train_loss": 0.3115594020343962,
      "train_runtime": 28931.7373,
      "train_samples_per_second": 8.78,
      "train_steps_per_second": 0.061
    }
  ],
  "logging_steps": 50,
  "max_steps": 1760,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}