{
  "best_metric": 7.426205635070801,
  "best_model_checkpoint": "./qwen2.5-0.5b/qwen2.5-0.5b-expo-DPO-ES-0.1/checkpoint-300",
  "epoch": 1.5588096362777515,
  "eval_steps": 50,
  "global_step": 550,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "dpo_loss": 0.6931471824645996,
      "epoch": 0.002834199338686821,
      "grad_norm": 18.442536934850562,
      "learning_rate": 2.840909090909091e-08,
      "logits": -1.359458565711975,
      "logps": -84.69721221923828,
      "loss": 0.6931,
      "objective": 0.6931471824645996,
      "ranking_idealized": 0.6458333134651184,
      "ranking_idealized_expo": 0.5833333134651184,
      "ranking_simple": 0.5833333134651184,
      "regularize": 0.6931471824645996,
      "step": 1,
      "wo_beta": 5.271125316619873
    },
    {
      "dpo_loss": 0.6822353601455688,
      "epoch": 0.14170996693434104,
      "grad_norm": 18.641661833444882,
      "learning_rate": 1.4204545454545458e-06,
      "logits": -1.5086464881896973,
      "logps": -82.8218765258789,
      "loss": 0.6785,
      "objective": 0.6822353601455688,
      "ranking_idealized": 0.608418345451355,
      "ranking_idealized_expo": 0.5229591727256775,
      "ranking_simple": 0.5267857313156128,
      "regularize": 0.6822353601455688,
      "step": 50,
      "wo_beta": 7.122647285461426
    },
    {
      "epoch": 0.14170996693434104,
      "eval_dpo_loss": 0.6842505931854248,
      "eval_logits": -1.6022353172302246,
      "eval_logps": -90.87158203125,
      "eval_loss": 0.6813499927520752,
      "eval_objective": 0.6842505931854248,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.5258799195289612,
      "eval_regularize": 0.6842505931854248,
      "eval_runtime": 309.4614,
      "eval_samples_per_second": 18.71,
      "eval_steps_per_second": 1.561,
      "eval_wo_beta": 7.874892711639404,
      "step": 50
    },
    {
      "dpo_loss": 0.6103044152259827,
      "epoch": 0.2834199338686821,
      "grad_norm": 19.292131977363915,
      "learning_rate": 2.8409090909090916e-06,
      "logits": -1.696779727935791,
      "logps": -88.03015899658203,
      "loss": 0.618,
      "objective": 0.6103044152259827,
      "ranking_idealized": 0.6016666889190674,
      "ranking_idealized_expo": 0.5141666531562805,
      "ranking_simple": 0.5729166865348816,
      "regularize": 0.6103044152259827,
      "step": 100,
      "wo_beta": 6.357714653015137
    },
    {
      "epoch": 0.2834199338686821,
      "eval_dpo_loss": 0.6765866279602051,
      "eval_logits": -1.7799253463745117,
      "eval_logps": -98.88992309570312,
      "eval_loss": 0.6732903122901917,
      "eval_objective": 0.6765866279602051,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.5398550629615784,
      "eval_regularize": 0.6765866279602051,
      "eval_runtime": 308.813,
      "eval_samples_per_second": 18.749,
      "eval_steps_per_second": 1.564,
      "eval_wo_beta": 7.784023284912109,
      "step": 100
    },
    {
      "dpo_loss": 0.5696373581886292,
      "epoch": 0.42512990080302315,
      "grad_norm": 18.14389066821128,
      "learning_rate": 4.2613636363636365e-06,
      "logits": -1.744734287261963,
      "logps": -90.7203140258789,
      "loss": 0.5667,
      "objective": 0.5696373581886292,
      "ranking_idealized": 0.6066666841506958,
      "ranking_idealized_expo": 0.5287500023841858,
      "ranking_simple": 0.6016666889190674,
      "regularize": 0.5696373581886292,
      "step": 150,
      "wo_beta": 5.971276760101318
    },
    {
      "epoch": 0.42512990080302315,
      "eval_dpo_loss": 0.6829108595848083,
      "eval_logits": -1.8072086572647095,
      "eval_logps": -99.12300109863281,
      "eval_loss": 0.6866306066513062,
      "eval_objective": 0.6829108595848083,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.5408902764320374,
      "eval_regularize": 0.6829108595848083,
      "eval_runtime": 312.2547,
      "eval_samples_per_second": 18.543,
      "eval_steps_per_second": 1.547,
      "eval_wo_beta": 7.8532514572143555,
      "step": 150
    },
    {
      "dpo_loss": 0.5278292298316956,
      "epoch": 0.5668398677373642,
      "grad_norm": 15.350860718764396,
      "learning_rate": 4.997168347957521e-06,
      "logits": -1.908250093460083,
      "logps": -92.51087951660156,
      "loss": 0.5214,
      "objective": 0.5278292298316956,
      "ranking_idealized": 0.5924999713897705,
      "ranking_idealized_expo": 0.5166666507720947,
      "ranking_simple": 0.6362500190734863,
      "regularize": 0.5278292298316956,
      "step": 200,
      "wo_beta": 5.543264389038086
    },
    {
      "epoch": 0.5668398677373642,
      "eval_dpo_loss": 0.6904094815254211,
      "eval_logits": -1.8893996477127075,
      "eval_logps": -99.53878784179688,
      "eval_loss": 0.6900797486305237,
      "eval_objective": 0.6904094815254211,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.544513463973999,
      "eval_regularize": 0.6904094815254211,
      "eval_runtime": 315.3971,
      "eval_samples_per_second": 18.358,
      "eval_steps_per_second": 1.531,
      "eval_wo_beta": 7.699478626251221,
      "step": 200
    },
    {
      "dpo_loss": 0.49355897307395935,
      "epoch": 0.7085498346717053,
      "grad_norm": 14.313286499637714,
      "learning_rate": 4.973122855144066e-06,
      "logits": -1.9076462984085083,
      "logps": -88.3504867553711,
      "loss": 0.4922,
      "objective": 0.49355897307395935,
      "ranking_idealized": 0.5991666913032532,
      "ranking_idealized_expo": 0.5170833468437195,
      "ranking_simple": 0.6608333587646484,
      "regularize": 0.49355897307395935,
      "step": 250,
      "wo_beta": 5.325013637542725
    },
    {
      "epoch": 0.7085498346717053,
      "eval_dpo_loss": 0.6915506720542908,
      "eval_logits": -1.9879554510116577,
      "eval_logps": -82.79730224609375,
      "eval_loss": 0.6976116895675659,
      "eval_objective": 0.6915506720542908,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.5476190447807312,
      "eval_regularize": 0.6915506720542908,
      "eval_runtime": 308.7255,
      "eval_samples_per_second": 18.755,
      "eval_steps_per_second": 1.564,
      "eval_wo_beta": 7.87898588180542,
      "step": 250
    },
    {
      "dpo_loss": 0.4521573483943939,
      "epoch": 0.8502598016060463,
      "grad_norm": 13.44014162581437,
      "learning_rate": 4.924776641419513e-06,
      "logits": -2.09318470954895,
      "logps": -81.41643524169922,
      "loss": 0.4535,
      "objective": 0.4521573483943939,
      "ranking_idealized": 0.5799999833106995,
      "ranking_idealized_expo": 0.4970833361148834,
      "ranking_simple": 0.6837499737739563,
      "regularize": 0.4521573483943939,
      "step": 300,
      "wo_beta": 5.026339054107666
    },
    {
      "epoch": 0.8502598016060463,
      "eval_dpo_loss": 0.6892624497413635,
      "eval_logits": -2.120311975479126,
      "eval_logps": -91.03094482421875,
      "eval_loss": 0.6920701265335083,
      "eval_objective": 0.6892624497413635,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.5559006333351135,
      "eval_regularize": 0.6892624497413635,
      "eval_runtime": 308.4714,
      "eval_samples_per_second": 18.77,
      "eval_steps_per_second": 1.566,
      "eval_wo_beta": 7.426205635070801,
      "step": 300
    },
    {
      "dpo_loss": 0.40864402055740356,
      "epoch": 0.9919697685403873,
      "grad_norm": 15.102301026818012,
      "learning_rate": 4.8526047530778175e-06,
      "logits": -1.9232014417648315,
      "logps": -84.39765930175781,
      "loss": 0.423,
      "objective": 0.40864402055740356,
      "ranking_idealized": 0.60916668176651,
      "ranking_idealized_expo": 0.5270833373069763,
      "ranking_simple": 0.7174999713897705,
      "regularize": 0.40864402055740356,
      "step": 350,
      "wo_beta": 3.9979019165039062
    },
    {
      "epoch": 0.9919697685403873,
      "eval_dpo_loss": 0.6959461569786072,
      "eval_logits": -1.987973690032959,
      "eval_logps": -88.1614990234375,
      "eval_loss": 0.7056758403778076,
      "eval_objective": 0.6959461569786072,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.5548654198646545,
      "eval_regularize": 0.6959461569786072,
      "eval_runtime": 309.9548,
      "eval_samples_per_second": 18.68,
      "eval_steps_per_second": 1.558,
      "eval_wo_beta": 7.997907638549805,
      "step": 350
    },
    {
      "dpo_loss": 0.28186026215553284,
      "epoch": 1.1336797354747283,
      "grad_norm": 12.122355016988976,
      "learning_rate": 4.757316345716554e-06,
      "logits": -2.0241637229919434,
      "logps": -91.86678314208984,
      "loss": 0.2847,
      "objective": 0.28186026215553284,
      "ranking_idealized": 0.6087499856948853,
      "ranking_idealized_expo": 0.5337499976158142,
      "ranking_simple": 0.8145833611488342,
      "regularize": 0.28186026215553284,
      "step": 400,
      "wo_beta": 2.646965980529785
    },
    {
      "epoch": 1.1336797354747283,
      "eval_dpo_loss": 0.7281294465065002,
      "eval_logits": -2.0862255096435547,
      "eval_logps": -101.69258117675781,
      "eval_loss": 0.7314654588699341,
      "eval_objective": 0.7281294465065002,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.542443037033081,
      "eval_regularize": 0.7281294465065002,
      "eval_runtime": 308.7063,
      "eval_samples_per_second": 18.756,
      "eval_steps_per_second": 1.565,
      "eval_wo_beta": 8.632596969604492,
      "step": 400
    },
    {
      "dpo_loss": 0.30417078733444214,
      "epoch": 1.2753897024090695,
      "grad_norm": 12.255120909837279,
      "learning_rate": 4.639847716126855e-06,
      "logits": -1.9048844575881958,
      "logps": -92.96432495117188,
      "loss": 0.2991,
      "objective": 0.30417078733444214,
      "ranking_idealized": 0.5975000262260437,
      "ranking_idealized_expo": 0.5199999809265137,
      "ranking_simple": 0.8087499737739563,
      "regularize": 0.30417078733444214,
      "step": 450,
      "wo_beta": 3.335141658782959
    },
    {
      "epoch": 1.2753897024090695,
      "eval_dpo_loss": 0.6979546546936035,
      "eval_logits": -1.8470289707183838,
      "eval_logps": -92.79419708251953,
      "eval_loss": 0.7008146047592163,
      "eval_objective": 0.6979546546936035,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.5621117949485779,
      "eval_regularize": 0.6979546546936035,
      "eval_runtime": 308.7789,
      "eval_samples_per_second": 18.751,
      "eval_steps_per_second": 1.564,
      "eval_wo_beta": 8.258440017700195,
      "step": 450
    },
    {
      "dpo_loss": 0.29814377427101135,
      "epoch": 1.4170996693434104,
      "grad_norm": 15.647218082922008,
      "learning_rate": 4.501353102310901e-06,
      "logits": -1.9365119934082031,
      "logps": -90.89854431152344,
      "loss": 0.3065,
      "objective": 0.29814377427101135,
      "ranking_idealized": 0.57833331823349,
      "ranking_idealized_expo": 0.4983333349227905,
      "ranking_simple": 0.7991666793823242,
      "regularize": 0.29814377427101135,
      "step": 500,
      "wo_beta": 3.127906560897827
    },
    {
      "epoch": 1.4170996693434104,
      "eval_dpo_loss": 0.7147387266159058,
      "eval_logits": -2.006500005722046,
      "eval_logps": -96.67472076416016,
      "eval_loss": 0.7179672122001648,
      "eval_objective": 0.7147387266159058,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.555383026599884,
      "eval_regularize": 0.7147387266159058,
      "eval_runtime": 309.3319,
      "eval_samples_per_second": 18.718,
      "eval_steps_per_second": 1.561,
      "eval_wo_beta": 8.252218246459961,
      "step": 500
    },
    {
      "dpo_loss": 0.2861484885215759,
      "epoch": 1.5588096362777515,
      "grad_norm": 10.885590323378537,
      "learning_rate": 4.34319334202531e-06,
      "logits": -1.9361701011657715,
      "logps": -95.84064483642578,
      "loss": 0.2895,
      "objective": 0.2861484885215759,
      "ranking_idealized": 0.5945833325386047,
      "ranking_idealized_expo": 0.5116666555404663,
      "ranking_simple": 0.8066666722297668,
      "regularize": 0.2861484885215759,
      "step": 550,
      "wo_beta": 2.692445993423462
    },
    {
      "epoch": 1.5588096362777515,
      "eval_dpo_loss": 0.7076632976531982,
      "eval_logits": -1.887025237083435,
      "eval_logps": -104.24694061279297,
      "eval_loss": 0.7044315338134766,
      "eval_objective": 0.7076632976531982,
      "eval_ranking_idealized": 0.6030020713806152,
      "eval_ranking_idealized_expo": 0.5222567319869995,
      "eval_ranking_simple": 0.5652173757553101,
      "eval_regularize": 0.7076632976531982,
      "eval_runtime": 309.8676,
      "eval_samples_per_second": 18.685,
      "eval_steps_per_second": 1.559,
      "eval_wo_beta": 8.194681167602539,
      "step": 550
    },
    {
      "epoch": 1.5588096362777515,
      "step": 550,
      "total_flos": 0.0,
      "train_loss": 0.4484944924441251,
      "train_runtime": 15200.6621,
      "train_samples_per_second": 16.71,
      "train_steps_per_second": 0.116
    }
  ],
  "logging_steps": 50,
  "max_steps": 1760,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}