qwen2.5-0.5b-expo-DPO-ES-10 / trainer_state.json

Model save

04e1e01 verified 23 days ago

20.4 kB

	{
	"best_metric": 6.651296138763428,
	"best_model_checkpoint": "./qwen2.5-0.5b/qwen2.5-0.5b-expo-DPO-ES-10/checkpoint-550",
	"epoch": 2.2673594709494567,
	"eval_steps": 50,
	"global_step": 800,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"dpo_loss": 0.6931471824645996,
	"epoch": 0.002834199338686821,
	"grad_norm": 1844.2532039401294,
	"learning_rate": 2.840909090909091e-08,
	"logits": -1.359458565711975,
	"logps": -84.69721221923828,
	"loss": 0.6931,
	"objective": 0.6931471824645996,
	"ranking_idealized": 0.5833333134651184,
	"ranking_idealized_expo": 0.5833333134651184,
	"ranking_simple": 0.5833333134651184,
	"regularize": 0.6931471824645996,
	"step": 1,
	"wo_beta": 5.271125316619873
	},
	{
	"dpo_loss": 1.9794068336486816,
	"epoch": 0.14170996693434104,
	"grad_norm": 1879.680280823908,
	"learning_rate": 1.4204545454545458e-06,
	"logits": -1.4480701684951782,
	"logps": -84.59326934814453,
	"loss": 2.0094,
	"objective": 1.9794068336486816,
	"ranking_idealized": 0.5225340127944946,
	"ranking_idealized_expo": 0.5216836929321289,
	"ranking_simple": 0.5250850319862366,
	"regularize": 1.9794068336486816,
	"step": 50,
	"wo_beta": 7.08821439743042
	},
	{
	"epoch": 0.14170996693434104,
	"eval_dpo_loss": 3.0980334281921387,
	"eval_logits": -1.4591896533966064,
	"eval_logps": -90.62417602539062,
	"eval_loss": 3.106841564178467,
	"eval_objective": 3.0980334281921387,
	"eval_ranking_idealized": 0.5212215185165405,
	"eval_ranking_idealized_expo": 0.5212215185165405,
	"eval_ranking_simple": 0.5258799195289612,
	"eval_regularize": 3.0980334281921387,
	"eval_runtime": 308.1993,
	"eval_samples_per_second": 18.787,
	"eval_steps_per_second": 1.567,
	"eval_wo_beta": 7.7179274559021,
	"step": 50
	},
	{
	"dpo_loss": 6.002392768859863,
	"epoch": 0.2834199338686821,
	"grad_norm": 1776.9003571892035,
	"learning_rate": 2.8409090909090916e-06,
	"logits": -1.4501550197601318,
	"logps": -81.94203186035156,
	"loss": 5.9165,
	"objective": 6.002392768859863,
	"ranking_idealized": 0.5141666531562805,
	"ranking_idealized_expo": 0.5137500166893005,
	"ranking_simple": 0.5425000190734863,
	"regularize": 6.002392768859863,
	"step": 100,
	"wo_beta": 6.498049736022949
	},
	{
	"epoch": 0.2834199338686821,
	"eval_dpo_loss": 7.139862060546875,
	"eval_logits": -1.4642183780670166,
	"eval_logps": -82.83346557617188,
	"eval_loss": 7.14874792098999,
	"eval_objective": 7.139862060546875,
	"eval_ranking_idealized": 0.5212215185165405,
	"eval_ranking_idealized_expo": 0.5212215185165405,
	"eval_ranking_simple": 0.5300207138061523,
	"eval_regularize": 7.139862060546875,
	"eval_runtime": 309.8222,
	"eval_samples_per_second": 18.688,
	"eval_steps_per_second": 1.559,
	"eval_wo_beta": 7.4498443603515625,
	"step": 100
	},
	{
	"dpo_loss": 10.150534629821777,
	"epoch": 0.42512990080302315,
	"grad_norm": 1372.4824531102197,
	"learning_rate": 4.2613636363636365e-06,
	"logits": -1.4184441566467285,
	"logps": -73.7444076538086,
	"loss": 9.9617,
	"objective": 10.150534629821777,
	"ranking_idealized": 0.5287500023841858,
	"ranking_idealized_expo": 0.527916669845581,
	"ranking_simple": 0.5641666650772095,
	"regularize": 10.150534629821777,
	"step": 150,
	"wo_beta": 6.36607027053833
	},
	{
	"epoch": 0.42512990080302315,
	"eval_dpo_loss": 11.353630065917969,
	"eval_logits": -1.3437175750732422,
	"eval_logps": -83.07452392578125,
	"eval_loss": 11.899770736694336,
	"eval_objective": 11.353630065917969,
	"eval_ranking_idealized": 0.5212215185165405,
	"eval_ranking_idealized_expo": 0.5212215185165405,
	"eval_ranking_simple": 0.5305383205413818,
	"eval_regularize": 11.353630065917969,
	"eval_runtime": 307.9181,
	"eval_samples_per_second": 18.804,
	"eval_steps_per_second": 1.569,
	"eval_wo_beta": 7.260918140411377,
	"step": 150
	},
	{
	"dpo_loss": 12.522791862487793,
	"epoch": 0.5668398677373642,
	"grad_norm": 1378.4122138720427,
	"learning_rate": 4.997168347957521e-06,
	"logits": -1.3766180276870728,
	"logps": -77.5620346069336,
	"loss": 12.4724,
	"objective": 12.522791862487793,
	"ranking_idealized": 0.51583331823349,
	"ranking_idealized_expo": 0.51541668176651,
	"ranking_simple": 0.5550000071525574,
	"regularize": 12.522791862487793,
	"step": 200,
	"wo_beta": 6.352013111114502
	},
	{
	"epoch": 0.5668398677373642,
	"eval_dpo_loss": 16.061721801757812,
	"eval_logits": -1.387966513633728,
	"eval_logps": -79.93595886230469,
	"eval_loss": 17.09868049621582,
	"eval_objective": 16.061721801757812,
	"eval_ranking_idealized": 0.5212215185165405,
	"eval_ranking_idealized_expo": 0.5212215185165405,
	"eval_ranking_simple": 0.5300207138061523,
	"eval_regularize": 16.061721801757812,
	"eval_runtime": 307.8039,
	"eval_samples_per_second": 18.811,
	"eval_steps_per_second": 1.569,
	"eval_wo_beta": 7.228997230529785,
	"step": 200
	},
	{
	"dpo_loss": 13.093570709228516,
	"epoch": 0.7085498346717053,
	"grad_norm": 1274.583157442186,
	"learning_rate": 4.973122855144066e-06,
	"logits": -1.294631004333496,
	"logps": -76.13822174072266,
	"loss": 13.2936,
	"objective": 13.093570709228516,
	"ranking_idealized": 0.5166666507720947,
	"ranking_idealized_expo": 0.5162500143051147,
	"ranking_simple": 0.5824999809265137,
	"regularize": 13.093570709228516,
	"step": 250,
	"wo_beta": 6.279551982879639
	},
	{
	"epoch": 0.7085498346717053,
	"eval_dpo_loss": 17.797138214111328,
	"eval_logits": -1.3640648126602173,
	"eval_logps": -77.31498718261719,
	"eval_loss": 18.5308780670166,
	"eval_objective": 17.797138214111328,
	"eval_ranking_idealized": 0.5212215185165405,
	"eval_ranking_idealized_expo": 0.5212215185165405,
	"eval_ranking_simple": 0.5341615080833435,
	"eval_regularize": 17.797138214111328,
	"eval_runtime": 313.1016,
	"eval_samples_per_second": 18.492,
	"eval_steps_per_second": 1.543,
	"eval_wo_beta": 7.207766532897949,
	"step": 250
	},
	{
	"dpo_loss": 10.712362289428711,
	"epoch": 0.8502598016060463,
	"grad_norm": 982.3462926804266,
	"learning_rate": 4.924776641419513e-06,
	"logits": -1.090299129486084,
	"logps": -70.98873138427734,
	"loss": 11.5204,
	"objective": 10.712362289428711,
	"ranking_idealized": 0.4962500035762787,
	"ranking_idealized_expo": 0.4950000047683716,
	"ranking_simple": 0.5679166913032532,
	"regularize": 10.712362289428711,
	"step": 300,
	"wo_beta": 6.134185314178467
	},
	{
	"epoch": 0.8502598016060463,
	"eval_dpo_loss": 18.701662063598633,
	"eval_logits": -0.9941285848617554,
	"eval_logps": -76.97978210449219,
	"eval_loss": 19.434432983398438,
	"eval_objective": 18.701662063598633,
	"eval_ranking_idealized": 0.5212215185165405,
	"eval_ranking_idealized_expo": 0.5212215185165405,
	"eval_ranking_simple": 0.5357142686843872,
	"eval_regularize": 18.701662063598633,
	"eval_runtime": 307.6602,
	"eval_samples_per_second": 18.819,
	"eval_steps_per_second": 1.57,
	"eval_wo_beta": 7.013552188873291,
	"step": 300
	},
	{
	"dpo_loss": 10.92597484588623,
	"epoch": 0.9919697685403873,
	"grad_norm": 938.8397527375307,
	"learning_rate": 4.8526047530778175e-06,
	"logits": -0.9006206393241882,
	"logps": -72.82616424560547,
	"loss": 11.3717,
	"objective": 10.92597484588623,
	"ranking_idealized": 0.5262500047683716,
	"ranking_idealized_expo": 0.5254166722297668,
	"ranking_simple": 0.6033333539962769,
	"regularize": 10.92597484588623,
	"step": 350,
	"wo_beta": 5.362515449523926
	},
	{
	"epoch": 0.9919697685403873,
	"eval_dpo_loss": 19.039833068847656,
	"eval_logits": -1.0426429510116577,
	"eval_logps": -76.1622543334961,
	"eval_loss": 20.39594841003418,
	"eval_objective": 19.039833068847656,
	"eval_ranking_idealized": 0.5212215185165405,
	"eval_ranking_idealized_expo": 0.5212215185165405,
	"eval_ranking_simple": 0.5408902764320374,
	"eval_regularize": 19.039833068847656,
	"eval_runtime": 307.6502,
	"eval_samples_per_second": 18.82,
	"eval_steps_per_second": 1.57,
	"eval_wo_beta": 7.0260910987854,
	"step": 350
	},
	{
	"dpo_loss": 6.708657264709473,
	"epoch": 1.1336797354747283,
	"grad_norm": 902.5480798954853,
	"learning_rate": 4.757316345716554e-06,
	"logits": -0.7562137246131897,
	"logps": -70.6362075805664,
	"loss": 7.0971,
	"objective": 6.708657264709473,
	"ranking_idealized": 0.5333333611488342,
	"ranking_idealized_expo": 0.5320833325386047,
	"ranking_simple": 0.6329166889190674,
	"regularize": 6.708657264709473,
	"step": 400,
	"wo_beta": 4.74643087387085
	},
	{
	"epoch": 1.1336797354747283,
	"eval_dpo_loss": 21.69021987915039,
	"eval_logits": -0.6236207485198975,
	"eval_logps": -76.14582824707031,
	"eval_loss": 21.927854537963867,
	"eval_objective": 21.69021987915039,
	"eval_ranking_idealized": 0.5212215185165405,
	"eval_ranking_idealized_expo": 0.5212215185165405,
	"eval_ranking_simple": 0.5388198494911194,
	"eval_regularize": 21.69021987915039,
	"eval_runtime": 308.4451,
	"eval_samples_per_second": 18.772,
	"eval_steps_per_second": 1.566,
	"eval_wo_beta": 7.122740745544434,
	"step": 400
	},
	{
	"dpo_loss": 8.22778606414795,
	"epoch": 1.2753897024090695,
	"grad_norm": 701.1530681925066,
	"learning_rate": 4.639847716126855e-06,
	"logits": -0.6124467849731445,
	"logps": -71.35508728027344,
	"loss": 7.5725,
	"objective": 8.22778606414795,
	"ranking_idealized": 0.5195833444595337,
	"ranking_idealized_expo": 0.5191666483879089,
	"ranking_simple": 0.6312500238418579,
	"regularize": 8.22778606414795,
	"step": 450,
	"wo_beta": 5.267808437347412
	},
	{
	"epoch": 1.2753897024090695,
	"eval_dpo_loss": 20.385303497314453,
	"eval_logits": -0.8352137207984924,
	"eval_logps": -76.3924331665039,
	"eval_loss": 20.948013305664062,
	"eval_objective": 20.385303497314453,
	"eval_ranking_idealized": 0.5212215185165405,
	"eval_ranking_idealized_expo": 0.5212215185165405,
	"eval_ranking_simple": 0.5372670888900757,
	"eval_regularize": 20.385303497314453,
	"eval_runtime": 307.7791,
	"eval_samples_per_second": 18.812,
	"eval_steps_per_second": 1.569,
	"eval_wo_beta": 6.8499908447265625,
	"step": 450
	},
	{
	"dpo_loss": 7.319465160369873,
	"epoch": 1.4170996693434104,
	"grad_norm": 1027.4391137177338,
	"learning_rate": 4.501353102310901e-06,
	"logits": -0.7022644877433777,
	"logps": -74.45861053466797,
	"loss": 7.6466,
	"objective": 7.319465160369873,
	"ranking_idealized": 0.49791666865348816,
	"ranking_idealized_expo": 0.4970833361148834,
	"ranking_simple": 0.6225000023841858,
	"regularize": 7.319465160369873,
	"step": 500,
	"wo_beta": 5.078485488891602
	},
	{
	"epoch": 1.4170996693434104,
	"eval_dpo_loss": 20.265100479125977,
	"eval_logits": -0.7483307123184204,
	"eval_logps": -80.78058624267578,
	"eval_loss": 20.982105255126953,
	"eval_objective": 20.265100479125977,
	"eval_ranking_idealized": 0.5212215185165405,
	"eval_ranking_idealized_expo": 0.5212215185165405,
	"eval_ranking_simple": 0.532608687877655,
	"eval_regularize": 20.265100479125977,
	"eval_runtime": 307.6224,
	"eval_samples_per_second": 18.822,
	"eval_steps_per_second": 1.57,
	"eval_wo_beta": 6.882425785064697,
	"step": 500
	},
	{
	"dpo_loss": 6.880460739135742,
	"epoch": 1.5588096362777515,
	"grad_norm": 856.3100755197052,
	"learning_rate": 4.34319334202531e-06,
	"logits": -0.6065574884414673,
	"logps": -75.99507141113281,
	"loss": 6.9565,
	"objective": 6.880460739135742,
	"ranking_idealized": 0.5112500190734863,
	"ranking_idealized_expo": 0.5104166865348816,
	"ranking_simple": 0.6445833444595337,
	"regularize": 6.880460739135742,
	"step": 550,
	"wo_beta": 4.776731967926025
	},
	{
	"epoch": 1.5588096362777515,
	"eval_dpo_loss": 20.566144943237305,
	"eval_logits": -0.6148493885993958,
	"eval_logps": -80.20514678955078,
	"eval_loss": 21.350601196289062,
	"eval_objective": 20.566144943237305,
	"eval_ranking_idealized": 0.5212215185165405,
	"eval_ranking_idealized_expo": 0.5212215185165405,
	"eval_ranking_simple": 0.5383023023605347,
	"eval_regularize": 20.566144943237305,
	"eval_runtime": 311.6281,
	"eval_samples_per_second": 18.58,
	"eval_steps_per_second": 1.55,
	"eval_wo_beta": 6.651296138763428,
	"step": 550
	},
	{
	"dpo_loss": 6.715544700622559,
	"epoch": 1.7005196032120926,
	"grad_norm": 710.120603889053,
	"learning_rate": 4.16692250129073e-06,
	"logits": -0.4755525290966034,
	"logps": -75.72002410888672,
	"loss": 6.7183,
	"objective": 6.715544700622559,
	"ranking_idealized": 0.51541668176651,
	"ranking_idealized_expo": 0.5149999856948853,
	"ranking_simple": 0.637499988079071,
	"regularize": 6.715544700622559,
	"step": 600,
	"wo_beta": 4.843540668487549
	},
	{
	"epoch": 1.7005196032120926,
	"eval_dpo_loss": 20.002656936645508,
	"eval_logits": -0.606741189956665,
	"eval_logps": -78.53438568115234,
	"eval_loss": 21.126510620117188,
	"eval_objective": 20.002656936645508,
	"eval_ranking_idealized": 0.5212215185165405,
	"eval_ranking_idealized_expo": 0.5212215185165405,
	"eval_ranking_simple": 0.5367494821548462,
	"eval_regularize": 20.002656936645508,
	"eval_runtime": 307.6088,
	"eval_samples_per_second": 18.823,
	"eval_steps_per_second": 1.57,
	"eval_wo_beta": 6.676760673522949,
	"step": 600
	},
	{
	"dpo_loss": 7.323308944702148,
	"epoch": 1.8422295701464337,
	"grad_norm": 790.4876193704064,
	"learning_rate": 3.974272604254906e-06,
	"logits": -0.5003318190574646,
	"logps": -74.34846496582031,
	"loss": 6.9931,
	"objective": 7.323308944702148,
	"ranking_idealized": 0.5291666388511658,
	"ranking_idealized_expo": 0.527916669845581,
	"ranking_simple": 0.64083331823349,
	"regularize": 7.323308944702148,
	"step": 650,
	"wo_beta": 5.1112799644470215
	},
	{
	"epoch": 1.8422295701464337,
	"eval_dpo_loss": 21.445514678955078,
	"eval_logits": -0.5872498154640198,
	"eval_logps": -77.65087127685547,
	"eval_loss": 22.20830535888672,
	"eval_objective": 21.445514678955078,
	"eval_ranking_idealized": 0.5212215185165405,
	"eval_ranking_idealized_expo": 0.5212215185165405,
	"eval_ranking_simple": 0.5383023023605347,
	"eval_regularize": 21.445514678955078,
	"eval_runtime": 307.7733,
	"eval_samples_per_second": 18.813,
	"eval_steps_per_second": 1.569,
	"eval_wo_beta": 6.819047451019287,
	"step": 650
	},
	{
	"dpo_loss": 6.620248317718506,
	"epoch": 1.9839395370807746,
	"grad_norm": 688.8652687295252,
	"learning_rate": 3.767136614452458e-06,
	"logits": -0.40135031938552856,
	"logps": -73.09497833251953,
	"loss": 6.1685,
	"objective": 6.620248317718506,
	"ranking_idealized": 0.5129166841506958,
	"ranking_idealized_expo": 0.5108333230018616,
	"ranking_simple": 0.6358333230018616,
	"regularize": 6.620248317718506,
	"step": 700,
	"wo_beta": 5.023129463195801
	},
	{
	"epoch": 1.9839395370807746,
	"eval_dpo_loss": 21.55119514465332,
	"eval_logits": -0.5436362028121948,
	"eval_logps": -77.14934539794922,
	"eval_loss": 22.36069679260254,
	"eval_objective": 21.55119514465332,
	"eval_ranking_idealized": 0.5212215185165405,
	"eval_ranking_idealized_expo": 0.5212215185165405,
	"eval_ranking_simple": 0.5403726696968079,
	"eval_regularize": 21.55119514465332,
	"eval_runtime": 310.6834,
	"eval_samples_per_second": 18.636,
	"eval_steps_per_second": 1.555,
	"eval_wo_beta": 6.729911804199219,
	"step": 700
	},
	{
	"dpo_loss": 3.5603878498077393,
	"epoch": 2.1256495040151155,
	"grad_norm": 579.769858214478,
	"learning_rate": 3.547549834686222e-06,
	"logits": -0.5370141863822937,
	"logps": -73.9045639038086,
	"loss": 3.4811,
	"objective": 3.5603878498077393,
	"ranking_idealized": 0.5129166841506958,
	"ranking_idealized_expo": 0.5112500190734863,
	"ranking_simple": 0.6691666841506958,
	"regularize": 3.5603878498077393,
	"step": 750,
	"wo_beta": 4.534417152404785
	},
	{
	"epoch": 2.1256495040151155,
	"eval_dpo_loss": 21.137874603271484,
	"eval_logits": -0.7312601804733276,
	"eval_logps": -78.93118286132812,
	"eval_loss": 21.834890365600586,
	"eval_objective": 21.137874603271484,
	"eval_ranking_idealized": 0.5212215185165405,
	"eval_ranking_idealized_expo": 0.5212215185165405,
	"eval_ranking_simple": 0.542443037033081,
	"eval_regularize": 21.137874603271484,
	"eval_runtime": 307.6064,
	"eval_samples_per_second": 18.823,
	"eval_steps_per_second": 1.57,
	"eval_wo_beta": 6.821295261383057,
	"step": 750
	},
	{
	"dpo_loss": 3.4036636352539062,
	"epoch": 2.2673594709494567,
	"grad_norm": 573.1633009551587,
	"learning_rate": 3.3176699082935546e-06,
	"logits": -0.5852146148681641,
	"logps": -75.8536376953125,
	"loss": 3.3995,
	"objective": 3.4036636352539062,
	"ranking_idealized": 0.512499988079071,
	"ranking_idealized_expo": 0.512499988079071,
	"ranking_simple": 0.6625000238418579,
	"regularize": 3.4036636352539062,
	"step": 800,
	"wo_beta": 4.245257377624512
	},
	{
	"epoch": 2.2673594709494567,
	"eval_dpo_loss": 20.453168869018555,
	"eval_logits": -0.5475257635116577,
	"eval_logps": -79.71145629882812,
	"eval_loss": 21.353944778442383,
	"eval_objective": 20.453168869018555,
	"eval_ranking_idealized": 0.5212215185165405,
	"eval_ranking_idealized_expo": 0.5212215185165405,
	"eval_ranking_simple": 0.5362318754196167,
	"eval_regularize": 20.453168869018555,
	"eval_runtime": 307.5814,
	"eval_samples_per_second": 18.824,
	"eval_steps_per_second": 1.57,
	"eval_wo_beta": 6.686735153198242,
	"step": 800
	},
	{
	"epoch": 2.2673594709494567,
	"step": 800,
	"total_flos": 0.0,
	"train_loss": 7.659533626437187,
	"train_runtime": 21973.9049,
	"train_samples_per_second": 11.56,
	"train_steps_per_second": 0.08
	}
	],
	"logging_steps": 50,
	"max_steps": 1760,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 5,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}