phi-2-gpo-test-longest-iter-v1-1 / trainer_state.json

Model save

92a8554 verified 8 months ago

14 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.968,
	"eval_steps": 100,
	"global_step": 248,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.02,
	"learning_rate": 2.0000000000000002e-07,
	"logits/chosen": 0.4729592502117157,
	"logits/rejected": 0.38554269075393677,
	"logps/chosen": -213.08737182617188,
	"logps/rejected": -203.01974487304688,
	"loss": 0.0016,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.16,
	"learning_rate": 2.0000000000000003e-06,
	"logits/chosen": 0.15001463890075684,
	"logits/rejected": 0.20593884587287903,
	"logps/chosen": -161.55821228027344,
	"logps/rejected": -135.95449829101562,
	"loss": 0.0015,
	"rewards/accuracies": 0.3819444477558136,
	"rewards/chosen": 3.554481372702867e-05,
	"rewards/margins": 0.0017159796552732587,
	"rewards/rejected": -0.001680435030721128,
	"step": 10
	},
	{
	"epoch": 0.32,
	"learning_rate": 4.000000000000001e-06,
	"logits/chosen": 0.09242797642946243,
	"logits/rejected": 0.04898233711719513,
	"logps/chosen": -181.7728271484375,
	"logps/rejected": -151.2571563720703,
	"loss": 0.0017,
	"rewards/accuracies": 0.375,
	"rewards/chosen": -0.0012837719405069947,
	"rewards/margins": -0.0005185201880522072,
	"rewards/rejected": -0.0007652518688701093,
	"step": 20
	},
	{
	"epoch": 0.48,
	"learning_rate": 4.993800445762451e-06,
	"logits/chosen": 0.1974470317363739,
	"logits/rejected": 0.24875693023204803,
	"logps/chosen": -175.55596923828125,
	"logps/rejected": -143.77584838867188,
	"loss": 0.0019,
	"rewards/accuracies": 0.39375001192092896,
	"rewards/chosen": -0.003100383561104536,
	"rewards/margins": -0.0019143905956298113,
	"rewards/rejected": -0.0011859927326440811,
	"step": 30
	},
	{
	"epoch": 0.64,
	"learning_rate": 4.944388344834205e-06,
	"logits/chosen": 0.1500740945339203,
	"logits/rejected": 0.2011214792728424,
	"logps/chosen": -181.77581787109375,
	"logps/rejected": -164.48788452148438,
	"loss": 0.0016,
	"rewards/accuracies": 0.3499999940395355,
	"rewards/chosen": -0.0005139185814186931,
	"rewards/margins": 0.0008601135341450572,
	"rewards/rejected": -0.0013740319991484284,
	"step": 40
	},
	{
	"epoch": 0.8,
	"learning_rate": 4.8465431931347904e-06,
	"logits/chosen": 0.08030920475721359,
	"logits/rejected": 0.15738067030906677,
	"logps/chosen": -169.9337158203125,
	"logps/rejected": -144.90228271484375,
	"loss": 0.0017,
	"rewards/accuracies": 0.375,
	"rewards/chosen": -0.0008664874476380646,
	"rewards/margins": -0.0005486059235408902,
	"rewards/rejected": -0.00031788164051249623,
	"step": 50
	},
	{
	"epoch": 0.96,
	"learning_rate": 4.702203692102539e-06,
	"logits/chosen": 0.1897524893283844,
	"logits/rejected": 0.17828692495822906,
	"logps/chosen": -173.4358367919922,
	"logps/rejected": -145.06625366210938,
	"loss": 0.0016,
	"rewards/accuracies": 0.42500001192092896,
	"rewards/chosen": -0.0021182517521083355,
	"rewards/margins": 0.0011023099068552256,
	"rewards/rejected": -0.0032205611933022738,
	"step": 60
	},
	{
	"epoch": 1.12,
	"learning_rate": 4.514229781074239e-06,
	"logits/chosen": 0.2607804834842682,
	"logits/rejected": 0.23584774136543274,
	"logps/chosen": -188.595947265625,
	"logps/rejected": -160.49171447753906,
	"loss": 0.0018,
	"rewards/accuracies": 0.34375,
	"rewards/chosen": -0.0020389086566865444,
	"rewards/margins": -0.001390365301631391,
	"rewards/rejected": -0.0006485433550551534,
	"step": 70
	},
	{
	"epoch": 1.28,
	"learning_rate": 4.286345970517195e-06,
	"logits/chosen": 0.17552152276039124,
	"logits/rejected": 0.24562516808509827,
	"logps/chosen": -165.12591552734375,
	"logps/rejected": -137.75808715820312,
	"loss": 0.0016,
	"rewards/accuracies": 0.44999998807907104,
	"rewards/chosen": -0.00046771267079748213,
	"rewards/margins": 0.0003761005064006895,
	"rewards/rejected": -0.0008438131771981716,
	"step": 80
	},
	{
	"epoch": 1.44,
	"learning_rate": 4.023067544670082e-06,
	"logits/chosen": 0.16295495629310608,
	"logits/rejected": 0.1336701214313507,
	"logps/chosen": -176.12887573242188,
	"logps/rejected": -145.37673950195312,
	"loss": 0.0016,
	"rewards/accuracies": 0.42500001192092896,
	"rewards/chosen": -0.0007470982382073998,
	"rewards/margins": 0.0005909097963012755,
	"rewards/rejected": -0.001338008209131658,
	"step": 90
	},
	{
	"epoch": 1.6,
	"learning_rate": 3.7296110958116845e-06,
	"logits/chosen": 0.18624618649482727,
	"logits/rejected": 0.15213565528392792,
	"logps/chosen": -177.76405334472656,
	"logps/rejected": -152.70240783691406,
	"loss": 0.0016,
	"rewards/accuracies": 0.4000000059604645,
	"rewards/chosen": 0.000859270163346082,
	"rewards/margins": 0.0012418597470968962,
	"rewards/rejected": -0.0003825899329967797,
	"step": 100
	},
	{
	"epoch": 1.6,
	"eval_logits/chosen": -0.004967109765857458,
	"eval_logits/rejected": 0.09325645118951797,
	"eval_logps/chosen": -306.3399353027344,
	"eval_logps/rejected": -278.6739501953125,
	"eval_loss": 0.0021029466297477484,
	"eval_rewards/accuracies": 0.4909999966621399,
	"eval_rewards/chosen": 0.0005270715337246656,
	"eval_rewards/margins": 0.00038576460792683065,
	"eval_rewards/rejected": 0.00014130691124591976,
	"eval_runtime": 412.0589,
	"eval_samples_per_second": 4.854,
	"eval_steps_per_second": 1.213,
	"step": 100
	},
	{
	"epoch": 1.76,
	"learning_rate": 3.4117911628292944e-06,
	"logits/chosen": 0.18669767677783966,
	"logits/rejected": 0.193131685256958,
	"logps/chosen": -186.2015380859375,
	"logps/rejected": -160.41812133789062,
	"loss": 0.0017,
	"rewards/accuracies": 0.35624998807907104,
	"rewards/chosen": -0.0022148210555315018,
	"rewards/margins": -0.0006464887410402298,
	"rewards/rejected": -0.0015683325473219156,
	"step": 110
	},
	{
	"epoch": 1.92,
	"learning_rate": 3.075905022087675e-06,
	"logits/chosen": 0.07856817543506622,
	"logits/rejected": 0.13352298736572266,
	"logps/chosen": -174.9341278076172,
	"logps/rejected": -154.233642578125,
	"loss": 0.0017,
	"rewards/accuracies": 0.40625,
	"rewards/chosen": 0.0001242739672306925,
	"rewards/margins": 0.0005846145795658231,
	"rewards/rejected": -0.00046034049591980875,
	"step": 120
	},
	{
	"epoch": 2.08,
	"learning_rate": 2.728607913349464e-06,
	"logits/chosen": 0.19492605328559875,
	"logits/rejected": 0.16430191695690155,
	"logps/chosen": -174.35968017578125,
	"logps/rejected": -150.935302734375,
	"loss": 0.0016,
	"rewards/accuracies": 0.45625001192092896,
	"rewards/chosen": -0.0011604964965954423,
	"rewards/margins": 0.0007132277823984623,
	"rewards/rejected": -0.0018737241625785828,
	"step": 130
	},
	{
	"epoch": 2.24,
	"learning_rate": 2.376781173017589e-06,
	"logits/chosen": 0.2628365159034729,
	"logits/rejected": 0.19500017166137695,
	"logps/chosen": -187.58023071289062,
	"logps/rejected": -166.26370239257812,
	"loss": 0.0017,
	"rewards/accuracies": 0.35624998807907104,
	"rewards/chosen": -0.0010837314184755087,
	"rewards/margins": -0.00033805653220042586,
	"rewards/rejected": -0.0007456748280674219,
	"step": 140
	},
	{
	"epoch": 2.4,
	"learning_rate": 2.0273958875043877e-06,
	"logits/chosen": 0.14645084738731384,
	"logits/rejected": 0.1681375354528427,
	"logps/chosen": -157.08926391601562,
	"logps/rejected": -131.46810913085938,
	"loss": 0.0016,
	"rewards/accuracies": 0.45625001192092896,
	"rewards/chosen": -0.002456915332004428,
	"rewards/margins": 0.0014492868212983012,
	"rewards/rejected": -0.0039062027353793383,
	"step": 150
	},
	{
	"epoch": 2.56,
	"learning_rate": 1.6873747682962393e-06,
	"logits/chosen": 0.16395077109336853,
	"logits/rejected": 0.14529384672641754,
	"logps/chosen": -188.40296936035156,
	"logps/rejected": -158.95834350585938,
	"loss": 0.0016,
	"rewards/accuracies": 0.40625,
	"rewards/chosen": 0.00022082138457335532,
	"rewards/margins": 0.000981360673904419,
	"rewards/rejected": -0.0007605393184348941,
	"step": 160
	},
	{
	"epoch": 2.72,
	"learning_rate": 1.363454985517803e-06,
	"logits/chosen": 0.21595752239227295,
	"logits/rejected": 0.17811095714569092,
	"logps/chosen": -178.89500427246094,
	"logps/rejected": -150.37576293945312,
	"loss": 0.0016,
	"rewards/accuracies": 0.4437499940395355,
	"rewards/chosen": 0.0017019693041220307,
	"rewards/margins": 0.0014590112259611487,
	"rewards/rejected": 0.00024295765615534037,
	"step": 170
	},
	{
	"epoch": 2.88,
	"learning_rate": 1.062054677808238e-06,
	"logits/chosen": 0.11008661985397339,
	"logits/rejected": 0.1656235158443451,
	"logps/chosen": -166.90554809570312,
	"logps/rejected": -149.75042724609375,
	"loss": 0.0017,
	"rewards/accuracies": 0.4000000059604645,
	"rewards/chosen": -0.0004684976884163916,
	"rewards/margins": 0.0005998688284307718,
	"rewards/rejected": -0.0010683666914701462,
	"step": 180
	},
	{
	"epoch": 3.04,
	"learning_rate": 7.891457834794711e-07,
	"logits/chosen": 0.2820424437522888,
	"logits/rejected": 0.16322749853134155,
	"logps/chosen": -180.0753173828125,
	"logps/rejected": -143.658203125,
	"loss": 0.0016,
	"rewards/accuracies": 0.4312500059604645,
	"rewards/chosen": 1.5354249853771762e-06,
	"rewards/margins": 0.0018281619995832443,
	"rewards/rejected": -0.0018266268307343125,
	"step": 190
	},
	{
	"epoch": 3.2,
	"learning_rate": 5.501357126768117e-07,
	"logits/chosen": 0.15994948148727417,
	"logits/rejected": 0.14330127835273743,
	"logps/chosen": -183.79759216308594,
	"logps/rejected": -155.71310424804688,
	"loss": 0.0017,
	"rewards/accuracies": 0.4375,
	"rewards/chosen": 0.001569538377225399,
	"rewards/margins": 0.0009444955503568053,
	"rewards/rejected": 0.000625042652245611,
	"step": 200
	},
	{
	"epoch": 3.2,
	"eval_logits/chosen": -0.009462343528866768,
	"eval_logits/rejected": 0.08856771141290665,
	"eval_logps/chosen": -306.4609375,
	"eval_logps/rejected": -278.74566650390625,
	"eval_loss": 0.0021845391020178795,
	"eval_rewards/accuracies": 0.4950000047683716,
	"eval_rewards/chosen": -0.0006826075841672719,
	"eval_rewards/margins": -0.00010681045387173072,
	"eval_rewards/rejected": -0.0005757971666753292,
	"eval_runtime": 412.1683,
	"eval_samples_per_second": 4.852,
	"eval_steps_per_second": 1.213,
	"step": 200
	},
	{
	"epoch": 3.36,
	"learning_rate": 3.4976020508682345e-07,
	"logits/chosen": 0.1456301361322403,
	"logits/rejected": 0.2356918305158615,
	"logps/chosen": -183.83010864257812,
	"logps/rejected": -155.9720458984375,
	"loss": 0.0015,
	"rewards/accuracies": 0.44999998807907104,
	"rewards/chosen": 0.0012806833256036043,
	"rewards/margins": 0.0026433460880070925,
	"rewards/rejected": -0.0013626629952341318,
	"step": 210
	},
	{
	"epoch": 3.52,
	"learning_rate": 1.9198949610721273e-07,
	"logits/chosen": 0.11089984327554703,
	"logits/rejected": 0.18088462948799133,
	"logps/chosen": -183.67636108398438,
	"logps/rejected": -146.19009399414062,
	"loss": 0.0015,
	"rewards/accuracies": 0.46875,
	"rewards/chosen": 0.0020343190990388393,
	"rewards/margins": 0.0024411864578723907,
	"rewards/rejected": -0.00040686698048375547,
	"step": 220
	},
	{
	"epoch": 3.68,
	"learning_rate": 7.994965069994143e-08,
	"logits/chosen": 0.15200337767601013,
	"logits/rejected": 0.0883503332734108,
	"logps/chosen": -152.91159057617188,
	"logps/rejected": -137.67068481445312,
	"loss": 0.0017,
	"rewards/accuracies": 0.4437499940395355,
	"rewards/chosen": -0.0002739583433140069,
	"rewards/margins": 0.00024719498469494283,
	"rewards/rejected": -0.0005211535608395934,
	"step": 230
	},
	{
	"epoch": 3.84,
	"learning_rate": 1.5860623616664183e-08,
	"logits/chosen": 0.21818551421165466,
	"logits/rejected": 0.26517254114151,
	"logps/chosen": -185.5134735107422,
	"logps/rejected": -156.71102905273438,
	"loss": 0.0018,
	"rewards/accuracies": 0.3125,
	"rewards/chosen": -0.0007516987388953567,
	"rewards/margins": -0.001160649349913001,
	"rewards/rejected": 0.0004089508147444576,
	"step": 240
	},
	{
	"epoch": 3.97,
	"step": 248,
	"total_flos": 0.0,
	"train_loss": 0.0016499216942447088,
	"train_runtime": 2658.6406,
	"train_samples_per_second": 1.505,
	"train_steps_per_second": 0.093
	}
	],
	"logging_steps": 10,
	"max_steps": 248,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}