Model save

544fffb verified 7 months ago

10 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 100,
	"global_step": 165,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01,
	"grad_norm": 4.652278347218786,
	"learning_rate": 2.941176470588235e-08,
	"logits/chosen": -0.8284896612167358,
	"logits/rejected": -0.9010236263275146,
	"logps/chosen": -1066.3585205078125,
	"logps/rejected": -1448.19970703125,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.06,
	"grad_norm": 4.746771519966634,
	"learning_rate": 2.941176470588235e-07,
	"logits/chosen": -0.8115520477294922,
	"logits/rejected": -0.8255029320716858,
	"logps/chosen": -1131.291259765625,
	"logps/rejected": -1369.7412109375,
	"loss": 0.6932,
	"rewards/accuracies": 0.4652777910232544,
	"rewards/chosen": 0.0002041943371295929,
	"rewards/margins": -4.850090044783428e-05,
	"rewards/rejected": 0.0002526953467167914,
	"step": 10
	},
	{
	"epoch": 0.12,
	"grad_norm": 4.451745733301935,
	"learning_rate": 4.994932636402031e-07,
	"logits/chosen": -0.7243806719779968,
	"logits/rejected": -0.8158847093582153,
	"logps/chosen": -1020.7599487304688,
	"logps/rejected": -1355.944091796875,
	"loss": 0.6921,
	"rewards/accuracies": 0.59375,
	"rewards/chosen": 0.001858971663750708,
	"rewards/margins": 0.0021505323238670826,
	"rewards/rejected": -0.00029156063101254404,
	"step": 20
	},
	{
	"epoch": 0.18,
	"grad_norm": 4.532594184835871,
	"learning_rate": 4.905416503522123e-07,
	"logits/chosen": -0.7353666424751282,
	"logits/rejected": -0.8100309371948242,
	"logps/chosen": -1033.032470703125,
	"logps/rejected": -1331.6929931640625,
	"loss": 0.688,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": 0.008143061771988869,
	"rewards/margins": 0.010795501992106438,
	"rewards/rejected": -0.002652441617101431,
	"step": 30
	},
	{
	"epoch": 0.24,
	"grad_norm": 4.452955387273571,
	"learning_rate": 4.707922373336523e-07,
	"logits/chosen": -0.7547545433044434,
	"logits/rejected": -0.7800291776657104,
	"logps/chosen": -1057.7445068359375,
	"logps/rejected": -1296.575439453125,
	"loss": 0.6825,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": 0.008273174986243248,
	"rewards/margins": 0.016675911843776703,
	"rewards/rejected": -0.008402736857533455,
	"step": 40
	},
	{
	"epoch": 0.3,
	"grad_norm": 4.931805222376995,
	"learning_rate": 4.4113156629677313e-07,
	"logits/chosen": -0.7371411919593811,
	"logits/rejected": -0.6845098733901978,
	"logps/chosen": -1045.1011962890625,
	"logps/rejected": -1151.344970703125,
	"loss": 0.6718,
	"rewards/accuracies": 0.8062499761581421,
	"rewards/chosen": 0.017855554819107056,
	"rewards/margins": 0.04448147863149643,
	"rewards/rejected": -0.026625927537679672,
	"step": 50
	},
	{
	"epoch": 0.36,
	"grad_norm": 4.689422676957636,
	"learning_rate": 4.0289109058972283e-07,
	"logits/chosen": -0.7692807912826538,
	"logits/rejected": -0.7662399411201477,
	"logps/chosen": -999.9730224609375,
	"logps/rejected": -1286.947509765625,
	"loss": 0.6595,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": 0.027734506875276566,
	"rewards/margins": 0.07751207053661346,
	"rewards/rejected": -0.0497775673866272,
	"step": 60
	},
	{
	"epoch": 0.42,
	"grad_norm": 4.956697872711078,
	"learning_rate": 3.577874068920446e-07,
	"logits/chosen": -0.7923519611358643,
	"logits/rejected": -0.8132171630859375,
	"logps/chosen": -1077.121337890625,
	"logps/rejected": -1317.41845703125,
	"loss": 0.6474,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": 0.009537232108414173,
	"rewards/margins": 0.09025295078754425,
	"rewards/rejected": -0.08071572333574295,
	"step": 70
	},
	{
	"epoch": 0.48,
	"grad_norm": 6.011926472486656,
	"learning_rate": 3.078451980100854e-07,
	"logits/chosen": -0.7588658928871155,
	"logits/rejected": -0.8289008140563965,
	"logps/chosen": -1011.5177612304688,
	"logps/rejected": -1298.1904296875,
	"loss": 0.6262,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": 0.023491863161325455,
	"rewards/margins": 0.1584763377904892,
	"rewards/rejected": -0.13498449325561523,
	"step": 80
	},
	{
	"epoch": 0.55,
	"grad_norm": 5.367792800931542,
	"learning_rate": 2.553063458334059e-07,
	"logits/chosen": -0.7922073006629944,
	"logits/rejected": -0.8237783312797546,
	"logps/chosen": -1067.434326171875,
	"logps/rejected": -1301.37109375,
	"loss": 0.5865,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": -0.015568578615784645,
	"rewards/margins": 0.31723320484161377,
	"rewards/rejected": -0.3328017592430115,
	"step": 90
	},
	{
	"epoch": 0.61,
	"grad_norm": 5.346586894544636,
	"learning_rate": 2.0252929432814287e-07,
	"logits/chosen": -0.779016375541687,
	"logits/rejected": -0.9120697975158691,
	"logps/chosen": -1015.7185668945312,
	"logps/rejected": -1394.1680908203125,
	"loss": 0.5615,
	"rewards/accuracies": 0.8812500238418579,
	"rewards/chosen": -0.05275765806436539,
	"rewards/margins": 0.5331910848617554,
	"rewards/rejected": -0.5859487056732178,
	"step": 100
	},
	{
	"epoch": 0.61,
	"eval_logits/chosen": -0.6675596237182617,
	"eval_logits/rejected": -0.8939424753189087,
	"eval_logps/chosen": -826.0933837890625,
	"eval_logps/rejected": -1433.1563720703125,
	"eval_loss": 0.6218963861465454,
	"eval_rewards/accuracies": 0.7459239363670349,
	"eval_rewards/chosen": -0.044515106827020645,
	"eval_rewards/margins": 0.19978085160255432,
	"eval_rewards/rejected": -0.24429598450660706,
	"eval_runtime": 353.1381,
	"eval_samples_per_second": 8.289,
	"eval_steps_per_second": 0.261,
	"step": 100
	},
	{
	"epoch": 0.67,
	"grad_norm": 5.41704752041782,
	"learning_rate": 1.5188318011445906e-07,
	"logits/chosen": -0.7974969744682312,
	"logits/rejected": -0.8456804156303406,
	"logps/chosen": -1040.8197021484375,
	"logps/rejected": -1285.4654541015625,
	"loss": 0.5406,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": -0.08253589272499084,
	"rewards/margins": 0.788347601890564,
	"rewards/rejected": -0.870883584022522,
	"step": 110
	},
	{
	"epoch": 0.73,
	"grad_norm": 6.860188078136068,
	"learning_rate": 1.0564148305586295e-07,
	"logits/chosen": -0.7957097291946411,
	"logits/rejected": -0.8646506071090698,
	"logps/chosen": -979.1201171875,
	"logps/rejected": -1402.442138671875,
	"loss": 0.5115,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -0.07362432777881622,
	"rewards/margins": 0.8031437993049622,
	"rewards/rejected": -0.8767681121826172,
	"step": 120
	},
	{
	"epoch": 0.79,
	"grad_norm": 6.241835191835041,
	"learning_rate": 6.587997083462196e-08,
	"logits/chosen": -0.828117847442627,
	"logits/rejected": -0.8768518567085266,
	"logps/chosen": -1065.3460693359375,
	"logps/rejected": -1385.936767578125,
	"loss": 0.5146,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -0.0992397740483284,
	"rewards/margins": 1.1248447895050049,
	"rewards/rejected": -1.2240846157073975,
	"step": 130
	},
	{
	"epoch": 0.85,
	"grad_norm": 6.81375264804862,
	"learning_rate": 3.438351873250492e-08,
	"logits/chosen": -0.8043051958084106,
	"logits/rejected": -0.8954287767410278,
	"logps/chosen": -1059.5267333984375,
	"logps/rejected": -1414.9984130859375,
	"loss": 0.5123,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -0.17837993800640106,
	"rewards/margins": 0.9624137878417969,
	"rewards/rejected": -1.1407936811447144,
	"step": 140
	},
	{
	"epoch": 0.91,
	"grad_norm": 7.068585992863548,
	"learning_rate": 1.256598743236703e-08,
	"logits/chosen": -0.8356617093086243,
	"logits/rejected": -0.8929821252822876,
	"logps/chosen": -1066.185302734375,
	"logps/rejected": -1415.41064453125,
	"loss": 0.5079,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": -0.16673186421394348,
	"rewards/margins": 0.8981729745864868,
	"rewards/rejected": -1.0649049282073975,
	"step": 150
	},
	{
	"epoch": 0.97,
	"grad_norm": 6.546330593670502,
	"learning_rate": 1.406755487774386e-09,
	"logits/chosen": -0.816728949546814,
	"logits/rejected": -0.8898676633834839,
	"logps/chosen": -1021.1590576171875,
	"logps/rejected": -1444.29296875,
	"loss": 0.4992,
	"rewards/accuracies": 0.8374999761581421,
	"rewards/chosen": -0.196590393781662,
	"rewards/margins": 0.9931901097297668,
	"rewards/rejected": -1.189780592918396,
	"step": 160
	},
	{
	"epoch": 1.0,
	"step": 165,
	"total_flos": 0.0,
	"train_loss": 0.20238888480446554,
	"train_runtime": 919.6394,
	"train_samples_per_second": 11.461,
	"train_steps_per_second": 0.179
	}
	],
	"logging_steps": 10,
	"max_steps": 165,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}