Model save

3718184 verified 24 days ago

14 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 10.0,
	"eval_steps": 1000,
	"global_step": 250,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.04,
	"grad_norm": 5.49031856887175,
	"learning_rate": 4.0000000000000003e-07,
	"logits/chosen": -1.73323655128479,
	"logits/rejected": -1.963712453842163,
	"logps/chosen": -64.71795654296875,
	"logps/rejected": -92.56527709960938,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.9493782971816778,
	"learning_rate": 4.000000000000001e-06,
	"logits/chosen": -1.7276591062545776,
	"logits/rejected": -1.90531325340271,
	"logps/chosen": -72.89968872070312,
	"logps/rejected": -117.47108459472656,
	"loss": 0.6205,
	"rewards/accuracies": 0.6180555820465088,
	"rewards/chosen": -0.09507845342159271,
	"rewards/margins": 0.2017170786857605,
	"rewards/rejected": -0.296795517206192,
	"step": 10
	},
	{
	"epoch": 0.8,
	"grad_norm": 3.7554212607527964,
	"learning_rate": 8.000000000000001e-06,
	"logits/chosen": -1.4812278747558594,
	"logits/rejected": -1.7664066553115845,
	"logps/chosen": -64.52765655517578,
	"logps/rejected": -272.7065734863281,
	"loss": 0.3953,
	"rewards/accuracies": 0.8374999761581421,
	"rewards/chosen": -0.0347316637635231,
	"rewards/margins": 1.7828114032745361,
	"rewards/rejected": -1.8175432682037354,
	"step": 20
	},
	{
	"epoch": 1.2,
	"grad_norm": 6.377266655785215,
	"learning_rate": 9.987820251299121e-06,
	"logits/chosen": -1.6151340007781982,
	"logits/rejected": -1.9460217952728271,
	"logps/chosen": -143.10971069335938,
	"logps/rejected": -631.4593505859375,
	"loss": 0.1279,
	"rewards/accuracies": 0.981249988079071,
	"rewards/chosen": -0.8146063685417175,
	"rewards/margins": 4.596449851989746,
	"rewards/rejected": -5.4110565185546875,
	"step": 30
	},
	{
	"epoch": 1.6,
	"grad_norm": 0.5750895192621723,
	"learning_rate": 9.890738003669029e-06,
	"logits/chosen": -1.6781848669052124,
	"logits/rejected": -2.1725101470947266,
	"logps/chosen": -153.36740112304688,
	"logps/rejected": -981.5718994140625,
	"loss": 0.0112,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -0.9592069387435913,
	"rewards/margins": 7.915135383605957,
	"rewards/rejected": -8.87434196472168,
	"step": 40
	},
	{
	"epoch": 2.0,
	"grad_norm": 15.42824961576695,
	"learning_rate": 9.698463103929542e-06,
	"logits/chosen": -2.032032012939453,
	"logits/rejected": -2.422545909881592,
	"logps/chosen": -291.60833740234375,
	"logps/rejected": -1471.12451171875,
	"loss": 0.0265,
	"rewards/accuracies": 0.9937499761581421,
	"rewards/chosen": -2.294036388397217,
	"rewards/margins": 11.53666877746582,
	"rewards/rejected": -13.830705642700195,
	"step": 50
	},
	{
	"epoch": 2.4,
	"grad_norm": 0.04134383974122578,
	"learning_rate": 9.414737964294636e-06,
	"logits/chosen": -1.654057264328003,
	"logits/rejected": -2.1446919441223145,
	"logps/chosen": -305.9764709472656,
	"logps/rejected": -1340.496826171875,
	"loss": 0.0101,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -2.476349353790283,
	"rewards/margins": 9.981760025024414,
	"rewards/rejected": -12.458109855651855,
	"step": 60
	},
	{
	"epoch": 2.8,
	"grad_norm": 0.08981946731483229,
	"learning_rate": 9.045084971874738e-06,
	"logits/chosen": -1.8004175424575806,
	"logits/rejected": -2.220939874649048,
	"logps/chosen": -351.9838562011719,
	"logps/rejected": -1534.653564453125,
	"loss": 0.0004,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -2.8868424892425537,
	"rewards/margins": 11.563664436340332,
	"rewards/rejected": -14.450506210327148,
	"step": 70
	},
	{
	"epoch": 3.2,
	"grad_norm": 0.004562484598212617,
	"learning_rate": 8.596699001693257e-06,
	"logits/chosen": -1.955934762954712,
	"logits/rejected": -2.4210100173950195,
	"logps/chosen": -273.1143493652344,
	"logps/rejected": -1595.3917236328125,
	"loss": 0.0003,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -2.1271727085113525,
	"rewards/margins": 12.920974731445312,
	"rewards/rejected": -15.048149108886719,
	"step": 80
	},
	{
	"epoch": 3.6,
	"grad_norm": 0.1380036178242026,
	"learning_rate": 8.078307376628292e-06,
	"logits/chosen": -2.363739252090454,
	"logits/rejected": -2.916693925857544,
	"logps/chosen": -290.6210021972656,
	"logps/rejected": -1820.208251953125,
	"loss": 0.0001,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -2.2858262062072754,
	"rewards/margins": 15.026013374328613,
	"rewards/rejected": -17.311840057373047,
	"step": 90
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.027548373376636768,
	"learning_rate": 7.500000000000001e-06,
	"logits/chosen": -1.8597825765609741,
	"logits/rejected": -2.5159268379211426,
	"logps/chosen": -259.3269348144531,
	"logps/rejected": -1694.156005859375,
	"loss": 0.0036,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -1.9733333587646484,
	"rewards/margins": 14.052156448364258,
	"rewards/rejected": -16.025489807128906,
	"step": 100
	},
	{
	"epoch": 4.4,
	"grad_norm": 0.002852087112507335,
	"learning_rate": 6.873032967079562e-06,
	"logits/chosen": -1.1590913534164429,
	"logits/rejected": -1.9738283157348633,
	"logps/chosen": -243.7049560546875,
	"logps/rejected": -1585.557373046875,
	"loss": 0.0008,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -1.8130344152450562,
	"rewards/margins": 13.158452033996582,
	"rewards/rejected": -14.97148609161377,
	"step": 110
	},
	{
	"epoch": 4.8,
	"grad_norm": 0.050302608930815555,
	"learning_rate": 6.209609477998339e-06,
	"logits/chosen": -1.1821445226669312,
	"logits/rejected": -2.0527586936950684,
	"logps/chosen": -265.8364562988281,
	"logps/rejected": -1697.0533447265625,
	"loss": 0.0002,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -2.049001693725586,
	"rewards/margins": 14.01880168914795,
	"rewards/rejected": -16.06780242919922,
	"step": 120
	},
	{
	"epoch": 5.2,
	"grad_norm": 0.002082230483938349,
	"learning_rate": 5.522642316338268e-06,
	"logits/chosen": -1.4268571138381958,
	"logits/rejected": -2.196958303451538,
	"logps/chosen": -261.50567626953125,
	"logps/rejected": -1654.785888671875,
	"loss": 0.0002,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -2.0303101539611816,
	"rewards/margins": 13.576850891113281,
	"rewards/rejected": -15.607162475585938,
	"step": 130
	},
	{
	"epoch": 5.6,
	"grad_norm": 0.0019893945992160438,
	"learning_rate": 4.825502516487497e-06,
	"logits/chosen": -1.7991822957992554,
	"logits/rejected": -2.550363063812256,
	"logps/chosen": -319.41717529296875,
	"logps/rejected": -1847.844970703125,
	"loss": 0.0001,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -2.583193302154541,
	"rewards/margins": 14.985641479492188,
	"rewards/rejected": -17.568836212158203,
	"step": 140
	},
	{
	"epoch": 6.0,
	"grad_norm": 0.0015741333192918123,
	"learning_rate": 4.131759111665349e-06,
	"logits/chosen": -1.9366722106933594,
	"logits/rejected": -2.7011678218841553,
	"logps/chosen": -317.91302490234375,
	"logps/rejected": -1850.040771484375,
	"loss": 0.0001,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -2.5857417583465576,
	"rewards/margins": 15.00117015838623,
	"rewards/rejected": -17.586910247802734,
	"step": 150
	},
	{
	"epoch": 6.4,
	"grad_norm": 0.0011046666078130404,
	"learning_rate": 3.4549150281252635e-06,
	"logits/chosen": -1.9223568439483643,
	"logits/rejected": -2.68572735786438,
	"logps/chosen": -357.874755859375,
	"logps/rejected": -2010.9976806640625,
	"loss": 0.0001,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -2.9552831649780273,
	"rewards/margins": 16.265609741210938,
	"rewards/rejected": -19.22089195251465,
	"step": 160
	},
	{
	"epoch": 6.8,
	"grad_norm": 0.0008850683483477801,
	"learning_rate": 2.8081442660546126e-06,
	"logits/chosen": -1.939117431640625,
	"logits/rejected": -2.6780524253845215,
	"logps/chosen": -341.6114196777344,
	"logps/rejected": -1941.843017578125,
	"loss": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -2.7991585731506348,
	"rewards/margins": 15.720464706420898,
	"rewards/rejected": -18.519622802734375,
	"step": 170
	},
	{
	"epoch": 7.2,
	"grad_norm": 0.0006990799912761066,
	"learning_rate": 2.204035482646267e-06,
	"logits/chosen": -2.032839298248291,
	"logits/rejected": -2.8106019496917725,
	"logps/chosen": -401.89849853515625,
	"logps/rejected": -2151.74072265625,
	"loss": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -3.3739535808563232,
	"rewards/margins": 17.275264739990234,
	"rewards/rejected": -20.649219512939453,
	"step": 180
	},
	{
	"epoch": 7.6,
	"grad_norm": 0.0009810237591607713,
	"learning_rate": 1.6543469682057105e-06,
	"logits/chosen": -2.005420446395874,
	"logits/rejected": -2.788722038269043,
	"logps/chosen": -371.88824462890625,
	"logps/rejected": -2029.203125,
	"loss": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -3.0968661308288574,
	"rewards/margins": 16.302059173583984,
	"rewards/rejected": -19.398929595947266,
	"step": 190
	},
	{
	"epoch": 8.0,
	"grad_norm": 0.005038481428283606,
	"learning_rate": 1.1697777844051105e-06,
	"logits/chosen": -1.6506569385528564,
	"logits/rejected": -2.4032554626464844,
	"logps/chosen": -272.77264404296875,
	"logps/rejected": -1795.190185546875,
	"loss": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -2.1385960578918457,
	"rewards/margins": 14.876760482788086,
	"rewards/rejected": -17.01535987854004,
	"step": 200
	},
	{
	"epoch": 8.4,
	"grad_norm": 0.0007269378594182772,
	"learning_rate": 7.597595192178702e-07,
	"logits/chosen": -1.87616765499115,
	"logits/rejected": -2.6102375984191895,
	"logps/chosen": -321.3392639160156,
	"logps/rejected": -1848.580810546875,
	"loss": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -2.6000113487243652,
	"rewards/margins": 14.976901054382324,
	"rewards/rejected": -17.576915740966797,
	"step": 210
	},
	{
	"epoch": 8.8,
	"grad_norm": 0.0007139184876414333,
	"learning_rate": 4.322727117869951e-07,
	"logits/chosen": -1.9712779521942139,
	"logits/rejected": -2.749927043914795,
	"logps/chosen": -361.2076416015625,
	"logps/rejected": -1984.336669921875,
	"loss": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -2.9964027404785156,
	"rewards/margins": 15.949694633483887,
	"rewards/rejected": -18.946096420288086,
	"step": 220
	},
	{
	"epoch": 9.2,
	"grad_norm": 0.0009109490304217519,
	"learning_rate": 1.9369152030840553e-07,
	"logits/chosen": -1.8861472606658936,
	"logits/rejected": -2.6229307651519775,
	"logps/chosen": -340.4961853027344,
	"logps/rejected": -1894.4420166015625,
	"loss": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -2.806462287902832,
	"rewards/margins": 15.230853080749512,
	"rewards/rejected": -18.037317276000977,
	"step": 230
	},
	{
	"epoch": 9.6,
	"grad_norm": 0.0007160536583349626,
	"learning_rate": 4.865965629214819e-08,
	"logits/chosen": -1.8993374109268188,
	"logits/rejected": -2.6610684394836426,
	"logps/chosen": -320.7115783691406,
	"logps/rejected": -1872.178466796875,
	"loss": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -2.6092982292175293,
	"rewards/margins": 15.210273742675781,
	"rewards/rejected": -17.81957244873047,
	"step": 240
	},
	{
	"epoch": 10.0,
	"grad_norm": 0.0006100741232287624,
	"learning_rate": 0.0,
	"logits/chosen": -1.9146867990493774,
	"logits/rejected": -2.670241117477417,
	"logps/chosen": -317.877685546875,
	"logps/rejected": -1852.078857421875,
	"loss": 0.0,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -2.5683541297912598,
	"rewards/margins": 15.033134460449219,
	"rewards/rejected": -17.60148811340332,
	"step": 250
	},
	{
	"epoch": 10.0,
	"step": 250,
	"total_flos": 0.0,
	"train_loss": 0.048202857348136605,
	"train_runtime": 22140.6758,
	"train_samples_per_second": 0.723,
	"train_steps_per_second": 0.011
	}
	],
	"logging_steps": 10,
	"max_steps": 250,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}