TTTXXX01
/

Meta-Llama-3-8B-Base-MI-6e-7

alignment_handbook-handbook

Generated from Trainer

Model card Files Files and versions Community

Meta-Llama-3-8B-Base-MI-6e-7 / trainer_state.json

tengxiao1

TX

0d8bf93 3 months ago

51.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.998691442030882,
	"eval_steps": 500,
	"global_step": 477,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.010468463752944255,
	"grad_norm": 34.35367990587695,
	"learning_rate": 6.25e-08,
	"logits/chosen": -0.49797338247299194,
	"logits/rejected": -0.5135231018066406,
	"logps/chosen": -1.1745355129241943,
	"logps/rejected": -1.3596293926239014,
	"loss": 2.1735,
	"rewards/accuracies": 0.5625,
	"rewards/chosen": -1.1745355129241943,
	"rewards/margins": 0.18509384989738464,
	"rewards/rejected": -1.3596293926239014,
	"step": 5
	},
	{
	"epoch": 0.02093692750588851,
	"grad_norm": 16.378216146989434,
	"learning_rate": 1.25e-07,
	"logits/chosen": -0.521752655506134,
	"logits/rejected": -0.4988512396812439,
	"logps/chosen": -1.1591465473175049,
	"logps/rejected": -1.2624419927597046,
	"loss": 2.1407,
	"rewards/accuracies": 0.5,
	"rewards/chosen": -1.1591465473175049,
	"rewards/margins": 0.10329560935497284,
	"rewards/rejected": -1.2624419927597046,
	"step": 10
	},
	{
	"epoch": 0.031405391258832765,
	"grad_norm": 22.732280640563598,
	"learning_rate": 1.875e-07,
	"logits/chosen": -0.46235981583595276,
	"logits/rejected": -0.4507545530796051,
	"logps/chosen": -1.1068508625030518,
	"logps/rejected": -1.361823558807373,
	"loss": 2.1077,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -1.1068508625030518,
	"rewards/margins": 0.2549726366996765,
	"rewards/rejected": -1.361823558807373,
	"step": 15
	},
	{
	"epoch": 0.04187385501177702,
	"grad_norm": 22.78289950681047,
	"learning_rate": 2.5e-07,
	"logits/chosen": -0.4406924247741699,
	"logits/rejected": -0.4528113007545471,
	"logps/chosen": -1.161055564880371,
	"logps/rejected": -1.2642455101013184,
	"loss": 2.167,
	"rewards/accuracies": 0.5625,
	"rewards/chosen": -1.161055564880371,
	"rewards/margins": 0.10318990051746368,
	"rewards/rejected": -1.2642455101013184,
	"step": 20
	},
	{
	"epoch": 0.05234231876472128,
	"grad_norm": 13.313947854898018,
	"learning_rate": 3.125e-07,
	"logits/chosen": -0.5021263360977173,
	"logits/rejected": -0.47814303636550903,
	"logps/chosen": -1.1769291162490845,
	"logps/rejected": -1.2403558492660522,
	"loss": 2.1418,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": -1.1769291162490845,
	"rewards/margins": 0.06342674791812897,
	"rewards/rejected": -1.2403558492660522,
	"step": 25
	},
	{
	"epoch": 0.06281078251766553,
	"grad_norm": 21.17299953179056,
	"learning_rate": 3.75e-07,
	"logits/chosen": -0.4899294972419739,
	"logits/rejected": -0.49411076307296753,
	"logps/chosen": -1.1576581001281738,
	"logps/rejected": -1.280582070350647,
	"loss": 2.1692,
	"rewards/accuracies": 0.512499988079071,
	"rewards/chosen": -1.1576581001281738,
	"rewards/margins": 0.12292404472827911,
	"rewards/rejected": -1.280582070350647,
	"step": 30
	},
	{
	"epoch": 0.07327924627060979,
	"grad_norm": 21.15597636264796,
	"learning_rate": 4.3749999999999994e-07,
	"logits/chosen": -0.4856337904930115,
	"logits/rejected": -0.4433709979057312,
	"logps/chosen": -1.1427704095840454,
	"logps/rejected": -1.2787848711013794,
	"loss": 2.134,
	"rewards/accuracies": 0.5625,
	"rewards/chosen": -1.1427704095840454,
	"rewards/margins": 0.13601449131965637,
	"rewards/rejected": -1.2787848711013794,
	"step": 35
	},
	{
	"epoch": 0.08374771002355404,
	"grad_norm": 29.038714028264685,
	"learning_rate": 5e-07,
	"logits/chosen": -0.4945921301841736,
	"logits/rejected": -0.4987305998802185,
	"logps/chosen": -1.0738334655761719,
	"logps/rejected": -1.39645516872406,
	"loss": 2.0884,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -1.0738334655761719,
	"rewards/margins": 0.3226216435432434,
	"rewards/rejected": -1.39645516872406,
	"step": 40
	},
	{
	"epoch": 0.0942161737764983,
	"grad_norm": 30.530804134708777,
	"learning_rate": 5.625e-07,
	"logits/chosen": -0.45864447951316833,
	"logits/rejected": -0.4690025746822357,
	"logps/chosen": -1.090343952178955,
	"logps/rejected": -1.317134976387024,
	"loss": 2.1074,
	"rewards/accuracies": 0.59375,
	"rewards/chosen": -1.090343952178955,
	"rewards/margins": 0.22679109871387482,
	"rewards/rejected": -1.317134976387024,
	"step": 45
	},
	{
	"epoch": 0.10468463752944256,
	"grad_norm": 21.789634951246953,
	"learning_rate": 5.999678242522831e-07,
	"logits/chosen": -0.4777728021144867,
	"logits/rejected": -0.49264296889305115,
	"logps/chosen": -1.1642675399780273,
	"logps/rejected": -1.4595439434051514,
	"loss": 2.1327,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -1.1642675399780273,
	"rewards/margins": 0.2952764332294464,
	"rewards/rejected": -1.4595439434051514,
	"step": 50
	},
	{
	"epoch": 0.11515310128238682,
	"grad_norm": 175.8483724549221,
	"learning_rate": 5.996059263493219e-07,
	"logits/chosen": -0.4417606294155121,
	"logits/rejected": -0.4309404492378235,
	"logps/chosen": -1.1178853511810303,
	"logps/rejected": -1.343202829360962,
	"loss": 2.106,
	"rewards/accuracies": 0.5562499761581421,
	"rewards/chosen": -1.1178853511810303,
	"rewards/margins": 0.22531744837760925,
	"rewards/rejected": -1.343202829360962,
	"step": 55
	},
	{
	"epoch": 0.12562156503533106,
	"grad_norm": 18.6141832401793,
	"learning_rate": 5.988423976115163e-07,
	"logits/chosen": -0.48267728090286255,
	"logits/rejected": -0.47969865798950195,
	"logps/chosen": -1.2083253860473633,
	"logps/rejected": -1.33084237575531,
	"loss": 2.0877,
	"rewards/accuracies": 0.5562499761581421,
	"rewards/chosen": -1.2083253860473633,
	"rewards/margins": 0.12251707166433334,
	"rewards/rejected": -1.33084237575531,
	"step": 60
	},
	{
	"epoch": 0.1360900287882753,
	"grad_norm": 32.36335168763983,
	"learning_rate": 5.976782615723061e-07,
	"logits/chosen": -0.44251489639282227,
	"logits/rejected": -0.40677833557128906,
	"logps/chosen": -1.102402925491333,
	"logps/rejected": -1.6289558410644531,
	"loss": 2.0703,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -1.102402925491333,
	"rewards/margins": 0.5265528559684753,
	"rewards/rejected": -1.6289558410644531,
	"step": 65
	},
	{
	"epoch": 0.14655849254121958,
	"grad_norm": 48.08034129839621,
	"learning_rate": 5.961150787913738e-07,
	"logits/chosen": -0.3722413182258606,
	"logits/rejected": -0.3657040297985077,
	"logps/chosen": -1.1620112657546997,
	"logps/rejected": -1.426941990852356,
	"loss": 2.0511,
	"rewards/accuracies": 0.5687500238418579,
	"rewards/chosen": -1.1620112657546997,
	"rewards/margins": 0.2649305760860443,
	"rewards/rejected": -1.426941990852356,
	"step": 70
	},
	{
	"epoch": 0.15702695629416383,
	"grad_norm": 59.84416296380324,
	"learning_rate": 5.941549447626671e-07,
	"logits/chosen": -0.37373992800712585,
	"logits/rejected": -0.3564635217189789,
	"logps/chosen": -1.1539630889892578,
	"logps/rejected": -1.505507230758667,
	"loss": 2.0661,
	"rewards/accuracies": 0.612500011920929,
	"rewards/chosen": -1.1539630889892578,
	"rewards/margins": 0.3515442907810211,
	"rewards/rejected": -1.505507230758667,
	"step": 75
	},
	{
	"epoch": 0.16749542004710807,
	"grad_norm": 25.67817680738418,
	"learning_rate": 5.918004871053251e-07,
	"logits/chosen": -0.4051768183708191,
	"logits/rejected": -0.38645023107528687,
	"logps/chosen": -1.1455223560333252,
	"logps/rejected": -1.5474026203155518,
	"loss": 2.0988,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -1.1455223560333252,
	"rewards/margins": 0.40188026428222656,
	"rewards/rejected": -1.5474026203155518,
	"step": 80
	},
	{
	"epoch": 0.17796388380005235,
	"grad_norm": 34.17749794765947,
	"learning_rate": 5.890548620412763e-07,
	"logits/chosen": -0.45642200112342834,
	"logits/rejected": -0.42394012212753296,
	"logps/chosen": -1.1208285093307495,
	"logps/rejected": -1.4425103664398193,
	"loss": 2.0996,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -1.1208285093307495,
	"rewards/margins": 0.3216818571090698,
	"rewards/rejected": -1.4425103664398193,
	"step": 85
	},
	{
	"epoch": 0.1884323475529966,
	"grad_norm": 10.063019778918575,
	"learning_rate": 5.859217501642258e-07,
	"logits/chosen": -0.4428345561027527,
	"logits/rejected": -0.4144333004951477,
	"logps/chosen": -1.1374626159667969,
	"logps/rejected": -1.4302767515182495,
	"loss": 2.0461,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -1.1374626159667969,
	"rewards/margins": 0.2928140461444855,
	"rewards/rejected": -1.4302767515182495,
	"step": 90
	},
	{
	"epoch": 0.19890081130594087,
	"grad_norm": 20.74891634135048,
	"learning_rate": 5.824053515057091e-07,
	"logits/chosen": -0.479747474193573,
	"logits/rejected": -0.39375734329223633,
	"logps/chosen": -1.159339189529419,
	"logps/rejected": -1.4628812074661255,
	"loss": 2.0797,
	"rewards/accuracies": 0.5687500238418579,
	"rewards/chosen": -1.159339189529419,
	"rewards/margins": 0.30354195833206177,
	"rewards/rejected": -1.4628812074661255,
	"step": 95
	},
	{
	"epoch": 0.2093692750588851,
	"grad_norm": 33.44699335449945,
	"learning_rate": 5.785103799048218e-07,
	"logits/chosen": -0.4181644022464752,
	"logits/rejected": -0.38857489824295044,
	"logps/chosen": -1.1860034465789795,
	"logps/rejected": -1.7242858409881592,
	"loss": 2.0744,
	"rewards/accuracies": 0.53125,
	"rewards/chosen": -1.1860034465789795,
	"rewards/margins": 0.5382825136184692,
	"rewards/rejected": -1.7242858409881592,
	"step": 100
	},
	{
	"epoch": 0.21983773881182936,
	"grad_norm": 59.5883485681765,
	"learning_rate": 5.742420566891749e-07,
	"logits/chosen": -0.4103716015815735,
	"logits/rejected": -0.3968586027622223,
	"logps/chosen": -1.076053261756897,
	"logps/rejected": -1.4917399883270264,
	"loss": 2.0443,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": -1.076053261756897,
	"rewards/margins": 0.4156867563724518,
	"rewards/rejected": -1.4917399883270264,
	"step": 105
	},
	{
	"epoch": 0.23030620256477363,
	"grad_norm": 80.31752384431189,
	"learning_rate": 5.696061036755478e-07,
	"logits/chosen": -0.4146521985530853,
	"logits/rejected": -0.38292473554611206,
	"logps/chosen": -1.0837781429290771,
	"logps/rejected": -1.5503333806991577,
	"loss": 2.0282,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -1.0837781429290771,
	"rewards/margins": 0.4665554165840149,
	"rewards/rejected": -1.5503333806991577,
	"step": 110
	},
	{
	"epoch": 0.24077466631771788,
	"grad_norm": 98.56244903302768,
	"learning_rate": 5.64608735499618e-07,
	"logits/chosen": -0.28679025173187256,
	"logits/rejected": -0.2377845048904419,
	"logps/chosen": -1.111647367477417,
	"logps/rejected": -1.687975287437439,
	"loss": 2.0185,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -1.111647367477417,
	"rewards/margins": 0.576327919960022,
	"rewards/rejected": -1.687975287437439,
	"step": 115
	},
	{
	"epoch": 0.2512431300706621,
	"grad_norm": 20.27186258736798,
	"learning_rate": 5.592566512850545e-07,
	"logits/chosen": -0.27318406105041504,
	"logits/rejected": -0.2487379014492035,
	"logps/chosen": -1.2702689170837402,
	"logps/rejected": -1.556516408920288,
	"loss": 2.0975,
	"rewards/accuracies": 0.5874999761581421,
	"rewards/chosen": -1.2702689170837402,
	"rewards/margins": 0.2862473428249359,
	"rewards/rejected": -1.556516408920288,
	"step": 120
	},
	{
	"epoch": 0.26171159382360637,
	"grad_norm": 30.996972753737214,
	"learning_rate": 5.535570256631384e-07,
	"logits/chosen": -0.32224705815315247,
	"logits/rejected": -0.2949572503566742,
	"logps/chosen": -1.0966984033584595,
	"logps/rejected": -1.425978660583496,
	"loss": 2.0513,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -1.0966984033584595,
	"rewards/margins": 0.3292803168296814,
	"rewards/rejected": -1.425978660583496,
	"step": 125
	},
	{
	"epoch": 0.2721800575765506,
	"grad_norm": 106.95100145667757,
	"learning_rate": 5.475174991549528e-07,
	"logits/chosen": -0.2838582396507263,
	"logits/rejected": -0.27573472261428833,
	"logps/chosen": -1.065918207168579,
	"logps/rejected": -1.2746469974517822,
	"loss": 2.0692,
	"rewards/accuracies": 0.5874999761581421,
	"rewards/chosen": -1.065918207168579,
	"rewards/margins": 0.2087288349866867,
	"rewards/rejected": -1.2746469974517822,
	"step": 130
	},
	{
	"epoch": 0.2826485213294949,
	"grad_norm": 18.450255655703543,
	"learning_rate": 5.411461679290317e-07,
	"logits/chosen": -0.33663275837898254,
	"logits/rejected": -0.24262118339538574,
	"logps/chosen": -1.1360746622085571,
	"logps/rejected": -1.793914556503296,
	"loss": 2.0112,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -1.1360746622085571,
	"rewards/margins": 0.6578398942947388,
	"rewards/rejected": -1.793914556503296,
	"step": 135
	},
	{
	"epoch": 0.29311698508243916,
	"grad_norm": 20.28586481649801,
	"learning_rate": 5.34451572948201e-07,
	"logits/chosen": -0.25463438034057617,
	"logits/rejected": -0.18874910473823547,
	"logps/chosen": -1.2043225765228271,
	"logps/rejected": -1.7759593725204468,
	"loss": 1.9956,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -1.2043225765228271,
	"rewards/margins": 0.5716367959976196,
	"rewards/rejected": -1.7759593725204468,
	"step": 140
	},
	{
	"epoch": 0.3035854488353834,
	"grad_norm": 16.12998962894494,
	"learning_rate": 5.274426885201582e-07,
	"logits/chosen": -0.3120715320110321,
	"logits/rejected": -0.28251615166664124,
	"logps/chosen": -1.1517010927200317,
	"logps/rejected": -1.5577958822250366,
	"loss": 2.04,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -1.1517010927200317,
	"rewards/margins": 0.4060949683189392,
	"rewards/rejected": -1.5577958822250366,
	"step": 145
	},
	{
	"epoch": 0.31405391258832765,
	"grad_norm": 18.374398699221082,
	"learning_rate": 5.201289102671411e-07,
	"logits/chosen": -0.29038459062576294,
	"logits/rejected": -0.25689178705215454,
	"logps/chosen": -1.0535448789596558,
	"logps/rejected": -1.4643501043319702,
	"loss": 2.0025,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -1.0535448789596558,
	"rewards/margins": 0.41080522537231445,
	"rewards/rejected": -1.4643501043319702,
	"step": 150
	},
	{
	"epoch": 0.3245223763412719,
	"grad_norm": 21.42424041369703,
	"learning_rate": 5.12520042530811e-07,
	"logits/chosen": -0.33090248703956604,
	"logits/rejected": -0.26949256658554077,
	"logps/chosen": -1.1385178565979004,
	"logps/rejected": -1.5117579698562622,
	"loss": 2.0025,
	"rewards/accuracies": 0.606249988079071,
	"rewards/chosen": -1.1385178565979004,
	"rewards/margins": 0.3732401728630066,
	"rewards/rejected": -1.5117579698562622,
	"step": 155
	},
	{
	"epoch": 0.33499084009421615,
	"grad_norm": 17.090434114730737,
	"learning_rate": 5.046262852292346e-07,
	"logits/chosen": -0.2471882402896881,
	"logits/rejected": -0.1910603940486908,
	"logps/chosen": -1.179958701133728,
	"logps/rejected": -1.6289422512054443,
	"loss": 2.0344,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -1.179958701133728,
	"rewards/margins": 0.4489835202693939,
	"rewards/rejected": -1.6289422512054443,
	"step": 160
	},
	{
	"epoch": 0.34545930384716045,
	"grad_norm": 13.121179286172973,
	"learning_rate": 4.964582201835856e-07,
	"logits/chosen": -0.2789207696914673,
	"logits/rejected": -0.2165801227092743,
	"logps/chosen": -1.1143217086791992,
	"logps/rejected": -1.6779086589813232,
	"loss": 2.012,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -1.1143217086791992,
	"rewards/margins": 0.5635868906974792,
	"rewards/rejected": -1.6779086589813232,
	"step": 165
	},
	{
	"epoch": 0.3559277676001047,
	"grad_norm": 13.822111204791623,
	"learning_rate": 4.880267969328908e-07,
	"logits/chosen": -0.26305219531059265,
	"logits/rejected": -0.16298075020313263,
	"logps/chosen": -1.2098379135131836,
	"logps/rejected": -1.6500240564346313,
	"loss": 2.0205,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -1.2098379135131836,
	"rewards/margins": 0.44018617272377014,
	"rewards/rejected": -1.6500240564346313,
	"step": 170
	},
	{
	"epoch": 0.36639623135304894,
	"grad_norm": 18.589343338653535,
	"learning_rate": 4.793433180558423e-07,
	"logits/chosen": -0.26549848914146423,
	"logits/rejected": -0.13549579679965973,
	"logps/chosen": -1.1815907955169678,
	"logps/rejected": -1.6547002792358398,
	"loss": 2.0137,
	"rewards/accuracies": 0.606249988079071,
	"rewards/chosen": -1.1815907955169678,
	"rewards/margins": 0.4731093943119049,
	"rewards/rejected": -1.6547002792358398,
	"step": 175
	},
	{
	"epoch": 0.3768646951059932,
	"grad_norm": 24.192793785270847,
	"learning_rate": 4.704194240193467e-07,
	"logits/chosen": -0.20712879300117493,
	"logits/rejected": -0.14872625470161438,
	"logps/chosen": -1.2047398090362549,
	"logps/rejected": -1.6949182748794556,
	"loss": 2.0473,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -1.2047398090362549,
	"rewards/margins": 0.49017828702926636,
	"rewards/rejected": -1.6949182748794556,
	"step": 180
	},
	{
	"epoch": 0.38733315885893743,
	"grad_norm": 21.72801779202531,
	"learning_rate": 4.6126707757412686e-07,
	"logits/chosen": -0.19427147507667542,
	"logits/rejected": -0.08655323088169098,
	"logps/chosen": -1.2102793455123901,
	"logps/rejected": -1.956017255783081,
	"loss": 1.9488,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -1.2102793455123901,
	"rewards/margins": 0.745737612247467,
	"rewards/rejected": -1.956017255783081,
	"step": 185
	},
	{
	"epoch": 0.39780162261188173,
	"grad_norm": 52.99611536180731,
	"learning_rate": 4.5189854771829086e-07,
	"logits/chosen": -0.27349403500556946,
	"logits/rejected": -0.19519653916358948,
	"logps/chosen": -1.2331929206848145,
	"logps/rejected": -1.693256139755249,
	"loss": 2.0896,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -1.2331929206848145,
	"rewards/margins": 0.4600633680820465,
	"rewards/rejected": -1.693256139755249,
	"step": 190
	},
	{
	"epoch": 0.408270086364826,
	"grad_norm": 23.313047834378704,
	"learning_rate": 4.4232639325036807e-07,
	"logits/chosen": -0.2565682530403137,
	"logits/rejected": -0.20012107491493225,
	"logps/chosen": -1.2263553142547607,
	"logps/rejected": -1.6081535816192627,
	"loss": 2.0274,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -1.2263553142547607,
	"rewards/margins": 0.38179832696914673,
	"rewards/rejected": -1.6081535816192627,
	"step": 195
	},
	{
	"epoch": 0.4187385501177702,
	"grad_norm": 28.77315959004056,
	"learning_rate": 4.32563445933859e-07,
	"logits/chosen": -0.2804745137691498,
	"logits/rejected": -0.2464865893125534,
	"logps/chosen": -1.2270160913467407,
	"logps/rejected": -1.6264985799789429,
	"loss": 2.046,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": -1.2270160913467407,
	"rewards/margins": 0.3994825482368469,
	"rewards/rejected": -1.6264985799789429,
	"step": 200
	},
	{
	"epoch": 0.42920701387071447,
	"grad_norm": 24.629126590195398,
	"learning_rate": 4.226227932958664e-07,
	"logits/chosen": -0.21598652005195618,
	"logits/rejected": -0.16539430618286133,
	"logps/chosen": -1.0299084186553955,
	"logps/rejected": -1.6446430683135986,
	"loss": 1.9694,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": -1.0299084186553955,
	"rewards/margins": 0.6147347688674927,
	"rewards/rejected": -1.6446430683135986,
	"step": 205
	},
	{
	"epoch": 0.4396754776236587,
	"grad_norm": 18.99935065324488,
	"learning_rate": 4.1251776108286854e-07,
	"logits/chosen": -0.24660630524158478,
	"logits/rejected": -0.19936877489089966,
	"logps/chosen": -1.2271109819412231,
	"logps/rejected": -1.5406509637832642,
	"loss": 2.0403,
	"rewards/accuracies": 0.59375,
	"rewards/chosen": -1.2271109819412231,
	"rewards/margins": 0.31353995203971863,
	"rewards/rejected": -1.5406509637832642,
	"step": 210
	},
	{
	"epoch": 0.45014394137660296,
	"grad_norm": 28.14089359211311,
	"learning_rate": 4.022618953971514e-07,
	"logits/chosen": -0.28811579942703247,
	"logits/rejected": -0.23570355772972107,
	"logps/chosen": -1.1424353122711182,
	"logps/rejected": -1.6885287761688232,
	"loss": 2.0049,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -1.1424353122711182,
	"rewards/margins": 0.5460935831069946,
	"rewards/rejected": -1.6885287761688232,
	"step": 215
	},
	{
	"epoch": 0.46061240512954726,
	"grad_norm": 32.89974992330637,
	"learning_rate": 3.918689445378477e-07,
	"logits/chosen": -0.30860984325408936,
	"logits/rejected": -0.18307650089263916,
	"logps/chosen": -1.2112575769424438,
	"logps/rejected": -1.7577863931655884,
	"loss": 2.0035,
	"rewards/accuracies": 0.59375,
	"rewards/chosen": -1.2112575769424438,
	"rewards/margins": 0.5465287566184998,
	"rewards/rejected": -1.7577863931655884,
	"step": 220
	},
	{
	"epoch": 0.4710808688824915,
	"grad_norm": 20.40577743783828,
	"learning_rate": 3.813528405709251e-07,
	"logits/chosen": -0.29336491227149963,
	"logits/rejected": -0.19095419347286224,
	"logps/chosen": -1.1172130107879639,
	"logps/rejected": -1.7578521966934204,
	"loss": 1.949,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -1.1172130107879639,
	"rewards/margins": 0.6406393051147461,
	"rewards/rejected": -1.7578521966934204,
	"step": 225
	},
	{
	"epoch": 0.48154933263543576,
	"grad_norm": 22.351884239960583,
	"learning_rate": 3.707276806528282e-07,
	"logits/chosen": -0.3431912362575531,
	"logits/rejected": -0.21362292766571045,
	"logps/chosen": -1.175959587097168,
	"logps/rejected": -1.914841890335083,
	"loss": 1.9597,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -1.175959587097168,
	"rewards/margins": 0.7388821840286255,
	"rewards/rejected": -1.914841890335083,
	"step": 230
	},
	{
	"epoch": 0.49201779638838,
	"grad_norm": 32.41861896385678,
	"learning_rate": 3.6000770813281334e-07,
	"logits/chosen": -0.281482458114624,
	"logits/rejected": -0.2136625498533249,
	"logps/chosen": -1.1437963247299194,
	"logps/rejected": -1.6638180017471313,
	"loss": 1.9987,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -1.1437963247299194,
	"rewards/margins": 0.5200216770172119,
	"rewards/rejected": -1.6638180017471313,
	"step": 235
	},
	{
	"epoch": 0.5024862601413242,
	"grad_norm": 25.062414755869742,
	"learning_rate": 3.4920729345930654e-07,
	"logits/chosen": -0.31132057309150696,
	"logits/rejected": -0.2606331408023834,
	"logps/chosen": -1.1404446363449097,
	"logps/rejected": -1.7029993534088135,
	"loss": 2.0234,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -1.1404446363449097,
	"rewards/margins": 0.5625545978546143,
	"rewards/rejected": -1.7029993534088135,
	"step": 240
	},
	{
	"epoch": 0.5129547238942685,
	"grad_norm": 23.400197287310235,
	"learning_rate": 3.383409149158814e-07,
	"logits/chosen": -0.34879469871520996,
	"logits/rejected": -0.27785512804985046,
	"logps/chosen": -1.2463206052780151,
	"logps/rejected": -1.6453937292099,
	"loss": 2.0244,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -1.2463206052780151,
	"rewards/margins": 0.39907318353652954,
	"rewards/rejected": -1.6453937292099,
	"step": 245
	},
	{
	"epoch": 0.5234231876472127,
	"grad_norm": 30.06789343033768,
	"learning_rate": 3.2742313921268035e-07,
	"logits/chosen": -0.2991330623626709,
	"logits/rejected": -0.24600133299827576,
	"logps/chosen": -1.1448876857757568,
	"logps/rejected": -1.7555782794952393,
	"loss": 2.0331,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -1.1448876857757568,
	"rewards/margins": 0.6106906533241272,
	"rewards/rejected": -1.7555782794952393,
	"step": 250
	},
	{
	"epoch": 0.533891651400157,
	"grad_norm": 26.26439332360777,
	"learning_rate": 3.1646860195929825e-07,
	"logits/chosen": -0.26393812894821167,
	"logits/rejected": -0.15189418196678162,
	"logps/chosen": -1.2170337438583374,
	"logps/rejected": -1.7952607870101929,
	"loss": 1.9685,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -1.2170337438583374,
	"rewards/margins": 0.5782270431518555,
	"rewards/rejected": -1.7952607870101929,
	"step": 255
	},
	{
	"epoch": 0.5443601151531012,
	"grad_norm": 30.83419650992516,
	"learning_rate": 3.054919880453032e-07,
	"logits/chosen": -0.24465498328208923,
	"logits/rejected": -0.1657981127500534,
	"logps/chosen": -1.1195638179779053,
	"logps/rejected": -1.8283071517944336,
	"loss": 2.0058,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -1.1195638179779053,
	"rewards/margins": 0.7087433934211731,
	"rewards/rejected": -1.8283071517944336,
	"step": 260
	},
	{
	"epoch": 0.5548285789060455,
	"grad_norm": 26.538461186209517,
	"learning_rate": 2.9450801195469686e-07,
	"logits/chosen": -0.2653834819793701,
	"logits/rejected": -0.21019785106182098,
	"logps/chosen": -1.2122917175292969,
	"logps/rejected": -1.5932838916778564,
	"loss": 1.9747,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -1.2122917175292969,
	"rewards/margins": 0.38099202513694763,
	"rewards/rejected": -1.5932838916778564,
	"step": 265
	},
	{
	"epoch": 0.5652970426589898,
	"grad_norm": 30.571225220792357,
	"learning_rate": 2.835313980407017e-07,
	"logits/chosen": -0.2485169917345047,
	"logits/rejected": -0.1672702431678772,
	"logps/chosen": -1.2699711322784424,
	"logps/rejected": -1.6770769357681274,
	"loss": 2.0095,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -1.2699711322784424,
	"rewards/margins": 0.40710583329200745,
	"rewards/rejected": -1.6770769357681274,
	"step": 270
	},
	{
	"epoch": 0.575765506411934,
	"grad_norm": 15.142492975343366,
	"learning_rate": 2.7257686078731973e-07,
	"logits/chosen": -0.2676723599433899,
	"logits/rejected": -0.14488348364830017,
	"logps/chosen": -1.1701332330703735,
	"logps/rejected": -1.882002830505371,
	"loss": 1.9973,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -1.1701332330703735,
	"rewards/margins": 0.7118695974349976,
	"rewards/rejected": -1.882002830505371,
	"step": 275
	},
	{
	"epoch": 0.5862339701648783,
	"grad_norm": 17.861104389604897,
	"learning_rate": 2.6165908508411857e-07,
	"logits/chosen": -0.27734139561653137,
	"logits/rejected": -0.1873548924922943,
	"logps/chosen": -1.096847653388977,
	"logps/rejected": -1.556873083114624,
	"loss": 1.979,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -1.096847653388977,
	"rewards/margins": 0.46002545952796936,
	"rewards/rejected": -1.556873083114624,
	"step": 280
	},
	{
	"epoch": 0.5967024339178225,
	"grad_norm": 29.049210332966997,
	"learning_rate": 2.5079270654069354e-07,
	"logits/chosen": -0.22700035572052002,
	"logits/rejected": -0.20169806480407715,
	"logps/chosen": -1.1871209144592285,
	"logps/rejected": -1.729832410812378,
	"loss": 1.9858,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -1.1871209144592285,
	"rewards/margins": 0.5427114367485046,
	"rewards/rejected": -1.729832410812378,
	"step": 285
	},
	{
	"epoch": 0.6071708976707668,
	"grad_norm": 19.177779527300032,
	"learning_rate": 2.399922918671867e-07,
	"logits/chosen": -0.27257853746414185,
	"logits/rejected": -0.20175373554229736,
	"logps/chosen": -1.1817193031311035,
	"logps/rejected": -1.81912362575531,
	"loss": 1.9728,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -1.1817193031311035,
	"rewards/margins": 0.6374045610427856,
	"rewards/rejected": -1.81912362575531,
	"step": 290
	},
	{
	"epoch": 0.6176393614237111,
	"grad_norm": 39.27420791348495,
	"learning_rate": 2.2927231934717176e-07,
	"logits/chosen": -0.2650902271270752,
	"logits/rejected": -0.204110786318779,
	"logps/chosen": -1.1773895025253296,
	"logps/rejected": -1.8753960132598877,
	"loss": 2.0113,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -1.1773895025253296,
	"rewards/margins": 0.6980065107345581,
	"rewards/rejected": -1.8753960132598877,
	"step": 295
	},
	{
	"epoch": 0.6281078251766553,
	"grad_norm": 19.055812699519027,
	"learning_rate": 2.1864715942907487e-07,
	"logits/chosen": -0.31268611550331116,
	"logits/rejected": -0.26396140456199646,
	"logps/chosen": -1.2095041275024414,
	"logps/rejected": -1.6991554498672485,
	"loss": 1.9925,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -1.2095041275024414,
	"rewards/margins": 0.4896513819694519,
	"rewards/rejected": -1.6991554498672485,
	"step": 300
	},
	{
	"epoch": 0.6385762889295996,
	"grad_norm": 24.000715730668365,
	"learning_rate": 2.081310554621522e-07,
	"logits/chosen": -0.2226269692182541,
	"logits/rejected": -0.17259590327739716,
	"logps/chosen": -1.2206140756607056,
	"logps/rejected": -1.8647050857543945,
	"loss": 1.9507,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -1.2206140756607056,
	"rewards/margins": 0.6440912485122681,
	"rewards/rejected": -1.8647050857543945,
	"step": 305
	},
	{
	"epoch": 0.6490447526825438,
	"grad_norm": 24.680587241234605,
	"learning_rate": 1.9773810460284862e-07,
	"logits/chosen": -0.21720829606056213,
	"logits/rejected": -0.22596517205238342,
	"logps/chosen": -1.121246576309204,
	"logps/rejected": -1.6572654247283936,
	"loss": 1.9548,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -1.121246576309204,
	"rewards/margins": 0.536018967628479,
	"rewards/rejected": -1.6572654247283936,
	"step": 310
	},
	{
	"epoch": 0.6595132164354881,
	"grad_norm": 191.6202253290827,
	"learning_rate": 1.874822389171314e-07,
	"logits/chosen": -0.23975515365600586,
	"logits/rejected": -0.13572129607200623,
	"logps/chosen": -1.1023863554000854,
	"logps/rejected": -1.9153015613555908,
	"loss": 1.9671,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -1.1023863554000854,
	"rewards/margins": 0.8129149675369263,
	"rewards/rejected": -1.9153015613555908,
	"step": 315
	},
	{
	"epoch": 0.6699816801884323,
	"grad_norm": 29.251518787297723,
	"learning_rate": 1.7737720670413356e-07,
	"logits/chosen": -0.19940456748008728,
	"logits/rejected": -0.15788142383098602,
	"logps/chosen": -1.2180979251861572,
	"logps/rejected": -1.7693755626678467,
	"loss": 1.9257,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -1.2180979251861572,
	"rewards/margins": 0.5512775182723999,
	"rewards/rejected": -1.7693755626678467,
	"step": 320
	},
	{
	"epoch": 0.6804501439413766,
	"grad_norm": 38.573296633637,
	"learning_rate": 1.6743655406614095e-07,
	"logits/chosen": -0.2212747037410736,
	"logits/rejected": -0.13944557309150696,
	"logps/chosen": -1.165976881980896,
	"logps/rejected": -1.8154420852661133,
	"loss": 1.9466,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -1.165976881980896,
	"rewards/margins": 0.6494652032852173,
	"rewards/rejected": -1.8154420852661133,
	"step": 325
	},
	{
	"epoch": 0.6909186076943209,
	"grad_norm": 29.264456688369886,
	"learning_rate": 1.5767360674963198e-07,
	"logits/chosen": -0.21240024268627167,
	"logits/rejected": -0.13640090823173523,
	"logps/chosen": -1.1329911947250366,
	"logps/rejected": -1.5841938257217407,
	"loss": 1.9788,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -1.1329911947250366,
	"rewards/margins": 0.45120254158973694,
	"rewards/rejected": -1.5841938257217407,
	"step": 330
	},
	{
	"epoch": 0.7013870714472651,
	"grad_norm": 21.84656926034516,
	"learning_rate": 1.4810145228170922e-07,
	"logits/chosen": -0.2895652651786804,
	"logits/rejected": -0.20374973118305206,
	"logps/chosen": -1.0948199033737183,
	"logps/rejected": -1.5535070896148682,
	"loss": 1.9921,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -1.0948199033737183,
	"rewards/margins": 0.4586872160434723,
	"rewards/rejected": -1.5535070896148682,
	"step": 335
	},
	{
	"epoch": 0.7118555352002094,
	"grad_norm": 60.16510624521895,
	"learning_rate": 1.3873292242587306e-07,
	"logits/chosen": -0.2519373893737793,
	"logits/rejected": -0.1798809915781021,
	"logps/chosen": -1.3221559524536133,
	"logps/rejected": -1.7844518423080444,
	"loss": 2.0219,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -1.3221559524536133,
	"rewards/margins": 0.4622960686683655,
	"rewards/rejected": -1.7844518423080444,
	"step": 340
	},
	{
	"epoch": 0.7223239989531536,
	"grad_norm": 31.10556234832626,
	"learning_rate": 1.295805759806533e-07,
	"logits/chosen": -0.28459057211875916,
	"logits/rejected": -0.1859065145254135,
	"logps/chosen": -1.1906864643096924,
	"logps/rejected": -1.7581002712249756,
	"loss": 1.9961,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": -1.1906864643096924,
	"rewards/margins": 0.567413866519928,
	"rewards/rejected": -1.7581002712249756,
	"step": 345
	},
	{
	"epoch": 0.7327924627060979,
	"grad_norm": 21.145366603131734,
	"learning_rate": 1.2065668194415777e-07,
	"logits/chosen": -0.19020649790763855,
	"logits/rejected": -0.15534143149852753,
	"logps/chosen": -1.1794466972351074,
	"logps/rejected": -1.6421940326690674,
	"loss": 2.0254,
	"rewards/accuracies": 0.612500011920929,
	"rewards/chosen": -1.1794466972351074,
	"rewards/margins": 0.4627472758293152,
	"rewards/rejected": -1.6421940326690674,
	"step": 350
	},
	{
	"epoch": 0.7432609264590422,
	"grad_norm": 29.29098473580897,
	"learning_rate": 1.1197320306710923e-07,
	"logits/chosen": -0.19632667303085327,
	"logits/rejected": -0.12513799965381622,
	"logps/chosen": -1.0603824853897095,
	"logps/rejected": -1.7353988885879517,
	"loss": 1.9288,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -1.0603824853897095,
	"rewards/margins": 0.6750164031982422,
	"rewards/rejected": -1.7353988885879517,
	"step": 355
	},
	{
	"epoch": 0.7537293902119864,
	"grad_norm": 24.609476201697003,
	"learning_rate": 1.035417798164145e-07,
	"logits/chosen": -0.2547205984592438,
	"logits/rejected": -0.17141126096248627,
	"logps/chosen": -1.0777822732925415,
	"logps/rejected": -1.6378345489501953,
	"loss": 1.9002,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -1.0777822732925415,
	"rewards/margins": 0.5600521564483643,
	"rewards/rejected": -1.6378345489501953,
	"step": 360
	},
	{
	"epoch": 0.7641978539649307,
	"grad_norm": 44.888955546131726,
	"learning_rate": 9.537371477076535e-08,
	"logits/chosen": -0.24833258986473083,
	"logits/rejected": -0.14280755817890167,
	"logps/chosen": -1.2661911249160767,
	"logps/rejected": -1.8641719818115234,
	"loss": 2.0054,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -1.2661911249160767,
	"rewards/margins": 0.5979806184768677,
	"rewards/rejected": -1.8641719818115234,
	"step": 365
	},
	{
	"epoch": 0.7746663177178749,
	"grad_norm": 29.759713813955717,
	"learning_rate": 8.747995746918898e-08,
	"logits/chosen": -0.18603017926216125,
	"logits/rejected": -0.11623908579349518,
	"logps/chosen": -1.2385270595550537,
	"logps/rejected": -1.8711185455322266,
	"loss": 1.9635,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -1.2385270595550537,
	"rewards/margins": 0.6325916051864624,
	"rewards/rejected": -1.8711185455322266,
	"step": 370
	},
	{
	"epoch": 0.7851347814708192,
	"grad_norm": 18.386697317487712,
	"learning_rate": 7.987108973285888e-08,
	"logits/chosen": -0.2141023874282837,
	"logits/rejected": -0.24412047863006592,
	"logps/chosen": -1.2150145769119263,
	"logps/rejected": -1.7247231006622314,
	"loss": 1.9899,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -1.2150145769119263,
	"rewards/margins": 0.5097082853317261,
	"rewards/rejected": -1.7247231006622314,
	"step": 375
	},
	{
	"epoch": 0.7956032452237635,
	"grad_norm": 24.333148504874714,
	"learning_rate": 7.255731147984174e-08,
	"logits/chosen": -0.24650990962982178,
	"logits/rejected": -0.18783050775527954,
	"logps/chosen": -1.2390451431274414,
	"logps/rejected": -1.6897704601287842,
	"loss": 1.9425,
	"rewards/accuracies": 0.612500011920929,
	"rewards/chosen": -1.2390451431274414,
	"rewards/margins": 0.45072537660598755,
	"rewards/rejected": -1.6897704601287842,
	"step": 380
	},
	{
	"epoch": 0.8060717089767077,
	"grad_norm": 22.373563868926805,
	"learning_rate": 6.554842705179898e-08,
	"logits/chosen": -0.2532094120979309,
	"logits/rejected": -0.2002202570438385,
	"logps/chosen": -1.157409429550171,
	"logps/rejected": -1.7103229761123657,
	"loss": 1.9743,
	"rewards/accuracies": 0.59375,
	"rewards/chosen": -1.157409429550171,
	"rewards/margins": 0.55291348695755,
	"rewards/rejected": -1.7103229761123657,
	"step": 385
	},
	{
	"epoch": 0.816540172729652,
	"grad_norm": 27.22781403012628,
	"learning_rate": 5.885383207096832e-08,
	"logits/chosen": -0.25118163228034973,
	"logits/rejected": -0.17533348500728607,
	"logps/chosen": -1.158809781074524,
	"logps/rejected": -1.7991712093353271,
	"loss": 1.9567,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -1.158809781074524,
	"rewards/margins": 0.6403613090515137,
	"rewards/rejected": -1.7991712093353271,
	"step": 390
	},
	{
	"epoch": 0.8270086364825961,
	"grad_norm": 41.14703828256896,
	"learning_rate": 5.2482500845047165e-08,
	"logits/chosen": -0.2559366524219513,
	"logits/rejected": -0.13099372386932373,
	"logps/chosen": -1.1643617153167725,
	"logps/rejected": -1.7700135707855225,
	"loss": 1.9559,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -1.1643617153167725,
	"rewards/margins": 0.60565185546875,
	"rewards/rejected": -1.7700135707855225,
	"step": 395
	},
	{
	"epoch": 0.8374771002355405,
	"grad_norm": 24.3693128346703,
	"learning_rate": 4.644297433686162e-08,
	"logits/chosen": -0.19337531924247742,
	"logits/rejected": -0.14422497153282166,
	"logps/chosen": -1.0990240573883057,
	"logps/rejected": -1.7358309030532837,
	"loss": 1.9382,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -1.0990240573883057,
	"rewards/margins": 0.6368069648742676,
	"rewards/rejected": -1.7358309030532837,
	"step": 400
	},
	{
	"epoch": 0.8479455639884846,
	"grad_norm": 27.686221570305076,
	"learning_rate": 4.074334871494558e-08,
	"logits/chosen": -0.27724021673202515,
	"logits/rejected": -0.21434080600738525,
	"logps/chosen": -1.2541942596435547,
	"logps/rejected": -1.889288306236267,
	"loss": 1.981,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -1.2541942596435547,
	"rewards/margins": 0.6350940465927124,
	"rewards/rejected": -1.889288306236267,
	"step": 405
	},
	{
	"epoch": 0.8584140277414289,
	"grad_norm": 27.73558369495071,
	"learning_rate": 3.5391264500382e-08,
	"logits/chosen": -0.22901353240013123,
	"logits/rejected": -0.1688699871301651,
	"logps/chosen": -1.0957512855529785,
	"logps/rejected": -1.5964380502700806,
	"loss": 1.9786,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -1.0957512855529785,
	"rewards/margins": 0.500686526298523,
	"rewards/rejected": -1.5964380502700806,
	"step": 410
	},
	{
	"epoch": 0.8688824914943732,
	"grad_norm": 25.24757762967279,
	"learning_rate": 3.0393896324452226e-08,
	"logits/chosen": -0.23829559981822968,
	"logits/rejected": -0.14140795171260834,
	"logps/chosen": -1.1398870944976807,
	"logps/rejected": -1.7605117559432983,
	"loss": 1.9365,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -1.1398870944976807,
	"rewards/margins": 0.6206245422363281,
	"rewards/rejected": -1.7605117559432983,
	"step": 415
	},
	{
	"epoch": 0.8793509552473174,
	"grad_norm": 24.11409806888563,
	"learning_rate": 2.5757943310825026e-08,
	"logits/chosen": -0.21624989807605743,
	"logits/rejected": -0.15116100013256073,
	"logps/chosen": -1.1420520544052124,
	"logps/rejected": -1.7557262182235718,
	"loss": 1.9847,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -1.1420520544052124,
	"rewards/margins": 0.6136741042137146,
	"rewards/rejected": -1.7557262182235718,
	"step": 420
	},
	{
	"epoch": 0.8898194190002617,
	"grad_norm": 31.071203059945226,
	"learning_rate": 2.148962009517823e-08,
	"logits/chosen": -0.1776510775089264,
	"logits/rejected": -0.11379513889551163,
	"logps/chosen": -1.2811336517333984,
	"logps/rejected": -1.7914276123046875,
	"loss": 1.9474,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -1.2811336517333984,
	"rewards/margins": 0.5102939605712891,
	"rewards/rejected": -1.7914276123046875,
	"step": 425
	},
	{
	"epoch": 0.9002878827532059,
	"grad_norm": 22.593650984666684,
	"learning_rate": 1.759464849429082e-08,
	"logits/chosen": -0.2011154592037201,
	"logits/rejected": -0.14906981587409973,
	"logps/chosen": -1.2140544652938843,
	"logps/rejected": -1.8150146007537842,
	"loss": 1.9428,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -1.2140544652938843,
	"rewards/margins": 0.6009601354598999,
	"rewards/rejected": -1.8150146007537842,
	"step": 430
	},
	{
	"epoch": 0.9107563465061502,
	"grad_norm": 20.886785791055413,
	"learning_rate": 1.4078249835774169e-08,
	"logits/chosen": -0.2394082248210907,
	"logits/rejected": -0.1875392496585846,
	"logps/chosen": -1.15377676486969,
	"logps/rejected": -1.962689995765686,
	"loss": 1.931,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -1.15377676486969,
	"rewards/margins": 0.8089130520820618,
	"rewards/rejected": -1.962689995765686,
	"step": 435
	},
	{
	"epoch": 0.9212248102590945,
	"grad_norm": 24.47138715404228,
	"learning_rate": 1.0945137958723705e-08,
	"logits/chosen": -0.0983675867319107,
	"logits/rejected": -0.08297935873270035,
	"logps/chosen": -1.2065281867980957,
	"logps/rejected": -1.7344862222671509,
	"loss": 2.0038,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -1.2065281867980957,
	"rewards/margins": 0.5279580354690552,
	"rewards/rejected": -1.7344862222671509,
	"step": 440
	},
	{
	"epoch": 0.9316932740120387,
	"grad_norm": 24.937539236981156,
	"learning_rate": 8.19951289467482e-09,
	"logits/chosen": -0.2168574333190918,
	"logits/rejected": -0.1608891487121582,
	"logps/chosen": -1.1793944835662842,
	"logps/rejected": -1.7278966903686523,
	"loss": 2.0001,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -1.1793944835662842,
	"rewards/margins": 0.5485021471977234,
	"rewards/rejected": -1.7278966903686523,
	"step": 445
	},
	{
	"epoch": 0.942161737764983,
	"grad_norm": 25.949713098879222,
	"learning_rate": 5.84505523733293e-09,
	"logits/chosen": -0.13714662194252014,
	"logits/rejected": -0.09888915717601776,
	"logps/chosen": -1.2185251712799072,
	"logps/rejected": -1.736971139907837,
	"loss": 1.9405,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -1.2185251712799072,
	"rewards/margins": 0.5184457302093506,
	"rewards/rejected": -1.736971139907837,
	"step": 450
	},
	{
	"epoch": 0.9526302015179272,
	"grad_norm": 48.46134541581324,
	"learning_rate": 3.8849212086261466e-09,
	"logits/chosen": -0.17583271861076355,
	"logits/rejected": -0.12143261730670929,
	"logps/chosen": -1.3378379344940186,
	"logps/rejected": -1.6454353332519531,
	"loss": 1.997,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -1.3378379344940186,
	"rewards/margins": 0.3075973391532898,
	"rewards/rejected": -1.6454353332519531,
	"step": 455
	},
	{
	"epoch": 0.9630986652708715,
	"grad_norm": 17.18309794816949,
	"learning_rate": 2.3217384276938756e-09,
	"logits/chosen": -0.15463075041770935,
	"logits/rejected": -0.10197849571704865,
	"logps/chosen": -1.0989463329315186,
	"logps/rejected": -1.7458966970443726,
	"loss": 1.932,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -1.0989463329315186,
	"rewards/margins": 0.6469505429267883,
	"rewards/rejected": -1.7458966970443726,
	"step": 460
	},
	{
	"epoch": 0.9735671290238157,
	"grad_norm": 23.454717675856944,
	"learning_rate": 1.1576023884836472e-09,
	"logits/chosen": -0.25512656569480896,
	"logits/rejected": -0.15672564506530762,
	"logps/chosen": -1.2135329246520996,
	"logps/rejected": -1.7796437740325928,
	"loss": 1.9646,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -1.2135329246520996,
	"rewards/margins": 0.5661108493804932,
	"rewards/rejected": -1.7796437740325928,
	"step": 465
	},
	{
	"epoch": 0.98403559277676,
	"grad_norm": 38.4586695917519,
	"learning_rate": 3.940736506780395e-10,
	"logits/chosen": -0.2280760258436203,
	"logits/rejected": -0.14886632561683655,
	"logps/chosen": -1.1674778461456299,
	"logps/rejected": -1.6563600301742554,
	"loss": 2.0158,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -1.1674778461456299,
	"rewards/margins": 0.4888822138309479,
	"rewards/rejected": -1.6563600301742554,
	"step": 470
	},
	{
	"epoch": 0.9945040565297043,
	"grad_norm": 20.371210573575656,
	"learning_rate": 3.2175747716822744e-11,
	"logits/chosen": -0.268063485622406,
	"logits/rejected": -0.13501767814159393,
	"logps/chosen": -1.2155284881591797,
	"logps/rejected": -1.7273550033569336,
	"loss": 1.9722,
	"rewards/accuracies": 0.59375,
	"rewards/chosen": -1.2155284881591797,
	"rewards/margins": 0.5118265151977539,
	"rewards/rejected": -1.7273550033569336,
	"step": 475
	},
	{
	"epoch": 0.998691442030882,
	"step": 477,
	"total_flos": 0.0,
	"train_loss": 2.0149041866606385,
	"train_runtime": 17499.3556,
	"train_samples_per_second": 3.494,
	"train_steps_per_second": 0.027
	}
	],
	"logging_steps": 5,
	"max_steps": 477,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 1000000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}