Model save

f3b3d0c verified 5 months ago

28.6 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9988571428571429,
	"eval_steps": 50,
	"global_step": 437,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.022857142857142857,
	"grad_norm": 5.965044878833196,
	"learning_rate": 1.1363636363636363e-07,
	"logits/chosen": -2.7006218433380127,
	"logits/rejected": -2.6247599124908447,
	"logps/chosen": -301.24932861328125,
	"logps/rejected": -281.7940979003906,
	"loss": 0.6931,
	"rewards/accuracies": 0.44999998807907104,
	"rewards/chosen": 0.0003684944240376353,
	"rewards/margins": 0.0008126062457449734,
	"rewards/rejected": -0.000444111879914999,
	"step": 10
	},
	{
	"epoch": 0.045714285714285714,
	"grad_norm": 4.694626134382372,
	"learning_rate": 2.2727272727272726e-07,
	"logits/chosen": -2.6410038471221924,
	"logits/rejected": -2.60575008392334,
	"logps/chosen": -278.92498779296875,
	"logps/rejected": -254.63601684570312,
	"loss": 0.6925,
	"rewards/accuracies": 0.543749988079071,
	"rewards/chosen": 0.002462259028106928,
	"rewards/margins": 0.0011314961593598127,
	"rewards/rejected": 0.0013307628687471151,
	"step": 20
	},
	{
	"epoch": 0.06857142857142857,
	"grad_norm": 5.220071225612144,
	"learning_rate": 3.4090909090909085e-07,
	"logits/chosen": -2.638200044631958,
	"logits/rejected": -2.617208242416382,
	"logps/chosen": -263.2459411621094,
	"logps/rejected": -263.34710693359375,
	"loss": 0.689,
	"rewards/accuracies": 0.59375,
	"rewards/chosen": 0.014371426776051521,
	"rewards/margins": 0.007912042550742626,
	"rewards/rejected": 0.006459384225308895,
	"step": 30
	},
	{
	"epoch": 0.09142857142857143,
	"grad_norm": 5.914085075708232,
	"learning_rate": 4.545454545454545e-07,
	"logits/chosen": -2.64882493019104,
	"logits/rejected": -2.585529327392578,
	"logps/chosen": -290.2810974121094,
	"logps/rejected": -268.34210205078125,
	"loss": 0.6806,
	"rewards/accuracies": 0.59375,
	"rewards/chosen": 0.03716137260198593,
	"rewards/margins": 0.0442696288228035,
	"rewards/rejected": -0.007108256220817566,
	"step": 40
	},
	{
	"epoch": 0.11428571428571428,
	"grad_norm": 8.967256960057256,
	"learning_rate": 4.997124959943201e-07,
	"logits/chosen": -2.6775121688842773,
	"logits/rejected": -2.5971298217773438,
	"logps/chosen": -293.7924499511719,
	"logps/rejected": -254.38064575195312,
	"loss": 0.6696,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": 0.02517825737595558,
	"rewards/margins": 0.1003413200378418,
	"rewards/rejected": -0.07516306638717651,
	"step": 50
	},
	{
	"epoch": 0.11428571428571428,
	"eval_logits/chosen": -2.5406415462493896,
	"eval_logits/rejected": -2.4382479190826416,
	"eval_logps/chosen": -276.4425964355469,
	"eval_logps/rejected": -235.50723266601562,
	"eval_loss": 0.658383309841156,
	"eval_rewards/accuracies": 0.6853448152542114,
	"eval_rewards/chosen": -0.008386622183024883,
	"eval_rewards/margins": 0.1559244692325592,
	"eval_rewards/rejected": -0.16431109607219696,
	"eval_runtime": 91.7124,
	"eval_samples_per_second": 19.965,
	"eval_steps_per_second": 0.316,
	"step": 50
	},
	{
	"epoch": 0.13714285714285715,
	"grad_norm": 7.378725048645318,
	"learning_rate": 4.979579212164186e-07,
	"logits/chosen": -2.578993320465088,
	"logits/rejected": -2.4725637435913086,
	"logps/chosen": -293.21600341796875,
	"logps/rejected": -274.92535400390625,
	"loss": 0.6509,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -0.1271006315946579,
	"rewards/margins": 0.13663128018379211,
	"rewards/rejected": -0.2637318968772888,
	"step": 60
	},
	{
	"epoch": 0.16,
	"grad_norm": 7.529436455012959,
	"learning_rate": 4.946196886175515e-07,
	"logits/chosen": -2.5928056240081787,
	"logits/rejected": -2.543529748916626,
	"logps/chosen": -294.546630859375,
	"logps/rejected": -301.3702697753906,
	"loss": 0.6315,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.1876838505268097,
	"rewards/margins": 0.2297508269548416,
	"rewards/rejected": -0.4174346923828125,
	"step": 70
	},
	{
	"epoch": 0.18285714285714286,
	"grad_norm": 12.054303957362464,
	"learning_rate": 4.897191188239667e-07,
	"logits/chosen": -2.6392509937286377,
	"logits/rejected": -2.590977668762207,
	"logps/chosen": -285.3960266113281,
	"logps/rejected": -307.17535400390625,
	"loss": 0.62,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -0.18367011845111847,
	"rewards/margins": 0.33499467372894287,
	"rewards/rejected": -0.5186647176742554,
	"step": 80
	},
	{
	"epoch": 0.2057142857142857,
	"grad_norm": 13.273475435863975,
	"learning_rate": 4.832875107981763e-07,
	"logits/chosen": -2.7371668815612793,
	"logits/rejected": -2.6849629878997803,
	"logps/chosen": -296.71575927734375,
	"logps/rejected": -316.90338134765625,
	"loss": 0.6249,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.20430462062358856,
	"rewards/margins": 0.40924978256225586,
	"rewards/rejected": -0.6135543584823608,
	"step": 90
	},
	{
	"epoch": 0.22857142857142856,
	"grad_norm": 15.686669316278751,
	"learning_rate": 4.753659419387223e-07,
	"logits/chosen": -2.769486665725708,
	"logits/rejected": -2.6865835189819336,
	"logps/chosen": -318.80413818359375,
	"logps/rejected": -312.09326171875,
	"loss": 0.6122,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.324177622795105,
	"rewards/margins": 0.4622408449649811,
	"rewards/rejected": -0.7864184975624084,
	"step": 100
	},
	{
	"epoch": 0.22857142857142856,
	"eval_logits/chosen": -2.651167869567871,
	"eval_logits/rejected": -2.5533361434936523,
	"eval_logps/chosen": -316.30194091796875,
	"eval_logps/rejected": -308.60577392578125,
	"eval_loss": 0.6111233234405518,
	"eval_rewards/accuracies": 0.6767241358757019,
	"eval_rewards/chosen": -0.40698006749153137,
	"eval_rewards/margins": 0.4883164167404175,
	"eval_rewards/rejected": -0.8952965140342712,
	"eval_runtime": 90.9103,
	"eval_samples_per_second": 20.141,
	"eval_steps_per_second": 0.319,
	"step": 100
	},
	{
	"epoch": 0.25142857142857145,
	"grad_norm": 12.723184548250023,
	"learning_rate": 4.660050057270191e-07,
	"logits/chosen": -2.619276523590088,
	"logits/rejected": -2.556680202484131,
	"logps/chosen": -375.2064208984375,
	"logps/rejected": -391.784423828125,
	"loss": 0.6021,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -0.589028000831604,
	"rewards/margins": 0.3497200608253479,
	"rewards/rejected": -0.9387480020523071,
	"step": 110
	},
	{
	"epoch": 0.2742857142857143,
	"grad_norm": 16.182958724416615,
	"learning_rate": 4.5526448859687144e-07,
	"logits/chosen": -1.8494535684585571,
	"logits/rejected": -1.6301162242889404,
	"logps/chosen": -390.48797607421875,
	"logps/rejected": -364.620361328125,
	"loss": 0.5814,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.7958351969718933,
	"rewards/margins": 0.5332263708114624,
	"rewards/rejected": -1.329061508178711,
	"step": 120
	},
	{
	"epoch": 0.29714285714285715,
	"grad_norm": 17.332692843610236,
	"learning_rate": 4.432129880904388e-07,
	"logits/chosen": -0.4575839638710022,
	"logits/rejected": -0.06781496107578278,
	"logps/chosen": -410.9315490722656,
	"logps/rejected": -413.829833984375,
	"loss": 0.5548,
	"rewards/accuracies": 0.6312500238418579,
	"rewards/chosen": -1.0577561855316162,
	"rewards/margins": 0.5758394598960876,
	"rewards/rejected": -1.6335957050323486,
	"step": 130
	},
	{
	"epoch": 0.32,
	"grad_norm": 20.594750248375647,
	"learning_rate": 4.299274747394055e-07,
	"logits/chosen": 0.2059406340122223,
	"logits/rejected": 0.5167960524559021,
	"logps/chosen": -435.4883728027344,
	"logps/rejected": -472.76092529296875,
	"loss": 0.5654,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -1.200407862663269,
	"rewards/margins": 0.8080868721008301,
	"rewards/rejected": -2.0084948539733887,
	"step": 140
	},
	{
	"epoch": 0.34285714285714286,
	"grad_norm": 16.29523919912318,
	"learning_rate": 4.1549280046953653e-07,
	"logits/chosen": -0.2454165518283844,
	"logits/rejected": 0.22050300240516663,
	"logps/chosen": -396.6532287597656,
	"logps/rejected": -463.4326171875,
	"loss": 0.5476,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -1.0966728925704956,
	"rewards/margins": 0.7746630311012268,
	"rewards/rejected": -1.871335744857788,
	"step": 150
	},
	{
	"epoch": 0.34285714285714286,
	"eval_logits/chosen": 0.14409177005290985,
	"eval_logits/rejected": 0.9770079255104065,
	"eval_logps/chosen": -409.03546142578125,
	"eval_logps/rejected": -453.3369140625,
	"eval_loss": 0.5582876801490784,
	"eval_rewards/accuracies": 0.7370689511299133,
	"eval_rewards/chosen": -1.3343148231506348,
	"eval_rewards/margins": 1.0082927942276,
	"eval_rewards/rejected": -2.3426077365875244,
	"eval_runtime": 91.388,
	"eval_samples_per_second": 20.035,
	"eval_steps_per_second": 0.317,
	"step": 150
	},
	{
	"epoch": 0.3657142857142857,
	"grad_norm": 31.42845724506196,
	"learning_rate": 4.000011566683401e-07,
	"logits/chosen": -0.0020641356240957975,
	"logits/rejected": 0.659235954284668,
	"logps/chosen": -442.47259521484375,
	"logps/rejected": -490.87762451171875,
	"loss": 0.5549,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -1.4313229322433472,
	"rewards/margins": 0.9210258722305298,
	"rewards/rejected": -2.352349042892456,
	"step": 160
	},
	{
	"epoch": 0.38857142857142857,
	"grad_norm": 21.881739335743443,
	"learning_rate": 3.8355148537705047e-07,
	"logits/chosen": -0.8011367917060852,
	"logits/rejected": -0.18294472992420197,
	"logps/chosen": -420.85791015625,
	"logps/rejected": -446.387451171875,
	"loss": 0.5563,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -1.1675300598144531,
	"rewards/margins": 0.6390342712402344,
	"rewards/rejected": -1.8065645694732666,
	"step": 170
	},
	{
	"epoch": 0.4114285714285714,
	"grad_norm": 24.301433957337014,
	"learning_rate": 3.662488473675315e-07,
	"logits/chosen": -0.6645376086235046,
	"logits/rejected": 0.36614301800727844,
	"logps/chosen": -447.889892578125,
	"logps/rejected": -494.78070068359375,
	"loss": 0.5498,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -1.1771008968353271,
	"rewards/margins": 1.1712000370025635,
	"rewards/rejected": -2.3483011722564697,
	"step": 180
	},
	{
	"epoch": 0.4342857142857143,
	"grad_norm": 18.603399872507342,
	"learning_rate": 3.48203751140067e-07,
	"logits/chosen": -0.08548859506845474,
	"logits/rejected": 0.7475250959396362,
	"logps/chosen": -421.85540771484375,
	"logps/rejected": -453.6908264160156,
	"loss": 0.5499,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -1.4559787511825562,
	"rewards/margins": 0.7359476089477539,
	"rewards/rejected": -2.1919264793395996,
	"step": 190
	},
	{
	"epoch": 0.45714285714285713,
	"grad_norm": 21.90453363461546,
	"learning_rate": 3.2953144712759537e-07,
	"logits/chosen": -0.9407933354377747,
	"logits/rejected": -0.02539023384451866,
	"logps/chosen": -380.4794616699219,
	"logps/rejected": -437.4371643066406,
	"loss": 0.5582,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -1.1213675737380981,
	"rewards/margins": 0.9641984701156616,
	"rewards/rejected": -2.0855660438537598,
	"step": 200
	},
	{
	"epoch": 0.45714285714285713,
	"eval_logits/chosen": -0.4975701570510864,
	"eval_logits/rejected": 0.5624167919158936,
	"eval_logps/chosen": -379.0511169433594,
	"eval_logps/rejected": -433.3172912597656,
	"eval_loss": 0.5498641729354858,
	"eval_rewards/accuracies": 0.732758641242981,
	"eval_rewards/chosen": -1.034471869468689,
	"eval_rewards/margins": 1.107939600944519,
	"eval_rewards/rejected": -2.142411708831787,
	"eval_runtime": 90.2066,
	"eval_samples_per_second": 20.298,
	"eval_steps_per_second": 0.321,
	"step": 200
	},
	{
	"epoch": 0.48,
	"grad_norm": 16.10426120639833,
	"learning_rate": 3.103511916141658e-07,
	"logits/chosen": 0.09185227006673813,
	"logits/rejected": 0.8966398239135742,
	"logps/chosen": -387.89202880859375,
	"logps/rejected": -462.49932861328125,
	"loss": 0.5404,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -1.2443852424621582,
	"rewards/margins": 0.9278079271316528,
	"rewards/rejected": -2.1721930503845215,
	"step": 210
	},
	{
	"epoch": 0.5028571428571429,
	"grad_norm": 18.780630904417688,
	"learning_rate": 2.9078548506882117e-07,
	"logits/chosen": 0.5002994537353516,
	"logits/rejected": 1.4443576335906982,
	"logps/chosen": -440.80279541015625,
	"logps/rejected": -487.53485107421875,
	"loss": 0.5609,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -1.5573679208755493,
	"rewards/margins": 0.8561462163925171,
	"rewards/rejected": -2.4135143756866455,
	"step": 220
	},
	{
	"epoch": 0.5257142857142857,
	"grad_norm": 20.610433717594198,
	"learning_rate": 2.709592897595191e-07,
	"logits/chosen": 0.22773201763629913,
	"logits/rejected": 1.2361242771148682,
	"logps/chosen": -401.34228515625,
	"logps/rejected": -446.8021545410156,
	"loss": 0.5442,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -1.202831506729126,
	"rewards/margins": 0.8723229169845581,
	"rewards/rejected": -2.0751543045043945,
	"step": 230
	},
	{
	"epoch": 0.5485714285714286,
	"grad_norm": 27.325375522779876,
	"learning_rate": 2.509992316440332e-07,
	"logits/chosen": 0.26873356103897095,
	"logits/rejected": 1.303821325302124,
	"logps/chosen": -431.5526428222656,
	"logps/rejected": -526.184814453125,
	"loss": 0.536,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": -1.328427791595459,
	"rewards/margins": 1.219201922416687,
	"rewards/rejected": -2.5476298332214355,
	"step": 240
	},
	{
	"epoch": 0.5714285714285714,
	"grad_norm": 18.92218062691862,
	"learning_rate": 2.3103279163519918e-07,
	"logits/chosen": -0.07236287742853165,
	"logits/rejected": 0.5380650758743286,
	"logps/chosen": -407.7901306152344,
	"logps/rejected": -495.40777587890625,
	"loss": 0.5503,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -1.2716388702392578,
	"rewards/margins": 0.980434238910675,
	"rewards/rejected": -2.252073287963867,
	"step": 250
	},
	{
	"epoch": 0.5714285714285714,
	"eval_logits/chosen": -0.37247952818870544,
	"eval_logits/rejected": 0.7719168066978455,
	"eval_logps/chosen": -392.6152038574219,
	"eval_logps/rejected": -450.1522216796875,
	"eval_loss": 0.5393335819244385,
	"eval_rewards/accuracies": 0.7370689511299133,
	"eval_rewards/chosen": -1.1701123714447021,
	"eval_rewards/margins": 1.1406482458114624,
	"eval_rewards/rejected": -2.310760498046875,
	"eval_runtime": 90.9292,
	"eval_samples_per_second": 20.137,
	"eval_steps_per_second": 0.319,
	"step": 250
	},
	{
	"epoch": 0.5942857142857143,
	"grad_norm": 25.541848941752068,
	"learning_rate": 2.1118749140573358e-07,
	"logits/chosen": 0.0009159505134448409,
	"logits/rejected": 0.6376093626022339,
	"logps/chosen": -426.14141845703125,
	"logps/rejected": -502.9112243652344,
	"loss": 0.5485,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -1.463547706604004,
	"rewards/margins": 0.8321346044540405,
	"rewards/rejected": -2.295682430267334,
	"step": 260
	},
	{
	"epoch": 0.6171428571428571,
	"grad_norm": 23.51335121897504,
	"learning_rate": 1.9159007893272703e-07,
	"logits/chosen": 0.321635901927948,
	"logits/rejected": 1.6592861413955688,
	"logps/chosen": -413.24859619140625,
	"logps/rejected": -473.6759338378906,
	"loss": 0.5267,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -1.4072272777557373,
	"rewards/margins": 1.0244569778442383,
	"rewards/rejected": -2.4316840171813965,
	"step": 270
	},
	{
	"epoch": 0.64,
	"grad_norm": 27.142819787480168,
	"learning_rate": 1.7236571898357766e-07,
	"logits/chosen": 1.0628600120544434,
	"logits/rejected": 2.0229506492614746,
	"logps/chosen": -440.122314453125,
	"logps/rejected": -543.1414794921875,
	"loss": 0.5316,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -1.6708418130874634,
	"rewards/margins": 1.129504919052124,
	"rewards/rejected": -2.8003463745117188,
	"step": 280
	},
	{
	"epoch": 0.6628571428571428,
	"grad_norm": 24.13150363681131,
	"learning_rate": 1.5363719371356882e-07,
	"logits/chosen": 0.698092520236969,
	"logits/rejected": 1.5312575101852417,
	"logps/chosen": -450.4425354003906,
	"logps/rejected": -515.0484008789062,
	"loss": 0.5339,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -1.4953665733337402,
	"rewards/margins": 0.999632716178894,
	"rewards/rejected": -2.4949991703033447,
	"step": 290
	},
	{
	"epoch": 0.6857142857142857,
	"grad_norm": 17.486388226084866,
	"learning_rate": 1.3552411848071565e-07,
	"logits/chosen": 0.3839910626411438,
	"logits/rejected": 1.8341293334960938,
	"logps/chosen": -441.32183837890625,
	"logps/rejected": -507.97894287109375,
	"loss": 0.5224,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -1.3941259384155273,
	"rewards/margins": 1.1592432260513306,
	"rewards/rejected": -2.5533692836761475,
	"step": 300
	},
	{
	"epoch": 0.6857142857142857,
	"eval_logits/chosen": 0.18918734788894653,
	"eval_logits/rejected": 1.70877206325531,
	"eval_logps/chosen": -397.884033203125,
	"eval_logps/rejected": -470.09490966796875,
	"eval_loss": 0.5312153100967407,
	"eval_rewards/accuracies": 0.7543103694915771,
	"eval_rewards/chosen": -1.2228009700775146,
	"eval_rewards/margins": 1.2873866558074951,
	"eval_rewards/rejected": -2.510187864303589,
	"eval_runtime": 92.3596,
	"eval_samples_per_second": 19.825,
	"eval_steps_per_second": 0.314,
	"step": 300
	},
	{
	"epoch": 0.7085714285714285,
	"grad_norm": 20.49651474517604,
	"learning_rate": 1.1814217788631473e-07,
	"logits/chosen": 0.41669049859046936,
	"logits/rejected": 1.394052505493164,
	"logps/chosen": -400.6260986328125,
	"logps/rejected": -474.28094482421875,
	"loss": 0.5361,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -1.4432194232940674,
	"rewards/margins": 0.9276365041732788,
	"rewards/rejected": -2.3708558082580566,
	"step": 310
	},
	{
	"epoch": 0.7314285714285714,
	"grad_norm": 18.75776450561332,
	"learning_rate": 1.0160238692045331e-07,
	"logits/chosen": 0.7597023844718933,
	"logits/rejected": 1.6351118087768555,
	"logps/chosen": -413.95318603515625,
	"logps/rejected": -488.90460205078125,
	"loss": 0.542,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -1.6967086791992188,
	"rewards/margins": 0.782455563545227,
	"rewards/rejected": -2.479163885116577,
	"step": 320
	},
	{
	"epoch": 0.7542857142857143,
	"grad_norm": 18.561363930407463,
	"learning_rate": 8.601038193139438e-08,
	"logits/chosen": 0.14268045127391815,
	"logits/rejected": 1.3421038389205933,
	"logps/chosen": -447.97137451171875,
	"logps/rejected": -503.50433349609375,
	"loss": 0.5363,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -1.4875319004058838,
	"rewards/margins": 1.0696327686309814,
	"rewards/rejected": -2.5571646690368652,
	"step": 330
	},
	{
	"epoch": 0.7771428571428571,
	"grad_norm": 17.499558797451687,
	"learning_rate": 7.146574594727572e-08,
	"logits/chosen": 0.3810690939426422,
	"logits/rejected": 1.2245051860809326,
	"logps/chosen": -414.9021911621094,
	"logps/rejected": -506.65045166015625,
	"loss": 0.5285,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -1.489512324333191,
	"rewards/margins": 1.1567548513412476,
	"rewards/rejected": -2.6462674140930176,
	"step": 340
	},
	{
	"epoch": 0.8,
	"grad_norm": 17.943689215599328,
	"learning_rate": 5.8061372659157306e-08,
	"logits/chosen": 0.24244177341461182,
	"logits/rejected": 1.3491809368133545,
	"logps/chosen": -441.5047912597656,
	"logps/rejected": -494.35626220703125,
	"loss": 0.5396,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -1.517975091934204,
	"rewards/margins": 0.8826116323471069,
	"rewards/rejected": -2.4005866050720215,
	"step": 350
	},
	{
	"epoch": 0.8,
	"eval_logits/chosen": 0.4364562928676605,
	"eval_logits/rejected": 1.9215292930603027,
	"eval_logps/chosen": -420.2202453613281,
	"eval_logps/rejected": -493.9275207519531,
	"eval_loss": 0.5290318131446838,
	"eval_rewards/accuracies": 0.75,
	"eval_rewards/chosen": -1.4461628198623657,
	"eval_rewards/margins": 1.3023512363433838,
	"eval_rewards/rejected": -2.748514175415039,
	"eval_runtime": 91.6979,
	"eval_samples_per_second": 19.968,
	"eval_steps_per_second": 0.316,
	"step": 350
	},
	{
	"epoch": 0.8228571428571428,
	"grad_norm": 16.780749890709036,
	"learning_rate": 4.5882873127531614e-08,
	"logits/chosen": 0.174576535820961,
	"logits/rejected": 1.4981176853179932,
	"logps/chosen": -435.602783203125,
	"logps/rejected": -510.8885192871094,
	"loss": 0.5205,
	"rewards/accuracies": 0.7875000238418579,
	"rewards/chosen": -1.501977801322937,
	"rewards/margins": 1.0960423946380615,
	"rewards/rejected": -2.598020076751709,
	"step": 360
	},
	{
	"epoch": 0.8457142857142858,
	"grad_norm": 19.04569651937684,
	"learning_rate": 3.500802900154412e-08,
	"logits/chosen": 0.34421294927597046,
	"logits/rejected": 1.787302017211914,
	"logps/chosen": -412.97747802734375,
	"logps/rejected": -499.79034423828125,
	"loss": 0.528,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -1.4191606044769287,
	"rewards/margins": 1.1945868730545044,
	"rewards/rejected": -2.6137473583221436,
	"step": 370
	},
	{
	"epoch": 0.8685714285714285,
	"grad_norm": 21.067585045477745,
	"learning_rate": 2.550629574310309e-08,
	"logits/chosen": 0.211051344871521,
	"logits/rejected": 1.5275977849960327,
	"logps/chosen": -486.8960876464844,
	"logps/rejected": -515.337646484375,
	"loss": 0.5294,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -1.6883971691131592,
	"rewards/margins": 0.8909848928451538,
	"rewards/rejected": -2.5793819427490234,
	"step": 380
	},
	{
	"epoch": 0.8914285714285715,
	"grad_norm": 21.227279903684668,
	"learning_rate": 1.7438359028687983e-08,
	"logits/chosen": 0.37176352739334106,
	"logits/rejected": 1.208251714706421,
	"logps/chosen": -453.6361389160156,
	"logps/rejected": -538.0291748046875,
	"loss": 0.5333,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -1.4226316213607788,
	"rewards/margins": 1.0099334716796875,
	"rewards/rejected": -2.432565212249756,
	"step": 390
	},
	{
	"epoch": 0.9142857142857143,
	"grad_norm": 35.72120712786558,
	"learning_rate": 1.0855747162029361e-08,
	"logits/chosen": 0.5662034749984741,
	"logits/rejected": 1.0855852365493774,
	"logps/chosen": -437.5174865722656,
	"logps/rejected": -510.6676330566406,
	"loss": 0.55,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -1.587842345237732,
	"rewards/margins": 0.8530977368354797,
	"rewards/rejected": -2.4409401416778564,
	"step": 400
	},
	{
	"epoch": 0.9142857142857143,
	"eval_logits/chosen": 0.49114343523979187,
	"eval_logits/rejected": 1.9856219291687012,
	"eval_logps/chosen": -417.03155517578125,
	"eval_logps/rejected": -493.2509765625,
	"eval_loss": 0.5286471843719482,
	"eval_rewards/accuracies": 0.7629310488700867,
	"eval_rewards/chosen": -1.414276123046875,
	"eval_rewards/margins": 1.3274718523025513,
	"eval_rewards/rejected": -2.741748094558716,
	"eval_runtime": 91.527,
	"eval_samples_per_second": 20.005,
	"eval_steps_per_second": 0.317,
	"step": 400
	},
	{
	"epoch": 0.9371428571428572,
	"grad_norm": 21.313276080994388,
	"learning_rate": 5.8005019731033615e-09,
	"logits/chosen": 0.33736371994018555,
	"logits/rejected": 1.3800859451293945,
	"logps/chosen": -453.69744873046875,
	"logps/rejected": -516.6829833984375,
	"loss": 0.5264,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -1.6551754474639893,
	"rewards/margins": 0.9143539667129517,
	"rewards/rejected": -2.5695290565490723,
	"step": 410
	},
	{
	"epoch": 0.96,
	"grad_norm": 19.39515946553055,
	"learning_rate": 2.3049103053431886e-09,
	"logits/chosen": 0.2167482078075409,
	"logits/rejected": 1.6823341846466064,
	"logps/chosen": -409.4588928222656,
	"logps/rejected": -498.9947814941406,
	"loss": 0.5293,
	"rewards/accuracies": 0.7875000238418579,
	"rewards/chosen": -1.267107605934143,
	"rewards/margins": 1.3829718828201294,
	"rewards/rejected": -2.6500792503356934,
	"step": 420
	},
	{
	"epoch": 0.9828571428571429,
	"grad_norm": 20.626302042234812,
	"learning_rate": 3.9129780600541397e-10,
	"logits/chosen": 0.5624532699584961,
	"logits/rejected": 1.5469181537628174,
	"logps/chosen": -430.54388427734375,
	"logps/rejected": -515.5368041992188,
	"loss": 0.5296,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -1.483120083808899,
	"rewards/margins": 1.0355522632598877,
	"rewards/rejected": -2.518672466278076,
	"step": 430
	},
	{
	"epoch": 0.9988571428571429,
	"step": 437,
	"total_flos": 0.0,
	"train_loss": 0.5693180419214803,
	"train_runtime": 11386.9149,
	"train_samples_per_second": 4.918,
	"train_steps_per_second": 0.038
	}
	],
	"logging_steps": 10,
	"max_steps": 437,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}