Atorinv0.1-adapter-model / trainer_state.json

Upload 4 files

dbc64fc verified 6 months ago

10.2 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.0,
	"eval_steps": 500,
	"global_step": 1548,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.03,
	"grad_norm": 3.802351951599121,
	"learning_rate": 3.2258064516129034e-05,
	"loss": 3.7331,
	"step": 25
	},
	{
	"epoch": 0.06,
	"grad_norm": 3.442800760269165,
	"learning_rate": 6.451612903225807e-05,
	"loss": 2.9581,
	"step": 50
	},
	{
	"epoch": 0.1,
	"grad_norm": 3.616957902908325,
	"learning_rate": 9.677419354838711e-05,
	"loss": 2.4309,
	"step": 75
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.3956120014190674,
	"learning_rate": 0.00012903225806451613,
	"loss": 2.2667,
	"step": 100
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.698212146759033,
	"learning_rate": 0.00016129032258064516,
	"loss": 2.0782,
	"step": 125
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.7342419624328613,
	"learning_rate": 0.00019354838709677422,
	"loss": 2.0691,
	"step": 150
	},
	{
	"epoch": 0.23,
	"grad_norm": 2.039422035217285,
	"learning_rate": 0.00019712849964106247,
	"loss": 2.0865,
	"step": 175
	},
	{
	"epoch": 0.26,
	"grad_norm": 2.0298664569854736,
	"learning_rate": 0.00019353912419239053,
	"loss": 1.9552,
	"step": 200
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.8978090286254883,
	"learning_rate": 0.0001899497487437186,
	"loss": 2.0111,
	"step": 225
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.9588110446929932,
	"learning_rate": 0.00018636037329504667,
	"loss": 1.961,
	"step": 250
	},
	{
	"epoch": 0.36,
	"grad_norm": 2.160839796066284,
	"learning_rate": 0.00018277099784637474,
	"loss": 2.0133,
	"step": 275
	},
	{
	"epoch": 0.39,
	"grad_norm": 2.0899839401245117,
	"learning_rate": 0.00017918162239770278,
	"loss": 1.958,
	"step": 300
	},
	{
	"epoch": 0.42,
	"grad_norm": 2.029879570007324,
	"learning_rate": 0.00017559224694903088,
	"loss": 1.9116,
	"step": 325
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.7021583318710327,
	"learning_rate": 0.00017200287150035895,
	"loss": 1.8842,
	"step": 350
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.5238200426101685,
	"learning_rate": 0.00016841349605168702,
	"loss": 1.8229,
	"step": 375
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.9168670177459717,
	"learning_rate": 0.0001648241206030151,
	"loss": 1.9235,
	"step": 400
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.8892511129379272,
	"learning_rate": 0.00016123474515434316,
	"loss": 1.8859,
	"step": 425
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.7955598831176758,
	"learning_rate": 0.00015764536970567123,
	"loss": 1.8619,
	"step": 450
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.7658586502075195,
	"learning_rate": 0.00015405599425699927,
	"loss": 1.8235,
	"step": 475
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.598111629486084,
	"learning_rate": 0.00015046661880832737,
	"loss": 1.8554,
	"step": 500
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.9352959394454956,
	"learning_rate": 0.00014687724335965544,
	"loss": 1.801,
	"step": 525
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.9746991395950317,
	"learning_rate": 0.0001432878679109835,
	"loss": 1.895,
	"step": 550
	},
	{
	"epoch": 0.74,
	"grad_norm": 1.476921796798706,
	"learning_rate": 0.00013969849246231157,
	"loss": 1.7978,
	"step": 575
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.667672872543335,
	"learning_rate": 0.00013610911701363964,
	"loss": 1.76,
	"step": 600
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.5855716466903687,
	"learning_rate": 0.00013251974156496769,
	"loss": 1.8171,
	"step": 625
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.9429579973220825,
	"learning_rate": 0.00012893036611629576,
	"loss": 1.811,
	"step": 650
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.684810996055603,
	"learning_rate": 0.00012534099066762382,
	"loss": 1.8148,
	"step": 675
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.6180702447891235,
	"learning_rate": 0.00012175161521895191,
	"loss": 1.7356,
	"step": 700
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.7795788049697876,
	"learning_rate": 0.00011816223977027998,
	"loss": 1.7969,
	"step": 725
	},
	{
	"epoch": 0.97,
	"grad_norm": 1.7645013332366943,
	"learning_rate": 0.00011457286432160806,
	"loss": 1.8198,
	"step": 750
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.713512897491455,
	"learning_rate": 0.00011098348887293613,
	"loss": 1.7514,
	"step": 775
	},
	{
	"epoch": 1.03,
	"grad_norm": 1.3435418605804443,
	"learning_rate": 0.00010739411342426417,
	"loss": 1.6679,
	"step": 800
	},
	{
	"epoch": 1.07,
	"grad_norm": 1.5819846391677856,
	"learning_rate": 0.00010380473797559225,
	"loss": 1.7182,
	"step": 825
	},
	{
	"epoch": 1.1,
	"grad_norm": 1.3324297666549683,
	"learning_rate": 0.00010021536252692032,
	"loss": 1.7301,
	"step": 850
	},
	{
	"epoch": 1.13,
	"grad_norm": 1.4800920486450195,
	"learning_rate": 9.662598707824839e-05,
	"loss": 1.7123,
	"step": 875
	},
	{
	"epoch": 1.16,
	"grad_norm": 1.5812880992889404,
	"learning_rate": 9.303661162957645e-05,
	"loss": 1.7816,
	"step": 900
	},
	{
	"epoch": 1.2,
	"grad_norm": 1.5376070737838745,
	"learning_rate": 8.944723618090453e-05,
	"loss": 1.7446,
	"step": 925
	},
	{
	"epoch": 1.23,
	"grad_norm": 1.5884149074554443,
	"learning_rate": 8.58578607322326e-05,
	"loss": 1.6483,
	"step": 950
	},
	{
	"epoch": 1.26,
	"grad_norm": 2.03753662109375,
	"learning_rate": 8.226848528356066e-05,
	"loss": 1.6695,
	"step": 975
	},
	{
	"epoch": 1.29,
	"grad_norm": 1.7924336194992065,
	"learning_rate": 7.867910983488873e-05,
	"loss": 1.7109,
	"step": 1000
	},
	{
	"epoch": 1.32,
	"grad_norm": 1.80973219871521,
	"learning_rate": 7.508973438621681e-05,
	"loss": 1.7017,
	"step": 1025
	},
	{
	"epoch": 1.36,
	"grad_norm": 1.7763901948928833,
	"learning_rate": 7.150035893754488e-05,
	"loss": 1.6669,
	"step": 1050
	},
	{
	"epoch": 1.39,
	"grad_norm": 3.0561070442199707,
	"learning_rate": 6.791098348887293e-05,
	"loss": 1.6681,
	"step": 1075
	},
	{
	"epoch": 1.42,
	"grad_norm": 1.7292817831039429,
	"learning_rate": 6.4321608040201e-05,
	"loss": 1.6787,
	"step": 1100
	},
	{
	"epoch": 1.45,
	"grad_norm": 1.6157281398773193,
	"learning_rate": 6.073223259152908e-05,
	"loss": 1.6716,
	"step": 1125
	},
	{
	"epoch": 1.49,
	"grad_norm": 1.5873336791992188,
	"learning_rate": 5.714285714285714e-05,
	"loss": 1.6724,
	"step": 1150
	},
	{
	"epoch": 1.52,
	"grad_norm": 1.7574703693389893,
	"learning_rate": 5.355348169418522e-05,
	"loss": 1.6608,
	"step": 1175
	},
	{
	"epoch": 1.55,
	"grad_norm": 1.7600945234298706,
	"learning_rate": 4.996410624551328e-05,
	"loss": 1.7204,
	"step": 1200
	},
	{
	"epoch": 1.58,
	"grad_norm": 1.4515677690505981,
	"learning_rate": 4.6374730796841356e-05,
	"loss": 1.6755,
	"step": 1225
	},
	{
	"epoch": 1.61,
	"grad_norm": 1.9057530164718628,
	"learning_rate": 4.278535534816942e-05,
	"loss": 1.6953,
	"step": 1250
	},
	{
	"epoch": 1.65,
	"grad_norm": 1.7482775449752808,
	"learning_rate": 3.919597989949749e-05,
	"loss": 1.686,
	"step": 1275
	},
	{
	"epoch": 1.68,
	"grad_norm": 1.8991056680679321,
	"learning_rate": 3.560660445082556e-05,
	"loss": 1.6611,
	"step": 1300
	},
	{
	"epoch": 1.71,
	"grad_norm": 1.7882860898971558,
	"learning_rate": 3.201722900215363e-05,
	"loss": 1.7103,
	"step": 1325
	},
	{
	"epoch": 1.74,
	"grad_norm": 1.6628391742706299,
	"learning_rate": 2.84278535534817e-05,
	"loss": 1.6925,
	"step": 1350
	},
	{
	"epoch": 1.78,
	"grad_norm": 1.5516228675842285,
	"learning_rate": 2.4838478104809766e-05,
	"loss": 1.652,
	"step": 1375
	},
	{
	"epoch": 1.81,
	"grad_norm": 1.5719884634017944,
	"learning_rate": 2.1249102656137835e-05,
	"loss": 1.6383,
	"step": 1400
	},
	{
	"epoch": 1.84,
	"grad_norm": 1.8628472089767456,
	"learning_rate": 1.76597272074659e-05,
	"loss": 1.6922,
	"step": 1425
	},
	{
	"epoch": 1.87,
	"grad_norm": 1.7590694427490234,
	"learning_rate": 1.407035175879397e-05,
	"loss": 1.687,
	"step": 1450
	},
	{
	"epoch": 1.91,
	"grad_norm": 1.6741101741790771,
	"learning_rate": 1.048097631012204e-05,
	"loss": 1.6599,
	"step": 1475
	},
	{
	"epoch": 1.94,
	"grad_norm": 1.7378610372543335,
	"learning_rate": 6.891600861450108e-06,
	"loss": 1.6765,
	"step": 1500
	},
	{
	"epoch": 1.97,
	"grad_norm": 1.5435367822647095,
	"learning_rate": 3.3022254127781766e-06,
	"loss": 1.607,
	"step": 1525
	}
	],
	"logging_steps": 25,
	"max_steps": 1548,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 500,
	"total_flos": 1.0151913205845197e+17,
	"train_batch_size": 6,
	"trial_name": null,
	"trial_params": null
	}