wangchanglm_furniture / trainer_state.json

Upload 11 files

85c17f1 verified about 1 year ago

88.2 kB

	{
	"best_metric": 1.214709758758545,
	"best_model_checkpoint": "model/E5/wangchanglm_E5_wangchanglm_shuffle_augment_gpt4/checkpoint-12658",
	"epoch": 9.99666718510454,
	"eval_steps": 500,
	"global_step": 14060,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01,
	"learning_rate": 2.777777777777778e-05,
	"loss": 3.5505,
	"step": 20
	},
	{
	"epoch": 0.03,
	"learning_rate": 4.999998996341642e-05,
	"loss": 2.8999,
	"step": 40
	},
	{
	"epoch": 0.04,
	"learning_rate": 4.999963868383706e-05,
	"loss": 2.1883,
	"step": 60
	},
	{
	"epoch": 0.06,
	"learning_rate": 4.9998785583137e-05,
	"loss": 2.045,
	"step": 80
	},
	{
	"epoch": 0.07,
	"learning_rate": 4.999743067844064e-05,
	"loss": 2.0015,
	"step": 100
	},
	{
	"epoch": 0.09,
	"learning_rate": 4.999557399694518e-05,
	"loss": 1.9891,
	"step": 120
	},
	{
	"epoch": 0.1,
	"learning_rate": 4.9993215575920024e-05,
	"loss": 1.9474,
	"step": 140
	},
	{
	"epoch": 0.11,
	"learning_rate": 4.999035546270608e-05,
	"loss": 1.9158,
	"step": 160
	},
	{
	"epoch": 0.13,
	"learning_rate": 4.998699371471479e-05,
	"loss": 1.9258,
	"step": 180
	},
	{
	"epoch": 0.14,
	"learning_rate": 4.9983130399426966e-05,
	"loss": 1.8942,
	"step": 200
	},
	{
	"epoch": 0.16,
	"learning_rate": 4.9978765594391474e-05,
	"loss": 1.8836,
	"step": 220
	},
	{
	"epoch": 0.17,
	"learning_rate": 4.9973899387223616e-05,
	"loss": 1.8792,
	"step": 240
	},
	{
	"epoch": 0.18,
	"learning_rate": 4.996853187560343e-05,
	"loss": 1.8481,
	"step": 260
	},
	{
	"epoch": 0.2,
	"learning_rate": 4.996266316727371e-05,
	"loss": 1.8589,
	"step": 280
	},
	{
	"epoch": 0.21,
	"learning_rate": 4.995629338003782e-05,
	"loss": 1.8073,
	"step": 300
	},
	{
	"epoch": 0.23,
	"learning_rate": 4.994942264175737e-05,
	"loss": 1.8313,
	"step": 320
	},
	{
	"epoch": 0.24,
	"learning_rate": 4.9942051090349606e-05,
	"loss": 1.7953,
	"step": 340
	},
	{
	"epoch": 0.26,
	"learning_rate": 4.9934178873784674e-05,
	"loss": 1.7668,
	"step": 360
	},
	{
	"epoch": 0.27,
	"learning_rate": 4.992580615008264e-05,
	"loss": 1.778,
	"step": 380
	},
	{
	"epoch": 0.28,
	"learning_rate": 4.991693308731033e-05,
	"loss": 1.785,
	"step": 400
	},
	{
	"epoch": 0.3,
	"learning_rate": 4.990755986357791e-05,
	"loss": 1.7609,
	"step": 420
	},
	{
	"epoch": 0.31,
	"learning_rate": 4.989768666703538e-05,
	"loss": 1.7345,
	"step": 440
	},
	{
	"epoch": 0.33,
	"learning_rate": 4.988731369586874e-05,
	"loss": 1.7622,
	"step": 460
	},
	{
	"epoch": 0.34,
	"learning_rate": 4.987644115829604e-05,
	"loss": 1.7128,
	"step": 480
	},
	{
	"epoch": 0.36,
	"learning_rate": 4.9865069272563195e-05,
	"loss": 1.7156,
	"step": 500
	},
	{
	"epoch": 0.37,
	"learning_rate": 4.98531982669396e-05,
	"loss": 1.7354,
	"step": 520
	},
	{
	"epoch": 0.38,
	"learning_rate": 4.9840828379713556e-05,
	"loss": 1.7011,
	"step": 540
	},
	{
	"epoch": 0.4,
	"learning_rate": 4.9827959859187476e-05,
	"loss": 1.6927,
	"step": 560
	},
	{
	"epoch": 0.41,
	"learning_rate": 4.9814592963672915e-05,
	"loss": 1.6968,
	"step": 580
	},
	{
	"epoch": 0.43,
	"learning_rate": 4.980072796148535e-05,
	"loss": 1.682,
	"step": 600
	},
	{
	"epoch": 0.44,
	"learning_rate": 4.978636513093887e-05,
	"loss": 1.674,
	"step": 620
	},
	{
	"epoch": 0.46,
	"learning_rate": 4.9771504760340494e-05,
	"loss": 1.6618,
	"step": 640
	},
	{
	"epoch": 0.47,
	"learning_rate": 4.975614714798445e-05,
	"loss": 1.6696,
	"step": 660
	},
	{
	"epoch": 0.48,
	"learning_rate": 4.9740292602146154e-05,
	"loss": 1.6715,
	"step": 680
	},
	{
	"epoch": 0.5,
	"learning_rate": 4.972394144107606e-05,
	"loss": 1.6455,
	"step": 700
	},
	{
	"epoch": 0.51,
	"learning_rate": 4.970709399299322e-05,
	"loss": 1.6459,
	"step": 720
	},
	{
	"epoch": 0.53,
	"learning_rate": 4.968975059607874e-05,
	"loss": 1.6497,
	"step": 740
	},
	{
	"epoch": 0.54,
	"learning_rate": 4.967191159846896e-05,
	"loss": 1.6411,
	"step": 760
	},
	{
	"epoch": 0.55,
	"learning_rate": 4.9653577358248484e-05,
	"loss": 1.6355,
	"step": 780
	},
	{
	"epoch": 0.57,
	"learning_rate": 4.9634748243442994e-05,
	"loss": 1.6149,
	"step": 800
	},
	{
	"epoch": 0.58,
	"learning_rate": 4.9615424632011857e-05,
	"loss": 1.6107,
	"step": 820
	},
	{
	"epoch": 0.6,
	"learning_rate": 4.959560691184052e-05,
	"loss": 1.6145,
	"step": 840
	},
	{
	"epoch": 0.61,
	"learning_rate": 4.957529548073276e-05,
	"loss": 1.6122,
	"step": 860
	},
	{
	"epoch": 0.63,
	"learning_rate": 4.9554490746402696e-05,
	"loss": 1.6051,
	"step": 880
	},
	{
	"epoch": 0.64,
	"learning_rate": 4.953319312646653e-05,
	"loss": 1.5917,
	"step": 900
	},
	{
	"epoch": 0.65,
	"learning_rate": 4.951140304843428e-05,
	"loss": 1.59,
	"step": 920
	},
	{
	"epoch": 0.67,
	"learning_rate": 4.948912094970113e-05,
	"loss": 1.5809,
	"step": 940
	},
	{
	"epoch": 0.68,
	"learning_rate": 4.946634727753864e-05,
	"loss": 1.5851,
	"step": 960
	},
	{
	"epoch": 0.7,
	"learning_rate": 4.9443082489085814e-05,
	"loss": 1.5698,
	"step": 980
	},
	{
	"epoch": 0.71,
	"learning_rate": 4.9419327051339883e-05,
	"loss": 1.5785,
	"step": 1000
	},
	{
	"epoch": 0.73,
	"learning_rate": 4.939508144114696e-05,
	"loss": 1.5971,
	"step": 1020
	},
	{
	"epoch": 0.74,
	"learning_rate": 4.937034614519245e-05,
	"loss": 1.5689,
	"step": 1040
	},
	{
	"epoch": 0.75,
	"learning_rate": 4.934512165999128e-05,
	"loss": 1.5784,
	"step": 1060
	},
	{
	"epoch": 0.77,
	"learning_rate": 4.931940849187795e-05,
	"loss": 1.5687,
	"step": 1080
	},
	{
	"epoch": 0.78,
	"learning_rate": 4.9293207156996354e-05,
	"loss": 1.5659,
	"step": 1100
	},
	{
	"epoch": 0.8,
	"learning_rate": 4.9266518181289414e-05,
	"loss": 1.5564,
	"step": 1120
	},
	{
	"epoch": 0.81,
	"learning_rate": 4.923934210048856e-05,
	"loss": 1.5564,
	"step": 1140
	},
	{
	"epoch": 0.82,
	"learning_rate": 4.921167946010291e-05,
	"loss": 1.5437,
	"step": 1160
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.9183530815408386e-05,
	"loss": 1.5503,
	"step": 1180
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.9154896731436526e-05,
	"loss": 1.586,
	"step": 1200
	},
	{
	"epoch": 0.87,
	"learning_rate": 4.9125777782963165e-05,
	"loss": 1.5578,
	"step": 1220
	},
	{
	"epoch": 0.88,
	"learning_rate": 4.909617455449689e-05,
	"loss": 1.5513,
	"step": 1240
	},
	{
	"epoch": 0.9,
	"learning_rate": 4.906608764026729e-05,
	"loss": 1.5724,
	"step": 1260
	},
	{
	"epoch": 0.91,
	"learning_rate": 4.903551764421307e-05,
	"loss": 1.541,
	"step": 1280
	},
	{
	"epoch": 0.92,
	"learning_rate": 4.900446517996987e-05,
	"loss": 1.5477,
	"step": 1300
	},
	{
	"epoch": 0.94,
	"learning_rate": 4.8972930870857994e-05,
	"loss": 1.542,
	"step": 1320
	},
	{
	"epoch": 0.95,
	"learning_rate": 4.89409153498699e-05,
	"loss": 1.5279,
	"step": 1340
	},
	{
	"epoch": 0.97,
	"learning_rate": 4.890841925965744e-05,
	"loss": 1.5528,
	"step": 1360
	},
	{
	"epoch": 0.98,
	"learning_rate": 4.8875443252519035e-05,
	"loss": 1.5381,
	"step": 1380
	},
	{
	"epoch": 1.0,
	"learning_rate": 4.884198799038652e-05,
	"loss": 1.5313,
	"step": 1400
	},
	{
	"epoch": 1.0,
	"eval_loss": 1.4408559799194336,
	"eval_runtime": 293.7341,
	"eval_samples_per_second": 18.939,
	"eval_steps_per_second": 18.939,
	"step": 1406
	},
	{
	"epoch": 1.01,
	"learning_rate": 4.880805414481189e-05,
	"loss": 1.5191,
	"step": 1420
	},
	{
	"epoch": 1.02,
	"learning_rate": 4.8773642396953796e-05,
	"loss": 1.5047,
	"step": 1440
	},
	{
	"epoch": 1.04,
	"learning_rate": 4.87387534375639e-05,
	"loss": 1.5096,
	"step": 1460
	},
	{
	"epoch": 1.05,
	"learning_rate": 4.8703387966973e-05,
	"loss": 1.5209,
	"step": 1480
	},
	{
	"epoch": 1.07,
	"learning_rate": 4.866754669507696e-05,
	"loss": 1.4774,
	"step": 1500
	},
	{
	"epoch": 1.08,
	"learning_rate": 4.8631230341322455e-05,
	"loss": 1.5105,
	"step": 1520
	},
	{
	"epoch": 1.09,
	"learning_rate": 4.859443963469256e-05,
	"loss": 1.4994,
	"step": 1540
	},
	{
	"epoch": 1.11,
	"learning_rate": 4.855717531369208e-05,
	"loss": 1.4887,
	"step": 1560
	},
	{
	"epoch": 1.12,
	"learning_rate": 4.851943812633279e-05,
	"loss": 1.5248,
	"step": 1580
	},
	{
	"epoch": 1.14,
	"learning_rate": 4.848122883011832e-05,
	"loss": 1.4611,
	"step": 1600
	},
	{
	"epoch": 1.15,
	"learning_rate": 4.844254819202904e-05,
	"loss": 1.4756,
	"step": 1620
	},
	{
	"epoch": 1.17,
	"learning_rate": 4.840339698850661e-05,
	"loss": 1.4817,
	"step": 1640
	},
	{
	"epoch": 1.18,
	"learning_rate": 4.836377600543842e-05,
	"loss": 1.4862,
	"step": 1660
	},
	{
	"epoch": 1.19,
	"learning_rate": 4.832368603814182e-05,
	"loss": 1.4828,
	"step": 1680
	},
	{
	"epoch": 1.21,
	"learning_rate": 4.8283127891348124e-05,
	"loss": 1.4767,
	"step": 1700
	},
	{
	"epoch": 1.22,
	"learning_rate": 4.824210237918649e-05,
	"loss": 1.497,
	"step": 1720
	},
	{
	"epoch": 1.24,
	"learning_rate": 4.820061032516756e-05,
	"loss": 1.4843,
	"step": 1740
	},
	{
	"epoch": 1.25,
	"learning_rate": 4.815865256216693e-05,
	"loss": 1.4694,
	"step": 1760
	},
	{
	"epoch": 1.27,
	"learning_rate": 4.811622993240844e-05,
	"loss": 1.478,
	"step": 1780
	},
	{
	"epoch": 1.28,
	"learning_rate": 4.807334328744726e-05,
	"loss": 1.4594,
	"step": 1800
	},
	{
	"epoch": 1.29,
	"learning_rate": 4.8029993488152806e-05,
	"loss": 1.5019,
	"step": 1820
	},
	{
	"epoch": 1.31,
	"learning_rate": 4.798618140469143e-05,
	"loss": 1.4801,
	"step": 1840
	},
	{
	"epoch": 1.32,
	"learning_rate": 4.794190791650903e-05,
	"loss": 1.4906,
	"step": 1860
	},
	{
	"epoch": 1.34,
	"learning_rate": 4.789717391231328e-05,
	"loss": 1.4914,
	"step": 1880
	},
	{
	"epoch": 1.35,
	"learning_rate": 4.7851980290055896e-05,
	"loss": 1.4578,
	"step": 1900
	},
	{
	"epoch": 1.37,
	"learning_rate": 4.7806327956914544e-05,
	"loss": 1.4613,
	"step": 1920
	},
	{
	"epoch": 1.38,
	"learning_rate": 4.7760217829274675e-05,
	"loss": 1.46,
	"step": 1940
	},
	{
	"epoch": 1.39,
	"learning_rate": 4.771365083271112e-05,
	"loss": 1.4609,
	"step": 1960
	},
	{
	"epoch": 1.41,
	"learning_rate": 4.7666627901969454e-05,
	"loss": 1.4684,
	"step": 1980
	},
	{
	"epoch": 1.42,
	"learning_rate": 4.761914998094732e-05,
	"loss": 1.4534,
	"step": 2000
	},
	{
	"epoch": 1.44,
	"learning_rate": 4.7571218022675443e-05,
	"loss": 1.4674,
	"step": 2020
	},
	{
	"epoch": 1.45,
	"learning_rate": 4.7522832989298486e-05,
	"loss": 1.4783,
	"step": 2040
	},
	{
	"epoch": 1.46,
	"learning_rate": 4.747399585205575e-05,
	"loss": 1.4671,
	"step": 2060
	},
	{
	"epoch": 1.48,
	"learning_rate": 4.7424707591261685e-05,
	"loss": 1.4704,
	"step": 2080
	},
	{
	"epoch": 1.49,
	"learning_rate": 4.737496919628619e-05,
	"loss": 1.4554,
	"step": 2100
	},
	{
	"epoch": 1.51,
	"learning_rate": 4.732478166553479e-05,
	"loss": 1.4309,
	"step": 2120
	},
	{
	"epoch": 1.52,
	"learning_rate": 4.727414600642857e-05,
	"loss": 1.4581,
	"step": 2140
	},
	{
	"epoch": 1.54,
	"learning_rate": 4.722306323538392e-05,
	"loss": 1.4518,
	"step": 2160
	},
	{
	"epoch": 1.55,
	"learning_rate": 4.717153437779221e-05,
	"loss": 1.4419,
	"step": 2180
	},
	{
	"epoch": 1.56,
	"learning_rate": 4.711956046799917e-05,
	"loss": 1.4509,
	"step": 2200
	},
	{
	"epoch": 1.58,
	"learning_rate": 4.7067142549284085e-05,
	"loss": 1.4339,
	"step": 2220
	},
	{
	"epoch": 1.59,
	"learning_rate": 4.7014281673838904e-05,
	"loss": 1.4433,
	"step": 2240
	},
	{
	"epoch": 1.61,
	"learning_rate": 4.6960978902747135e-05,
	"loss": 1.4317,
	"step": 2260
	},
	{
	"epoch": 1.62,
	"learning_rate": 4.6907235305962476e-05,
	"loss": 1.4491,
	"step": 2280
	},
	{
	"epoch": 1.64,
	"learning_rate": 4.6853051962287405e-05,
	"loss": 1.4265,
	"step": 2300
	},
	{
	"epoch": 1.65,
	"learning_rate": 4.679842995935149e-05,
	"loss": 1.4216,
	"step": 2320
	},
	{
	"epoch": 1.66,
	"learning_rate": 4.674337039358957e-05,
	"loss": 1.4212,
	"step": 2340
	},
	{
	"epoch": 1.68,
	"learning_rate": 4.668787437021973e-05,
	"loss": 1.428,
	"step": 2360
	},
	{
	"epoch": 1.69,
	"learning_rate": 4.6631943003221145e-05,
	"loss": 1.449,
	"step": 2380
	},
	{
	"epoch": 1.71,
	"learning_rate": 4.6575577415311684e-05,
	"loss": 1.439,
	"step": 2400
	},
	{
	"epoch": 1.72,
	"learning_rate": 4.6518778737925406e-05,
	"loss": 1.4642,
	"step": 2420
	},
	{
	"epoch": 1.73,
	"learning_rate": 4.646154811118982e-05,
	"loss": 1.4386,
	"step": 2440
	},
	{
	"epoch": 1.75,
	"learning_rate": 4.640388668390302e-05,
	"loss": 1.4141,
	"step": 2460
	},
	{
	"epoch": 1.76,
	"learning_rate": 4.6345795613510625e-05,
	"loss": 1.4119,
	"step": 2480
	},
	{
	"epoch": 1.78,
	"learning_rate": 4.6287276066082516e-05,
	"loss": 1.4375,
	"step": 2500
	},
	{
	"epoch": 1.79,
	"learning_rate": 4.6228329216289475e-05,
	"loss": 1.4006,
	"step": 2520
	},
	{
	"epoch": 1.81,
	"learning_rate": 4.616895624737957e-05,
	"loss": 1.4223,
	"step": 2540
	},
	{
	"epoch": 1.82,
	"learning_rate": 4.6109158351154416e-05,
	"loss": 1.427,
	"step": 2560
	},
	{
	"epoch": 1.83,
	"learning_rate": 4.6048936727945255e-05,
	"loss": 1.4096,
	"step": 2580
	},
	{
	"epoch": 1.85,
	"learning_rate": 4.598829258658885e-05,
	"loss": 1.4169,
	"step": 2600
	},
	{
	"epoch": 1.86,
	"learning_rate": 4.592722714440324e-05,
	"loss": 1.3977,
	"step": 2620
	},
	{
	"epoch": 1.88,
	"learning_rate": 4.586574162716328e-05,
	"loss": 1.4158,
	"step": 2640
	},
	{
	"epoch": 1.89,
	"learning_rate": 4.5803837269076073e-05,
	"loss": 1.384,
	"step": 2660
	},
	{
	"epoch": 1.91,
	"learning_rate": 4.5741515312756125e-05,
	"loss": 1.4171,
	"step": 2680
	},
	{
	"epoch": 1.92,
	"learning_rate": 4.567877700920049e-05,
	"loss": 1.4323,
	"step": 2700
	},
	{
	"epoch": 1.93,
	"learning_rate": 4.5615623617763606e-05,
	"loss": 1.4126,
	"step": 2720
	},
	{
	"epoch": 1.95,
	"learning_rate": 4.5552056406132003e-05,
	"loss": 1.4159,
	"step": 2740
	},
	{
	"epoch": 1.96,
	"learning_rate": 4.548807665029892e-05,
	"loss": 1.4213,
	"step": 2760
	},
	{
	"epoch": 1.98,
	"learning_rate": 4.542368563453861e-05,
	"loss": 1.4013,
	"step": 2780
	},
	{
	"epoch": 1.99,
	"learning_rate": 4.535888465138063e-05,
	"loss": 1.4365,
	"step": 2800
	},
	{
	"epoch": 2.0,
	"eval_loss": 1.322860598564148,
	"eval_runtime": 293.5153,
	"eval_samples_per_second": 18.953,
	"eval_steps_per_second": 18.953,
	"step": 2812
	},
	{
	"epoch": 2.01,
	"learning_rate": 4.529367500158386e-05,
	"loss": 1.4108,
	"step": 2820
	},
	{
	"epoch": 2.02,
	"learning_rate": 4.522805799411039e-05,
	"loss": 1.3878,
	"step": 2840
	},
	{
	"epoch": 2.03,
	"learning_rate": 4.5162034946099277e-05,
	"loss": 1.3769,
	"step": 2860
	},
	{
	"epoch": 2.05,
	"learning_rate": 4.509560718284007e-05,
	"loss": 1.3847,
	"step": 2880
	},
	{
	"epoch": 2.06,
	"learning_rate": 4.502877603774622e-05,
	"loss": 1.3739,
	"step": 2900
	},
	{
	"epoch": 2.08,
	"learning_rate": 4.496154285232833e-05,
	"loss": 1.3955,
	"step": 2920
	},
	{
	"epoch": 2.09,
	"learning_rate": 4.489390897616719e-05,
	"loss": 1.38,
	"step": 2940
	},
	{
	"epoch": 2.1,
	"learning_rate": 4.482587576688673e-05,
	"loss": 1.4026,
	"step": 2960
	},
	{
	"epoch": 2.12,
	"learning_rate": 4.4757444590126736e-05,
	"loss": 1.4067,
	"step": 2980
	},
	{
	"epoch": 2.13,
	"learning_rate": 4.4688616819515464e-05,
	"loss": 1.39,
	"step": 3000
	},
	{
	"epoch": 2.15,
	"learning_rate": 4.461939383664202e-05,
	"loss": 1.3842,
	"step": 3020
	},
	{
	"epoch": 2.16,
	"learning_rate": 4.45497770310287e-05,
	"loss": 1.3987,
	"step": 3040
	},
	{
	"epoch": 2.18,
	"learning_rate": 4.4479767800103036e-05,
	"loss": 1.4043,
	"step": 3060
	},
	{
	"epoch": 2.19,
	"learning_rate": 4.4409367549169764e-05,
	"loss": 1.4022,
	"step": 3080
	},
	{
	"epoch": 2.2,
	"learning_rate": 4.433857769138261e-05,
	"loss": 1.3969,
	"step": 3100
	},
	{
	"epoch": 2.22,
	"learning_rate": 4.426739964771595e-05,
	"loss": 1.3893,
	"step": 3120
	},
	{
	"epoch": 2.23,
	"learning_rate": 4.4195834846936264e-05,
	"loss": 1.3609,
	"step": 3140
	},
	{
	"epoch": 2.25,
	"learning_rate": 4.4123884725573446e-05,
	"loss": 1.3734,
	"step": 3160
	},
	{
	"epoch": 2.26,
	"learning_rate": 4.4051550727892e-05,
	"loss": 1.3975,
	"step": 3180
	},
	{
	"epoch": 2.28,
	"learning_rate": 4.3978834305862004e-05,
	"loss": 1.4096,
	"step": 3200
	},
	{
	"epoch": 2.29,
	"learning_rate": 4.3905736919130034e-05,
	"loss": 1.3754,
	"step": 3220
	},
	{
	"epoch": 2.3,
	"learning_rate": 4.383226003498978e-05,
	"loss": 1.3734,
	"step": 3240
	},
	{
	"epoch": 2.32,
	"learning_rate": 4.375840512835266e-05,
	"loss": 1.3869,
	"step": 3260
	},
	{
	"epoch": 2.33,
	"learning_rate": 4.368417368171819e-05,
	"loss": 1.3934,
	"step": 3280
	},
	{
	"epoch": 2.35,
	"learning_rate": 4.3609567185144184e-05,
	"loss": 1.3855,
	"step": 3300
	},
	{
	"epoch": 2.36,
	"learning_rate": 4.3534587136216944e-05,
	"loss": 1.369,
	"step": 3320
	},
	{
	"epoch": 2.37,
	"learning_rate": 4.345923504002111e-05,
	"loss": 1.3785,
	"step": 3340
	},
	{
	"epoch": 2.39,
	"learning_rate": 4.338351240910945e-05,
	"loss": 1.393,
	"step": 3360
	},
	{
	"epoch": 2.4,
	"learning_rate": 4.330742076347258e-05,
	"loss": 1.3925,
	"step": 3380
	},
	{
	"epoch": 2.42,
	"learning_rate": 4.3230961630508354e-05,
	"loss": 1.3671,
	"step": 3400
	},
	{
	"epoch": 2.43,
	"learning_rate": 4.315413654499128e-05,
	"loss": 1.3622,
	"step": 3420
	},
	{
	"epoch": 2.45,
	"learning_rate": 4.307694704904165e-05,
	"loss": 1.4037,
	"step": 3440
	},
	{
	"epoch": 2.46,
	"learning_rate": 4.299939469209463e-05,
	"loss": 1.3907,
	"step": 3460
	},
	{
	"epoch": 2.47,
	"learning_rate": 4.292148103086917e-05,
	"loss": 1.3804,
	"step": 3480
	},
	{
	"epoch": 2.49,
	"learning_rate": 4.2843207629336694e-05,
	"loss": 1.3576,
	"step": 3500
	},
	{
	"epoch": 2.5,
	"learning_rate": 4.2764576058689735e-05,
	"loss": 1.3648,
	"step": 3520
	},
	{
	"epoch": 2.52,
	"learning_rate": 4.268558789731044e-05,
	"loss": 1.3788,
	"step": 3540
	},
	{
	"epoch": 2.53,
	"learning_rate": 4.260624473073883e-05,
	"loss": 1.3793,
	"step": 3560
	},
	{
	"epoch": 2.55,
	"learning_rate": 4.2526548151640986e-05,
	"loss": 1.369,
	"step": 3580
	},
	{
	"epoch": 2.56,
	"learning_rate": 4.24464997597771e-05,
	"loss": 1.3906,
	"step": 3600
	},
	{
	"epoch": 2.57,
	"learning_rate": 4.236610116196934e-05,
	"loss": 1.372,
	"step": 3620
	},
	{
	"epoch": 2.59,
	"learning_rate": 4.228535397206962e-05,
	"loss": 1.3862,
	"step": 3640
	},
	{
	"epoch": 2.6,
	"learning_rate": 4.220425981092716e-05,
	"loss": 1.3766,
	"step": 3660
	},
	{
	"epoch": 2.62,
	"learning_rate": 4.212282030635601e-05,
	"loss": 1.3562,
	"step": 3680
	},
	{
	"epoch": 2.63,
	"learning_rate": 4.204103709310234e-05,
	"loss": 1.3607,
	"step": 3700
	},
	{
	"epoch": 2.64,
	"learning_rate": 4.195891181281161e-05,
	"loss": 1.3606,
	"step": 3720
	},
	{
	"epoch": 2.66,
	"learning_rate": 4.187644611399566e-05,
	"loss": 1.3515,
	"step": 3740
	},
	{
	"epoch": 2.67,
	"learning_rate": 4.17936416519996e-05,
	"loss": 1.3694,
	"step": 3760
	},
	{
	"epoch": 2.69,
	"learning_rate": 4.171050008896855e-05,
	"loss": 1.3653,
	"step": 3780
	},
	{
	"epoch": 2.7,
	"learning_rate": 4.162702309381434e-05,
	"loss": 1.3715,
	"step": 3800
	},
	{
	"epoch": 2.72,
	"learning_rate": 4.1543212342181956e-05,
	"loss": 1.3815,
	"step": 3820
	},
	{
	"epoch": 2.73,
	"learning_rate": 4.1459069516415916e-05,
	"loss": 1.3878,
	"step": 3840
	},
	{
	"epoch": 2.74,
	"learning_rate": 4.137459630552652e-05,
	"loss": 1.3602,
	"step": 3860
	},
	{
	"epoch": 2.76,
	"learning_rate": 4.128979440515594e-05,
	"loss": 1.3957,
	"step": 3880
	},
	{
	"epoch": 2.77,
	"learning_rate": 4.1204665517544144e-05,
	"loss": 1.378,
	"step": 3900
	},
	{
	"epoch": 2.79,
	"learning_rate": 4.1119211351494795e-05,
	"loss": 1.3614,
	"step": 3920
	},
	{
	"epoch": 2.8,
	"learning_rate": 4.103343362234089e-05,
	"loss": 1.3419,
	"step": 3940
	},
	{
	"epoch": 2.82,
	"learning_rate": 4.0947334051910367e-05,
	"loss": 1.3703,
	"step": 3960
	},
	{
	"epoch": 2.83,
	"learning_rate": 4.086091436849153e-05,
	"loss": 1.3718,
	"step": 3980
	},
	{
	"epoch": 2.84,
	"learning_rate": 4.077417630679833e-05,
	"loss": 1.3641,
	"step": 4000
	},
	{
	"epoch": 2.86,
	"learning_rate": 4.068712160793559e-05,
	"loss": 1.3822,
	"step": 4020
	},
	{
	"epoch": 2.87,
	"learning_rate": 4.0599752019364026e-05,
	"loss": 1.3544,
	"step": 4040
	},
	{
	"epoch": 2.89,
	"learning_rate": 4.0512069294865176e-05,
	"loss": 1.3798,
	"step": 4060
	},
	{
	"epoch": 2.9,
	"learning_rate": 4.042407519450619e-05,
	"loss": 1.3541,
	"step": 4080
	},
	{
	"epoch": 2.92,
	"learning_rate": 4.033577148460456e-05,
	"loss": 1.3515,
	"step": 4100
	},
	{
	"epoch": 2.93,
	"learning_rate": 4.024715993769253e-05,
	"loss": 1.3719,
	"step": 4120
	},
	{
	"epoch": 2.94,
	"learning_rate": 4.0158242332481654e-05,
	"loss": 1.3501,
	"step": 4140
	},
	{
	"epoch": 2.96,
	"learning_rate": 4.006902045382701e-05,
	"loss": 1.3602,
	"step": 4160
	},
	{
	"epoch": 2.97,
	"learning_rate": 3.997949609269143e-05,
	"loss": 1.3868,
	"step": 4180
	},
	{
	"epoch": 2.99,
	"learning_rate": 3.9889671046109464e-05,
	"loss": 1.3339,
	"step": 4200
	},
	{
	"epoch": 3.0,
	"eval_loss": 1.2688919305801392,
	"eval_runtime": 293.871,
	"eval_samples_per_second": 18.93,
	"eval_steps_per_second": 18.93,
	"step": 4219
	},
	{
	"epoch": 3.0,
	"learning_rate": 3.979954711715141e-05,
	"loss": 1.3718,
	"step": 4220
	},
	{
	"epoch": 3.01,
	"learning_rate": 3.9709126114887056e-05,
	"loss": 1.3372,
	"step": 4240
	},
	{
	"epoch": 3.03,
	"learning_rate": 3.961840985434938e-05,
	"loss": 1.3405,
	"step": 4260
	},
	{
	"epoch": 3.04,
	"learning_rate": 3.952740015649812e-05,
	"loss": 1.3063,
	"step": 4280
	},
	{
	"epoch": 3.06,
	"learning_rate": 3.9436098848183226e-05,
	"loss": 1.3516,
	"step": 4300
	},
	{
	"epoch": 3.07,
	"learning_rate": 3.9344507762108165e-05,
	"loss": 1.3381,
	"step": 4320
	},
	{
	"epoch": 3.09,
	"learning_rate": 3.925262873679319e-05,
	"loss": 1.3372,
	"step": 4340
	},
	{
	"epoch": 3.1,
	"learning_rate": 3.916046361653836e-05,
	"loss": 1.3479,
	"step": 4360
	},
	{
	"epoch": 3.11,
	"learning_rate": 3.906801425138656e-05,
	"loss": 1.3488,
	"step": 4380
	},
	{
	"epoch": 3.13,
	"learning_rate": 3.89752824970864e-05,
	"loss": 1.3341,
	"step": 4400
	},
	{
	"epoch": 3.14,
	"learning_rate": 3.888227021505486e-05,
	"loss": 1.3329,
	"step": 4420
	},
	{
	"epoch": 3.16,
	"learning_rate": 3.8788979272340066e-05,
	"loss": 1.3277,
	"step": 4440
	},
	{
	"epoch": 3.17,
	"learning_rate": 3.869541154158368e-05,
	"loss": 1.3255,
	"step": 4460
	},
	{
	"epoch": 3.19,
	"learning_rate": 3.860156890098339e-05,
	"loss": 1.3301,
	"step": 4480
	},
	{
	"epoch": 3.2,
	"learning_rate": 3.8507453234255176e-05,
	"loss": 1.3635,
	"step": 4500
	},
	{
	"epoch": 3.21,
	"learning_rate": 3.841306643059552e-05,
	"loss": 1.352,
	"step": 4520
	},
	{
	"epoch": 3.23,
	"learning_rate": 3.8318410384643485e-05,
	"loss": 1.3335,
	"step": 4540
	},
	{
	"epoch": 3.24,
	"learning_rate": 3.822348699644264e-05,
	"loss": 1.347,
	"step": 4560
	},
	{
	"epoch": 3.26,
	"learning_rate": 3.812829817140295e-05,
	"loss": 1.3573,
	"step": 4580
	},
	{
	"epoch": 3.27,
	"learning_rate": 3.8032845820262575e-05,
	"loss": 1.3265,
	"step": 4600
	},
	{
	"epoch": 3.28,
	"learning_rate": 3.793713185904942e-05,
	"loss": 1.3245,
	"step": 4620
	},
	{
	"epoch": 3.3,
	"learning_rate": 3.7841158209042756e-05,
	"loss": 1.3562,
	"step": 4640
	},
	{
	"epoch": 3.31,
	"learning_rate": 3.7744926796734596e-05,
	"loss": 1.3456,
	"step": 4660
	},
	{
	"epoch": 3.33,
	"learning_rate": 3.764843955379107e-05,
	"loss": 1.3481,
	"step": 4680
	},
	{
	"epoch": 3.34,
	"learning_rate": 3.7551698417013635e-05,
	"loss": 1.3365,
	"step": 4700
	},
	{
	"epoch": 3.36,
	"learning_rate": 3.7454705328300164e-05,
	"loss": 1.3182,
	"step": 4720
	},
	{
	"epoch": 3.37,
	"learning_rate": 3.735746223460604e-05,
	"loss": 1.3323,
	"step": 4740
	},
	{
	"epoch": 3.38,
	"learning_rate": 3.7259971087904984e-05,
	"loss": 1.3532,
	"step": 4760
	},
	{
	"epoch": 3.4,
	"learning_rate": 3.7162233845149944e-05,
	"loss": 1.3528,
	"step": 4780
	},
	{
	"epoch": 3.41,
	"learning_rate": 3.706425246823378e-05,
	"loss": 1.3237,
	"step": 4800
	},
	{
	"epoch": 3.43,
	"learning_rate": 3.69660289239499e-05,
	"loss": 1.3385,
	"step": 4820
	},
	{
	"epoch": 3.44,
	"learning_rate": 3.6867565183952764e-05,
	"loss": 1.3365,
	"step": 4840
	},
	{
	"epoch": 3.46,
	"learning_rate": 3.67688632247183e-05,
	"loss": 1.3413,
	"step": 4860
	},
	{
	"epoch": 3.47,
	"learning_rate": 3.666992502750426e-05,
	"loss": 1.3248,
	"step": 4880
	},
	{
	"epoch": 3.48,
	"learning_rate": 3.657075257831043e-05,
	"loss": 1.3233,
	"step": 4900
	},
	{
	"epoch": 3.5,
	"learning_rate": 3.6471347867838766e-05,
	"loss": 1.3589,
	"step": 4920
	},
	{
	"epoch": 3.51,
	"learning_rate": 3.6371712891453424e-05,
	"loss": 1.3205,
	"step": 4940
	},
	{
	"epoch": 3.53,
	"learning_rate": 3.627184964914074e-05,
	"loss": 1.348,
	"step": 4960
	},
	{
	"epoch": 3.54,
	"learning_rate": 3.617176014546906e-05,
	"loss": 1.3263,
	"step": 4980
	},
	{
	"epoch": 3.56,
	"learning_rate": 3.607144638954847e-05,
	"loss": 1.3229,
	"step": 5000
	},
	{
	"epoch": 3.57,
	"learning_rate": 3.597091039499055e-05,
	"loss": 1.3347,
	"step": 5020
	},
	{
	"epoch": 3.58,
	"learning_rate": 3.587015417986788e-05,
	"loss": 1.3557,
	"step": 5040
	},
	{
	"epoch": 3.6,
	"learning_rate": 3.576917976667357e-05,
	"loss": 1.3575,
	"step": 5060
	},
	{
	"epoch": 3.61,
	"learning_rate": 3.566798918228062e-05,
	"loss": 1.3521,
	"step": 5080
	},
	{
	"epoch": 3.63,
	"learning_rate": 3.5566584457901304e-05,
	"loss": 1.3316,
	"step": 5100
	},
	{
	"epoch": 3.64,
	"learning_rate": 3.546496762904633e-05,
	"loss": 1.3566,
	"step": 5120
	},
	{
	"epoch": 3.65,
	"learning_rate": 3.536314073548402e-05,
	"loss": 1.3319,
	"step": 5140
	},
	{
	"epoch": 3.67,
	"learning_rate": 3.5261105821199344e-05,
	"loss": 1.3249,
	"step": 5160
	},
	{
	"epoch": 3.68,
	"learning_rate": 3.515886493435291e-05,
	"loss": 1.3314,
	"step": 5180
	},
	{
	"epoch": 3.7,
	"learning_rate": 3.505642012723983e-05,
	"loss": 1.332,
	"step": 5200
	},
	{
	"epoch": 3.71,
	"learning_rate": 3.495377345624854e-05,
	"loss": 1.3011,
	"step": 5220
	},
	{
	"epoch": 3.73,
	"learning_rate": 3.4850926981819525e-05,
	"loss": 1.3297,
	"step": 5240
	},
	{
	"epoch": 3.74,
	"learning_rate": 3.4747882768403947e-05,
	"loss": 1.3344,
	"step": 5260
	},
	{
	"epoch": 3.75,
	"learning_rate": 3.464464288442219e-05,
	"loss": 1.3394,
	"step": 5280
	},
	{
	"epoch": 3.77,
	"learning_rate": 3.4541209402222396e-05,
	"loss": 1.3508,
	"step": 5300
	},
	{
	"epoch": 3.78,
	"learning_rate": 3.443758439803879e-05,
	"loss": 1.3295,
	"step": 5320
	},
	{
	"epoch": 3.8,
	"learning_rate": 3.433376995195008e-05,
	"loss": 1.3462,
	"step": 5340
	},
	{
	"epoch": 3.81,
	"learning_rate": 3.422976814783765e-05,
	"loss": 1.3473,
	"step": 5360
	},
	{
	"epoch": 3.83,
	"learning_rate": 3.4125581073343735e-05,
	"loss": 1.3127,
	"step": 5380
	},
	{
	"epoch": 3.84,
	"learning_rate": 3.4021210819829555e-05,
	"loss": 1.3589,
	"step": 5400
	},
	{
	"epoch": 3.85,
	"learning_rate": 3.391665948233328e-05,
	"loss": 1.3337,
	"step": 5420
	},
	{
	"epoch": 3.87,
	"learning_rate": 3.3811929159528024e-05,
	"loss": 1.3286,
	"step": 5440
	},
	{
	"epoch": 3.88,
	"learning_rate": 3.370702195367967e-05,
	"loss": 1.3482,
	"step": 5460
	},
	{
	"epoch": 3.9,
	"learning_rate": 3.360193997060475e-05,
	"loss": 1.3791,
	"step": 5480
	},
	{
	"epoch": 3.91,
	"learning_rate": 3.349668531962807e-05,
	"loss": 1.3573,
	"step": 5500
	},
	{
	"epoch": 3.92,
	"learning_rate": 3.339126011354044e-05,
	"loss": 1.3294,
	"step": 5520
	},
	{
	"epoch": 3.94,
	"learning_rate": 3.328566646855625e-05,
	"loss": 1.3581,
	"step": 5540
	},
	{
	"epoch": 3.95,
	"learning_rate": 3.3179906504270996e-05,
	"loss": 1.3494,
	"step": 5560
	},
	{
	"epoch": 3.97,
	"learning_rate": 3.30739823436187e-05,
	"loss": 1.3135,
	"step": 5580
	},
	{
	"epoch": 3.98,
	"learning_rate": 3.2967896112829324e-05,
	"loss": 1.3276,
	"step": 5600
	},
	{
	"epoch": 4.0,
	"learning_rate": 3.286164994138612e-05,
	"loss": 1.2934,
	"step": 5620
	},
	{
	"epoch": 4.0,
	"eval_loss": 1.2395237684249878,
	"eval_runtime": 294.4154,
	"eval_samples_per_second": 18.895,
	"eval_steps_per_second": 18.895,
	"step": 5625
	},
	{
	"epoch": 4.01,
	"learning_rate": 3.27552459619828e-05,
	"loss": 1.3163,
	"step": 5640
	},
	{
	"epoch": 4.02,
	"learning_rate": 3.26486863104808e-05,
	"loss": 1.3012,
	"step": 5660
	},
	{
	"epoch": 4.04,
	"learning_rate": 3.25419731258664e-05,
	"loss": 1.3086,
	"step": 5680
	},
	{
	"epoch": 4.05,
	"learning_rate": 3.2435108550207746e-05,
	"loss": 1.3261,
	"step": 5700
	},
	{
	"epoch": 4.07,
	"learning_rate": 3.232809472861189e-05,
	"loss": 1.2945,
	"step": 5720
	},
	{
	"epoch": 4.08,
	"learning_rate": 3.22209338091817e-05,
	"loss": 1.3301,
	"step": 5740
	},
	{
	"epoch": 4.1,
	"learning_rate": 3.211362794297278e-05,
	"loss": 1.3291,
	"step": 5760
	},
	{
	"epoch": 4.11,
	"learning_rate": 3.200617928395028e-05,
	"loss": 1.3276,
	"step": 5780
	},
	{
	"epoch": 4.12,
	"learning_rate": 3.1898589988945596e-05,
	"loss": 1.3336,
	"step": 5800
	},
	{
	"epoch": 4.14,
	"learning_rate": 3.179086221761319e-05,
	"loss": 1.3275,
	"step": 5820
	},
	{
	"epoch": 4.15,
	"learning_rate": 3.1682998132387146e-05,
	"loss": 1.3114,
	"step": 5840
	},
	{
	"epoch": 4.17,
	"learning_rate": 3.15749998984378e-05,
	"loss": 1.3157,
	"step": 5860
	},
	{
	"epoch": 4.18,
	"learning_rate": 3.146686968362827e-05,
	"loss": 1.3239,
	"step": 5880
	},
	{
	"epoch": 4.19,
	"learning_rate": 3.135860965847096e-05,
	"loss": 1.3204,
	"step": 5900
	},
	{
	"epoch": 4.21,
	"learning_rate": 3.125022199608396e-05,
	"loss": 1.3188,
	"step": 5920
	},
	{
	"epoch": 4.22,
	"learning_rate": 3.114170887214744e-05,
	"loss": 1.3278,
	"step": 5940
	},
	{
	"epoch": 4.24,
	"learning_rate": 3.103307246485997e-05,
	"loss": 1.3028,
	"step": 5960
	},
	{
	"epoch": 4.25,
	"learning_rate": 3.092431495489484e-05,
	"loss": 1.3337,
	"step": 5980
	},
	{
	"epoch": 4.27,
	"learning_rate": 3.0815438525356194e-05,
	"loss": 1.3049,
	"step": 6000
	},
	{
	"epoch": 4.28,
	"learning_rate": 3.070644536173531e-05,
	"loss": 1.2932,
	"step": 6020
	},
	{
	"epoch": 4.29,
	"learning_rate": 3.059733765186666e-05,
	"loss": 1.3111,
	"step": 6040
	},
	{
	"epoch": 4.31,
	"learning_rate": 3.0488117585884037e-05,
	"loss": 1.3193,
	"step": 6060
	},
	{
	"epoch": 4.32,
	"learning_rate": 3.0378787356176557e-05,
	"loss": 1.3272,
	"step": 6080
	},
	{
	"epoch": 4.34,
	"learning_rate": 3.0269349157344667e-05,
	"loss": 1.3487,
	"step": 6100
	},
	{
	"epoch": 4.35,
	"learning_rate": 3.015980518615611e-05,
	"loss": 1.3073,
	"step": 6120
	},
	{
	"epoch": 4.37,
	"learning_rate": 3.0050157641501803e-05,
	"loss": 1.3302,
	"step": 6140
	},
	{
	"epoch": 4.38,
	"learning_rate": 2.9940408724351694e-05,
	"loss": 1.3362,
	"step": 6160
	},
	{
	"epoch": 4.39,
	"learning_rate": 2.9830560637710614e-05,
	"loss": 1.3129,
	"step": 6180
	},
	{
	"epoch": 4.41,
	"learning_rate": 2.972061558657403e-05,
	"loss": 1.3349,
	"step": 6200
	},
	{
	"epoch": 4.42,
	"learning_rate": 2.9610575777883785e-05,
	"loss": 1.3177,
	"step": 6220
	},
	{
	"epoch": 4.44,
	"learning_rate": 2.9500443420483815e-05,
	"loss": 1.2792,
	"step": 6240
	},
	{
	"epoch": 4.45,
	"learning_rate": 2.9390220725075778e-05,
	"loss": 1.3178,
	"step": 6260
	},
	{
	"epoch": 4.47,
	"learning_rate": 2.9279909904174717e-05,
	"loss": 1.3395,
	"step": 6280
	},
	{
	"epoch": 4.48,
	"learning_rate": 2.9169513172064634e-05,
	"loss": 1.3145,
	"step": 6300
	},
	{
	"epoch": 4.49,
	"learning_rate": 2.9059032744754022e-05,
	"loss": 1.3135,
	"step": 6320
	},
	{
	"epoch": 4.51,
	"learning_rate": 2.8948470839931403e-05,
	"loss": 1.3209,
	"step": 6340
	},
	{
	"epoch": 4.52,
	"learning_rate": 2.883782967692082e-05,
	"loss": 1.3101,
	"step": 6360
	},
	{
	"epoch": 4.54,
	"learning_rate": 2.872711147663726e-05,
	"loss": 1.2866,
	"step": 6380
	},
	{
	"epoch": 4.55,
	"learning_rate": 2.8616318461542102e-05,
	"loss": 1.3182,
	"step": 6400
	},
	{
	"epoch": 4.56,
	"learning_rate": 2.8505452855598492e-05,
	"loss": 1.3071,
	"step": 6420
	},
	{
	"epoch": 4.58,
	"learning_rate": 2.8394516884226683e-05,
	"loss": 1.327,
	"step": 6440
	},
	{
	"epoch": 4.59,
	"learning_rate": 2.8283512774259414e-05,
	"loss": 1.3216,
	"step": 6460
	},
	{
	"epoch": 4.61,
	"learning_rate": 2.817244275389716e-05,
	"loss": 1.3102,
	"step": 6480
	},
	{
	"epoch": 4.62,
	"learning_rate": 2.806130905266342e-05,
	"loss": 1.3132,
	"step": 6500
	},
	{
	"epoch": 4.64,
	"learning_rate": 2.7950113901359974e-05,
	"loss": 1.3149,
	"step": 6520
	},
	{
	"epoch": 4.65,
	"learning_rate": 2.7838859532022116e-05,
	"loss": 1.3245,
	"step": 6540
	},
	{
	"epoch": 4.66,
	"learning_rate": 2.7727548177873798e-05,
	"loss": 1.3162,
	"step": 6560
	},
	{
	"epoch": 4.68,
	"learning_rate": 2.7616182073282854e-05,
	"loss": 1.3013,
	"step": 6580
	},
	{
	"epoch": 4.69,
	"learning_rate": 2.7504763453716132e-05,
	"loss": 1.2989,
	"step": 6600
	},
	{
	"epoch": 4.71,
	"learning_rate": 2.7393294555694614e-05,
	"loss": 1.3003,
	"step": 6620
	},
	{
	"epoch": 4.72,
	"learning_rate": 2.728177761674854e-05,
	"loss": 1.3119,
	"step": 6640
	},
	{
	"epoch": 4.74,
	"learning_rate": 2.717021487537246e-05,
	"loss": 1.3289,
	"step": 6660
	},
	{
	"epoch": 4.75,
	"learning_rate": 2.7058608570980343e-05,
	"loss": 1.3347,
	"step": 6680
	},
	{
	"epoch": 4.76,
	"learning_rate": 2.6946960943860596e-05,
	"loss": 1.3238,
	"step": 6700
	},
	{
	"epoch": 4.78,
	"learning_rate": 2.6835274235131107e-05,
	"loss": 1.3368,
	"step": 6720
	},
	{
	"epoch": 4.79,
	"learning_rate": 2.6723550686694245e-05,
	"loss": 1.3092,
	"step": 6740
	},
	{
	"epoch": 4.81,
	"learning_rate": 2.661179254119187e-05,
	"loss": 1.3458,
	"step": 6760
	},
	{
	"epoch": 4.82,
	"learning_rate": 2.6500002041960338e-05,
	"loss": 1.3271,
	"step": 6780
	},
	{
	"epoch": 4.83,
	"learning_rate": 2.6388181432985405e-05,
	"loss": 1.3315,
	"step": 6800
	},
	{
	"epoch": 4.85,
	"learning_rate": 2.6276332958857246e-05,
	"loss": 1.2831,
	"step": 6820
	},
	{
	"epoch": 4.86,
	"learning_rate": 2.6164458864725384e-05,
	"loss": 1.3122,
	"step": 6840
	},
	{
	"epoch": 4.88,
	"learning_rate": 2.6052561396253595e-05,
	"loss": 1.3207,
	"step": 6860
	},
	{
	"epoch": 4.89,
	"learning_rate": 2.5940642799574876e-05,
	"loss": 1.3178,
	"step": 6880
	},
	{
	"epoch": 4.91,
	"learning_rate": 2.5828705321246304e-05,
	"loss": 1.2852,
	"step": 6900
	},
	{
	"epoch": 4.92,
	"learning_rate": 2.5716751208204e-05,
	"loss": 1.292,
	"step": 6920
	},
	{
	"epoch": 4.93,
	"learning_rate": 2.560478270771798e-05,
	"loss": 1.3149,
	"step": 6940
	},
	{
	"epoch": 4.95,
	"learning_rate": 2.549280206734705e-05,
	"loss": 1.2975,
	"step": 6960
	},
	{
	"epoch": 4.96,
	"learning_rate": 2.538081153489373e-05,
	"loss": 1.3232,
	"step": 6980
	},
	{
	"epoch": 4.98,
	"learning_rate": 2.5268813358359084e-05,
	"loss": 1.3329,
	"step": 7000
	},
	{
	"epoch": 4.99,
	"learning_rate": 2.5156809785897623e-05,
	"loss": 1.3202,
	"step": 7020
	},
	{
	"epoch": 5.0,
	"eval_loss": 1.2252917289733887,
	"eval_runtime": 294.3042,
	"eval_samples_per_second": 18.902,
	"eval_steps_per_second": 18.902,
	"step": 7032
	},
	{
	"epoch": 5.01,
	"learning_rate": 2.5044803065772165e-05,
	"loss": 1.3016,
	"step": 7040
	},
	{
	"epoch": 5.02,
	"learning_rate": 2.4932795446308734e-05,
	"loss": 1.2747,
	"step": 7060
	},
	{
	"epoch": 5.03,
	"learning_rate": 2.482078917585136e-05,
	"loss": 1.3207,
	"step": 7080
	},
	{
	"epoch": 5.05,
	"learning_rate": 2.4708786502717054e-05,
	"loss": 1.2924,
	"step": 7100
	},
	{
	"epoch": 5.06,
	"learning_rate": 2.4596789675150577e-05,
	"loss": 1.3039,
	"step": 7120
	},
	{
	"epoch": 5.08,
	"learning_rate": 2.4484800941279355e-05,
	"loss": 1.2891,
	"step": 7140
	},
	{
	"epoch": 5.09,
	"learning_rate": 2.4372822549068354e-05,
	"loss": 1.3055,
	"step": 7160
	},
	{
	"epoch": 5.1,
	"learning_rate": 2.4260856746274963e-05,
	"loss": 1.3284,
	"step": 7180
	},
	{
	"epoch": 5.12,
	"learning_rate": 2.4148905780403844e-05,
	"loss": 1.31,
	"step": 7200
	},
	{
	"epoch": 5.13,
	"learning_rate": 2.4036971898661832e-05,
	"loss": 1.2969,
	"step": 7220
	},
	{
	"epoch": 5.15,
	"learning_rate": 2.392505734791285e-05,
	"loss": 1.2862,
	"step": 7240
	},
	{
	"epoch": 5.16,
	"learning_rate": 2.3813164374632775e-05,
	"loss": 1.2984,
	"step": 7260
	},
	{
	"epoch": 5.18,
	"learning_rate": 2.3701295224864356e-05,
	"loss": 1.2816,
	"step": 7280
	},
	{
	"epoch": 5.19,
	"learning_rate": 2.3589452144172137e-05,
	"loss": 1.3104,
	"step": 7300
	},
	{
	"epoch": 5.2,
	"learning_rate": 2.347763737759736e-05,
	"loss": 1.3174,
	"step": 7320
	},
	{
	"epoch": 5.22,
	"learning_rate": 2.336585316961292e-05,
	"loss": 1.2857,
	"step": 7340
	},
	{
	"epoch": 5.23,
	"learning_rate": 2.325410176407833e-05,
	"loss": 1.3064,
	"step": 7360
	},
	{
	"epoch": 5.25,
	"learning_rate": 2.314238540419461e-05,
	"loss": 1.3106,
	"step": 7380
	},
	{
	"epoch": 5.26,
	"learning_rate": 2.303070633245933e-05,
	"loss": 1.286,
	"step": 7400
	},
	{
	"epoch": 5.28,
	"learning_rate": 2.2919066790621575e-05,
	"loss": 1.3003,
	"step": 7420
	},
	{
	"epoch": 5.29,
	"learning_rate": 2.280746901963693e-05,
	"loss": 1.3026,
	"step": 7440
	},
	{
	"epoch": 5.3,
	"learning_rate": 2.26959152596225e-05,
	"loss": 1.3179,
	"step": 7460
	},
	{
	"epoch": 5.32,
	"learning_rate": 2.2584407749811985e-05,
	"loss": 1.3108,
	"step": 7480
	},
	{
	"epoch": 5.33,
	"learning_rate": 2.2472948728510664e-05,
	"loss": 1.2946,
	"step": 7500
	},
	{
	"epoch": 5.35,
	"learning_rate": 2.2361540433050492e-05,
	"loss": 1.2609,
	"step": 7520
	},
	{
	"epoch": 5.36,
	"learning_rate": 2.2250185099745253e-05,
	"loss": 1.3279,
	"step": 7540
	},
	{
	"epoch": 5.38,
	"learning_rate": 2.213888496384556e-05,
	"loss": 1.3078,
	"step": 7560
	},
	{
	"epoch": 5.39,
	"learning_rate": 2.2027642259494046e-05,
	"loss": 1.3185,
	"step": 7580
	},
	{
	"epoch": 5.4,
	"learning_rate": 2.1916459219680557e-05,
	"loss": 1.3063,
	"step": 7600
	},
	{
	"epoch": 5.42,
	"learning_rate": 2.1805338076197234e-05,
	"loss": 1.3001,
	"step": 7620
	},
	{
	"epoch": 5.43,
	"learning_rate": 2.169428105959378e-05,
	"loss": 1.3317,
	"step": 7640
	},
	{
	"epoch": 5.45,
	"learning_rate": 2.1583290399132695e-05,
	"loss": 1.3007,
	"step": 7660
	},
	{
	"epoch": 5.46,
	"learning_rate": 2.147236832274447e-05,
	"loss": 1.3081,
	"step": 7680
	},
	{
	"epoch": 5.47,
	"learning_rate": 2.1361517056982903e-05,
	"loss": 1.2867,
	"step": 7700
	},
	{
	"epoch": 5.49,
	"learning_rate": 2.1250738826980432e-05,
	"loss": 1.3427,
	"step": 7720
	},
	{
	"epoch": 5.5,
	"learning_rate": 2.1140035856403405e-05,
	"loss": 1.2951,
	"step": 7740
	},
	{
	"epoch": 5.52,
	"learning_rate": 2.1029410367407476e-05,
	"loss": 1.3178,
	"step": 7760
	},
	{
	"epoch": 5.53,
	"learning_rate": 2.0918864580593034e-05,
	"loss": 1.3031,
	"step": 7780
	},
	{
	"epoch": 5.55,
	"learning_rate": 2.0808400714960567e-05,
	"loss": 1.2934,
	"step": 7800
	},
	{
	"epoch": 5.56,
	"learning_rate": 2.0698020987866153e-05,
	"loss": 1.3317,
	"step": 7820
	},
	{
	"epoch": 5.57,
	"learning_rate": 2.058772761497694e-05,
	"loss": 1.2851,
	"step": 7840
	},
	{
	"epoch": 5.59,
	"learning_rate": 2.047752281022671e-05,
	"loss": 1.3029,
	"step": 7860
	},
	{
	"epoch": 5.6,
	"learning_rate": 2.0367408785771353e-05,
	"loss": 1.3084,
	"step": 7880
	},
	{
	"epoch": 5.62,
	"learning_rate": 2.0257387751944556e-05,
	"loss": 1.3114,
	"step": 7900
	},
	{
	"epoch": 5.63,
	"learning_rate": 2.014746191721337e-05,
	"loss": 1.3015,
	"step": 7920
	},
	{
	"epoch": 5.65,
	"learning_rate": 2.003763348813391e-05,
	"loss": 1.2976,
	"step": 7940
	},
	{
	"epoch": 5.66,
	"learning_rate": 1.992790466930706e-05,
	"loss": 1.3081,
	"step": 7960
	},
	{
	"epoch": 5.67,
	"learning_rate": 1.98182776633342e-05,
	"loss": 1.3105,
	"step": 7980
	},
	{
	"epoch": 5.69,
	"learning_rate": 1.9708754670773005e-05,
	"loss": 1.3172,
	"step": 8000
	},
	{
	"epoch": 5.7,
	"learning_rate": 1.9599337890093302e-05,
	"loss": 1.3233,
	"step": 8020
	},
	{
	"epoch": 5.72,
	"learning_rate": 1.9490029517632884e-05,
	"loss": 1.3026,
	"step": 8040
	},
	{
	"epoch": 5.73,
	"learning_rate": 1.9380831747553458e-05,
	"loss": 1.2666,
	"step": 8060
	},
	{
	"epoch": 5.74,
	"learning_rate": 1.9271746771796607e-05,
	"loss": 1.3369,
	"step": 8080
	},
	{
	"epoch": 5.76,
	"learning_rate": 1.9162776780039766e-05,
	"loss": 1.307,
	"step": 8100
	},
	{
	"epoch": 5.77,
	"learning_rate": 1.905392395965227e-05,
	"loss": 1.2926,
	"step": 8120
	},
	{
	"epoch": 5.79,
	"learning_rate": 1.8945190495651492e-05,
	"loss": 1.2972,
	"step": 8140
	},
	{
	"epoch": 5.8,
	"learning_rate": 1.8836578570658926e-05,
	"loss": 1.3041,
	"step": 8160
	},
	{
	"epoch": 5.82,
	"learning_rate": 1.872809036485637e-05,
	"loss": 1.3299,
	"step": 8180
	},
	{
	"epoch": 5.83,
	"learning_rate": 1.8619728055942254e-05,
	"loss": 1.2817,
	"step": 8200
	},
	{
	"epoch": 5.84,
	"learning_rate": 1.851149381908781e-05,
	"loss": 1.3078,
	"step": 8220
	},
	{
	"epoch": 5.86,
	"learning_rate": 1.8403389826893476e-05,
	"loss": 1.3133,
	"step": 8240
	},
	{
	"epoch": 5.87,
	"learning_rate": 1.8295418249345283e-05,
	"loss": 1.2672,
	"step": 8260
	},
	{
	"epoch": 5.89,
	"learning_rate": 1.8187581253771274e-05,
	"loss": 1.3216,
	"step": 8280
	},
	{
	"epoch": 5.9,
	"learning_rate": 1.8079881004798005e-05,
	"loss": 1.3328,
	"step": 8300
	},
	{
	"epoch": 5.92,
	"learning_rate": 1.797231966430712e-05,
	"loss": 1.2957,
	"step": 8320
	},
	{
	"epoch": 5.93,
	"learning_rate": 1.7864899391391915e-05,
	"loss": 1.3012,
	"step": 8340
	},
	{
	"epoch": 5.94,
	"learning_rate": 1.775762234231401e-05,
	"loss": 1.3287,
	"step": 8360
	},
	{
	"epoch": 5.96,
	"learning_rate": 1.7650490670460113e-05,
	"loss": 1.3065,
	"step": 8380
	},
	{
	"epoch": 5.97,
	"learning_rate": 1.7543506526298713e-05,
	"loss": 1.3226,
	"step": 8400
	},
	{
	"epoch": 5.99,
	"learning_rate": 1.7436672057336967e-05,
	"loss": 1.3222,
	"step": 8420
	},
	{
	"epoch": 6.0,
	"eval_loss": 1.2183001041412354,
	"eval_runtime": 291.6367,
	"eval_samples_per_second": 19.075,
	"eval_steps_per_second": 19.075,
	"step": 8438
	},
	{
	"epoch": 6.0,
	"learning_rate": 1.7329989408077596e-05,
	"loss": 1.3026,
	"step": 8440
	},
	{
	"epoch": 6.02,
	"learning_rate": 1.722346071997582e-05,
	"loss": 1.2731,
	"step": 8460
	},
	{
	"epoch": 6.03,
	"learning_rate": 1.7117088131396355e-05,
	"loss": 1.3217,
	"step": 8480
	},
	{
	"epoch": 6.04,
	"learning_rate": 1.701087377757053e-05,
	"loss": 1.2966,
	"step": 8500
	},
	{
	"epoch": 6.06,
	"learning_rate": 1.6904819790553407e-05,
	"loss": 1.3306,
	"step": 8520
	},
	{
	"epoch": 6.07,
	"learning_rate": 1.6798928299180978e-05,
	"loss": 1.3007,
	"step": 8540
	},
	{
	"epoch": 6.09,
	"learning_rate": 1.6693201429027427e-05,
	"loss": 1.3155,
	"step": 8560
	},
	{
	"epoch": 6.1,
	"learning_rate": 1.65876413023625e-05,
	"loss": 1.309,
	"step": 8580
	},
	{
	"epoch": 6.11,
	"learning_rate": 1.6482250038108852e-05,
	"loss": 1.2694,
	"step": 8600
	},
	{
	"epoch": 6.13,
	"learning_rate": 1.6377029751799554e-05,
	"loss": 1.3119,
	"step": 8620
	},
	{
	"epoch": 6.14,
	"learning_rate": 1.627198255553562e-05,
	"loss": 1.2952,
	"step": 8640
	},
	{
	"epoch": 6.16,
	"learning_rate": 1.6167110557943588e-05,
	"loss": 1.29,
	"step": 8660
	},
	{
	"epoch": 6.17,
	"learning_rate": 1.6062415864133213e-05,
	"loss": 1.312,
	"step": 8680
	},
	{
	"epoch": 6.19,
	"learning_rate": 1.595790057565522e-05,
	"loss": 1.312,
	"step": 8700
	},
	{
	"epoch": 6.2,
	"learning_rate": 1.5853566790459102e-05,
	"loss": 1.2913,
	"step": 8720
	},
	{
	"epoch": 6.21,
	"learning_rate": 1.574941660285098e-05,
	"loss": 1.3096,
	"step": 8740
	},
	{
	"epoch": 6.23,
	"learning_rate": 1.5645452103451657e-05,
	"loss": 1.2909,
	"step": 8760
	},
	{
	"epoch": 6.24,
	"learning_rate": 1.5541675379154548e-05,
	"loss": 1.3167,
	"step": 8780
	},
	{
	"epoch": 6.26,
	"learning_rate": 1.5438088513083826e-05,
	"loss": 1.2911,
	"step": 8800
	},
	{
	"epoch": 6.27,
	"learning_rate": 1.5334693584552655e-05,
	"loss": 1.277,
	"step": 8820
	},
	{
	"epoch": 6.29,
	"learning_rate": 1.523149266902138e-05,
	"loss": 1.2932,
	"step": 8840
	},
	{
	"epoch": 6.3,
	"learning_rate": 1.5128487838055887e-05,
	"loss": 1.2876,
	"step": 8860
	},
	{
	"epoch": 6.31,
	"learning_rate": 1.5025681159286076e-05,
	"loss": 1.3119,
	"step": 8880
	},
	{
	"epoch": 6.33,
	"learning_rate": 1.4923074696364265e-05,
	"loss": 1.2912,
	"step": 8900
	},
	{
	"epoch": 6.34,
	"learning_rate": 1.4820670508923825e-05,
	"loss": 1.2965,
	"step": 8920
	},
	{
	"epoch": 6.36,
	"learning_rate": 1.4718470652537846e-05,
	"loss": 1.3191,
	"step": 8940
	},
	{
	"epoch": 6.37,
	"learning_rate": 1.461647717867783e-05,
	"loss": 1.3124,
	"step": 8960
	},
	{
	"epoch": 6.38,
	"learning_rate": 1.4514692134672523e-05,
	"loss": 1.3195,
	"step": 8980
	},
	{
	"epoch": 6.4,
	"learning_rate": 1.4413117563666873e-05,
	"loss": 1.2738,
	"step": 9000
	},
	{
	"epoch": 6.41,
	"learning_rate": 1.431175550458094e-05,
	"loss": 1.3316,
	"step": 9020
	},
	{
	"epoch": 6.43,
	"learning_rate": 1.4210607992069003e-05,
	"loss": 1.2999,
	"step": 9040
	},
	{
	"epoch": 6.44,
	"learning_rate": 1.4109677056478748e-05,
	"loss": 1.2916,
	"step": 9060
	},
	{
	"epoch": 6.46,
	"learning_rate": 1.4008964723810459e-05,
	"loss": 1.3161,
	"step": 9080
	},
	{
	"epoch": 6.47,
	"learning_rate": 1.3908473015676359e-05,
	"loss": 1.3043,
	"step": 9100
	},
	{
	"epoch": 6.48,
	"learning_rate": 1.3808203949260098e-05,
	"loss": 1.3031,
	"step": 9120
	},
	{
	"epoch": 6.5,
	"learning_rate": 1.3708159537276161e-05,
	"loss": 1.281,
	"step": 9140
	},
	{
	"epoch": 6.51,
	"learning_rate": 1.3608341787929518e-05,
	"loss": 1.3082,
	"step": 9160
	},
	{
	"epoch": 6.53,
	"learning_rate": 1.3508752704875344e-05,
	"loss": 1.299,
	"step": 9180
	},
	{
	"epoch": 6.54,
	"learning_rate": 1.3409394287178727e-05,
	"loss": 1.3043,
	"step": 9200
	},
	{
	"epoch": 6.56,
	"learning_rate": 1.331026852927459e-05,
	"loss": 1.2931,
	"step": 9220
	},
	{
	"epoch": 6.57,
	"learning_rate": 1.3211377420927657e-05,
	"loss": 1.3138,
	"step": 9240
	},
	{
	"epoch": 6.58,
	"learning_rate": 1.311272294719249e-05,
	"loss": 1.3022,
	"step": 9260
	},
	{
	"epoch": 6.6,
	"learning_rate": 1.3014307088373637e-05,
	"loss": 1.3095,
	"step": 9280
	},
	{
	"epoch": 6.61,
	"learning_rate": 1.2916131819985933e-05,
	"loss": 1.2889,
	"step": 9300
	},
	{
	"epoch": 6.63,
	"learning_rate": 1.2818199112714779e-05,
	"loss": 1.3317,
	"step": 9320
	},
	{
	"epoch": 6.64,
	"learning_rate": 1.2720510932376611e-05,
	"loss": 1.315,
	"step": 9340
	},
	{
	"epoch": 6.65,
	"learning_rate": 1.2623069239879476e-05,
	"loss": 1.2964,
	"step": 9360
	},
	{
	"epoch": 6.67,
	"learning_rate": 1.2525875991183606e-05,
	"loss": 1.3068,
	"step": 9380
	},
	{
	"epoch": 6.68,
	"learning_rate": 1.2428933137262196e-05,
	"loss": 1.2965,
	"step": 9400
	},
	{
	"epoch": 6.7,
	"learning_rate": 1.2332242624062225e-05,
	"loss": 1.2759,
	"step": 9420
	},
	{
	"epoch": 6.71,
	"learning_rate": 1.2235806392465435e-05,
	"loss": 1.3054,
	"step": 9440
	},
	{
	"epoch": 6.73,
	"learning_rate": 1.2139626378249299e-05,
	"loss": 1.2885,
	"step": 9460
	},
	{
	"epoch": 6.74,
	"learning_rate": 1.2043704512048217e-05,
	"loss": 1.3241,
	"step": 9480
	},
	{
	"epoch": 6.75,
	"learning_rate": 1.194804271931477e-05,
	"loss": 1.3053,
	"step": 9500
	},
	{
	"epoch": 6.77,
	"learning_rate": 1.1852642920281021e-05,
	"loss": 1.2822,
	"step": 9520
	},
	{
	"epoch": 6.78,
	"learning_rate": 1.1757507029920009e-05,
	"loss": 1.3165,
	"step": 9540
	},
	{
	"epoch": 6.8,
	"learning_rate": 1.1662636957907291e-05,
	"loss": 1.2796,
	"step": 9560
	},
	{
	"epoch": 6.81,
	"learning_rate": 1.1568034608582642e-05,
	"loss": 1.2647,
	"step": 9580
	},
	{
	"epoch": 6.83,
	"learning_rate": 1.1473701880911774e-05,
	"loss": 1.285,
	"step": 9600
	},
	{
	"epoch": 6.84,
	"learning_rate": 1.1379640668448263e-05,
	"loss": 1.3066,
	"step": 9620
	},
	{
	"epoch": 6.85,
	"learning_rate": 1.1285852859295506e-05,
	"loss": 1.2901,
	"step": 9640
	},
	{
	"epoch": 6.87,
	"learning_rate": 1.1192340336068874e-05,
	"loss": 1.2976,
	"step": 9660
	},
	{
	"epoch": 6.88,
	"learning_rate": 1.1099104975857852e-05,
	"loss": 1.2805,
	"step": 9680
	},
	{
	"epoch": 6.9,
	"learning_rate": 1.1006148650188409e-05,
	"loss": 1.3113,
	"step": 9700
	},
	{
	"epoch": 6.91,
	"learning_rate": 1.09134732249854e-05,
	"loss": 1.3353,
	"step": 9720
	},
	{
	"epoch": 6.93,
	"learning_rate": 1.082108056053516e-05,
	"loss": 1.3107,
	"step": 9740
	},
	{
	"epoch": 6.94,
	"learning_rate": 1.0728972511448104e-05,
	"loss": 1.2788,
	"step": 9760
	},
	{
	"epoch": 6.95,
	"learning_rate": 1.063715092662152e-05,
	"loss": 1.2946,
	"step": 9780
	},
	{
	"epoch": 6.97,
	"learning_rate": 1.0545617649202486e-05,
	"loss": 1.2785,
	"step": 9800
	},
	{
	"epoch": 6.98,
	"learning_rate": 1.0454374516550825e-05,
	"loss": 1.3007,
	"step": 9820
	},
	{
	"epoch": 7.0,
	"learning_rate": 1.036342336020224e-05,
	"loss": 1.2976,
	"step": 9840
	},
	{
	"epoch": 7.0,
	"eval_loss": 1.2157546281814575,
	"eval_runtime": 286.1833,
	"eval_samples_per_second": 19.439,
	"eval_steps_per_second": 19.439,
	"step": 9845
	},
	{
	"epoch": 7.01,
	"learning_rate": 1.0272766005831583e-05,
	"loss": 1.2946,
	"step": 9860
	},
	{
	"epoch": 7.02,
	"learning_rate": 1.0182404273216154e-05,
	"loss": 1.3138,
	"step": 9880
	},
	{
	"epoch": 7.04,
	"learning_rate": 1.0092339976199192e-05,
	"loss": 1.2854,
	"step": 9900
	},
	{
	"epoch": 7.05,
	"learning_rate": 1.0002574922653506e-05,
	"loss": 1.3105,
	"step": 9920
	},
	{
	"epoch": 7.07,
	"learning_rate": 9.91311091444512e-06,
	"loss": 1.3052,
	"step": 9940
	},
	{
	"epoch": 7.08,
	"learning_rate": 9.823949747397134e-06,
	"loss": 1.3018,
	"step": 9960
	},
	{
	"epoch": 7.1,
	"learning_rate": 9.735093211253698e-06,
	"loss": 1.3138,
	"step": 9980
	},
	{
	"epoch": 7.11,
	"learning_rate": 9.64654308964405e-06,
	"loss": 1.281,
	"step": 10000
	},
	{
	"epoch": 7.12,
	"learning_rate": 9.558301160046717e-06,
	"loss": 1.2824,
	"step": 10020
	},
	{
	"epoch": 7.14,
	"learning_rate": 9.470369193753877e-06,
	"loss": 1.301,
	"step": 10040
	},
	{
	"epoch": 7.15,
	"learning_rate": 9.38274895583575e-06,
	"loss": 1.2919,
	"step": 10060
	},
	{
	"epoch": 7.17,
	"learning_rate": 9.295442205105178e-06,
	"loss": 1.2813,
	"step": 10080
	},
	{
	"epoch": 7.18,
	"learning_rate": 9.208450694082373e-06,
	"loss": 1.323,
	"step": 10100
	},
	{
	"epoch": 7.2,
	"learning_rate": 9.121776168959667e-06,
	"loss": 1.2836,
	"step": 10120
	},
	{
	"epoch": 7.21,
	"learning_rate": 9.035420369566485e-06,
	"loss": 1.3184,
	"step": 10140
	},
	{
	"epoch": 7.22,
	"learning_rate": 8.949385029334459e-06,
	"loss": 1.2973,
	"step": 10160
	},
	{
	"epoch": 7.24,
	"learning_rate": 8.863671875262577e-06,
	"loss": 1.2943,
	"step": 10180
	},
	{
	"epoch": 7.25,
	"learning_rate": 8.778282627882536e-06,
	"loss": 1.289,
	"step": 10200
	},
	{
	"epoch": 7.27,
	"learning_rate": 8.693219001224239e-06,
	"loss": 1.302,
	"step": 10220
	},
	{
	"epoch": 7.28,
	"learning_rate": 8.608482702781332e-06,
	"loss": 1.2783,
	"step": 10240
	},
	{
	"epoch": 7.29,
	"learning_rate": 8.524075433476963e-06,
	"loss": 1.3028,
	"step": 10260
	},
	{
	"epoch": 7.31,
	"learning_rate": 8.439998887629649e-06,
	"loss": 1.3119,
	"step": 10280
	},
	{
	"epoch": 7.32,
	"learning_rate": 8.356254752919241e-06,
	"loss": 1.3063,
	"step": 10300
	},
	{
	"epoch": 7.34,
	"learning_rate": 8.272844710353036e-06,
	"loss": 1.2968,
	"step": 10320
	},
	{
	"epoch": 7.35,
	"learning_rate": 8.189770434232096e-06,
	"loss": 1.2923,
	"step": 10340
	},
	{
	"epoch": 7.37,
	"learning_rate": 8.10703359211757e-06,
	"loss": 1.2744,
	"step": 10360
	},
	{
	"epoch": 7.38,
	"learning_rate": 8.02463584479724e-06,
	"loss": 1.3022,
	"step": 10380
	},
	{
	"epoch": 7.39,
	"learning_rate": 7.942578846252227e-06,
	"loss": 1.2802,
	"step": 10400
	},
	{
	"epoch": 7.41,
	"learning_rate": 7.860864243623726e-06,
	"loss": 1.2981,
	"step": 10420
	},
	{
	"epoch": 7.42,
	"learning_rate": 7.779493677179971e-06,
	"loss": 1.3192,
	"step": 10440
	},
	{
	"epoch": 7.44,
	"learning_rate": 7.698468780283344e-06,
	"loss": 1.3113,
	"step": 10460
	},
	{
	"epoch": 7.45,
	"learning_rate": 7.617791179357522e-06,
	"loss": 1.2951,
	"step": 10480
	},
	{
	"epoch": 7.47,
	"learning_rate": 7.537462493854866e-06,
	"loss": 1.2936,
	"step": 10500
	},
	{
	"epoch": 7.48,
	"learning_rate": 7.457484336223939e-06,
	"loss": 1.3059,
	"step": 10520
	},
	{
	"epoch": 7.49,
	"learning_rate": 7.377858311877081e-06,
	"loss": 1.2771,
	"step": 10540
	},
	{
	"epoch": 7.51,
	"learning_rate": 7.298586019158216e-06,
	"loss": 1.2919,
	"step": 10560
	},
	{
	"epoch": 7.52,
	"learning_rate": 7.219669049310784e-06,
	"loss": 1.3138,
	"step": 10580
	},
	{
	"epoch": 7.54,
	"learning_rate": 7.141108986445768e-06,
	"loss": 1.3031,
	"step": 10600
	},
	{
	"epoch": 7.55,
	"learning_rate": 7.062907407509903e-06,
	"loss": 1.2819,
	"step": 10620
	},
	{
	"epoch": 7.57,
	"learning_rate": 6.985065882254046e-06,
	"loss": 1.2704,
	"step": 10640
	},
	{
	"epoch": 7.58,
	"learning_rate": 6.907585973201633e-06,
	"loss": 1.2916,
	"step": 10660
	},
	{
	"epoch": 7.59,
	"learning_rate": 6.830469235617323e-06,
	"loss": 1.2754,
	"step": 10680
	},
	{
	"epoch": 7.61,
	"learning_rate": 6.7537172174758135e-06,
	"loss": 1.2972,
	"step": 10700
	},
	{
	"epoch": 7.62,
	"learning_rate": 6.677331459430713e-06,
	"loss": 1.2689,
	"step": 10720
	},
	{
	"epoch": 7.64,
	"learning_rate": 6.601313494783648e-06,
	"loss": 1.3081,
	"step": 10740
	},
	{
	"epoch": 7.65,
	"learning_rate": 6.525664849453478e-06,
	"loss": 1.3015,
	"step": 10760
	},
	{
	"epoch": 7.66,
	"learning_rate": 6.450387041945677e-06,
	"loss": 1.2883,
	"step": 10780
	},
	{
	"epoch": 7.68,
	"learning_rate": 6.375481583321829e-06,
	"loss": 1.3173,
	"step": 10800
	},
	{
	"epoch": 7.69,
	"learning_rate": 6.3009499771693156e-06,
	"loss": 1.2894,
	"step": 10820
	},
	{
	"epoch": 7.71,
	"learning_rate": 6.226793719571111e-06,
	"loss": 1.265,
	"step": 10840
	},
	{
	"epoch": 7.72,
	"learning_rate": 6.153014299075799e-06,
	"loss": 1.3319,
	"step": 10860
	},
	{
	"epoch": 7.74,
	"learning_rate": 6.0796131966676324e-06,
	"loss": 1.2988,
	"step": 10880
	},
	{
	"epoch": 7.75,
	"learning_rate": 6.006591885736851e-06,
	"loss": 1.3037,
	"step": 10900
	},
	{
	"epoch": 7.76,
	"learning_rate": 5.9339518320500665e-06,
	"loss": 1.2874,
	"step": 10920
	},
	{
	"epoch": 7.78,
	"learning_rate": 5.861694493720898e-06,
	"loss": 1.3183,
	"step": 10940
	},
	{
	"epoch": 7.79,
	"learning_rate": 5.789821321180639e-06,
	"loss": 1.2894,
	"step": 10960
	},
	{
	"epoch": 7.81,
	"learning_rate": 5.718333757149183e-06,
	"loss": 1.2751,
	"step": 10980
	},
	{
	"epoch": 7.82,
	"learning_rate": 5.647233236606037e-06,
	"loss": 1.3128,
	"step": 11000
	},
	{
	"epoch": 7.84,
	"learning_rate": 5.576521186761563e-06,
	"loss": 1.2951,
	"step": 11020
	},
	{
	"epoch": 7.85,
	"learning_rate": 5.506199027028272e-06,
	"loss": 1.2995,
	"step": 11040
	},
	{
	"epoch": 7.86,
	"learning_rate": 5.436268168992356e-06,
	"loss": 1.2975,
	"step": 11060
	},
	{
	"epoch": 7.88,
	"learning_rate": 5.36673001638538e-06,
	"loss": 1.2766,
	"step": 11080
	},
	{
	"epoch": 7.89,
	"learning_rate": 5.297585965056056e-06,
	"loss": 1.3,
	"step": 11100
	},
	{
	"epoch": 7.91,
	"learning_rate": 5.228837402942252e-06,
	"loss": 1.2957,
	"step": 11120
	},
	{
	"epoch": 7.92,
	"learning_rate": 5.1604857100431445e-06,
	"loss": 1.321,
	"step": 11140
	},
	{
	"epoch": 7.93,
	"learning_rate": 5.092532258391483e-06,
	"loss": 1.2783,
	"step": 11160
	},
	{
	"epoch": 7.95,
	"learning_rate": 5.0249784120260626e-06,
	"loss": 1.3086,
	"step": 11180
	},
	{
	"epoch": 7.96,
	"learning_rate": 4.957825526964371e-06,
	"loss": 1.3213,
	"step": 11200
	},
	{
	"epoch": 7.98,
	"learning_rate": 4.891074951175328e-06,
	"loss": 1.306,
	"step": 11220
	},
	{
	"epoch": 7.99,
	"learning_rate": 4.824728024552239e-06,
	"loss": 1.3074,
	"step": 11240
	},
	{
	"epoch": 8.0,
	"eval_loss": 1.2149200439453125,
	"eval_runtime": 285.6193,
	"eval_samples_per_second": 19.477,
	"eval_steps_per_second": 19.477,
	"step": 11251
	},
	{
	"epoch": 8.01,
	"learning_rate": 4.758786078885927e-06,
	"loss": 1.2998,
	"step": 11260
	},
	{
	"epoch": 8.02,
	"learning_rate": 4.69325043783796e-06,
	"loss": 1.289,
	"step": 11280
	},
	{
	"epoch": 8.03,
	"learning_rate": 4.628122416914099e-06,
	"loss": 1.284,
	"step": 11300
	},
	{
	"epoch": 8.05,
	"learning_rate": 4.563403323437909e-06,
	"loss": 1.2929,
	"step": 11320
	},
	{
	"epoch": 8.06,
	"learning_rate": 4.499094456524478e-06,
	"loss": 1.3024,
	"step": 11340
	},
	{
	"epoch": 8.08,
	"learning_rate": 4.435197107054364e-06,
	"loss": 1.2752,
	"step": 11360
	},
	{
	"epoch": 8.09,
	"learning_rate": 4.371712557647698e-06,
	"loss": 1.294,
	"step": 11380
	},
	{
	"epoch": 8.11,
	"learning_rate": 4.308642082638401e-06,
	"loss": 1.2755,
	"step": 11400
	},
	{
	"epoch": 8.12,
	"learning_rate": 4.245986948048619e-06,
	"loss": 1.2902,
	"step": 11420
	},
	{
	"epoch": 8.13,
	"learning_rate": 4.18374841156334e-06,
	"loss": 1.2984,
	"step": 11440
	},
	{
	"epoch": 8.15,
	"learning_rate": 4.121927722505095e-06,
	"loss": 1.3091,
	"step": 11460
	},
	{
	"epoch": 8.16,
	"learning_rate": 4.060526121808916e-06,
	"loss": 1.2879,
	"step": 11480
	},
	{
	"epoch": 8.18,
	"learning_rate": 3.999544841997427e-06,
	"loss": 1.2826,
	"step": 11500
	},
	{
	"epoch": 8.19,
	"learning_rate": 3.938985107156082e-06,
	"loss": 1.2919,
	"step": 11520
	},
	{
	"epoch": 8.2,
	"learning_rate": 3.878848132908605e-06,
	"loss": 1.3118,
	"step": 11540
	},
	{
	"epoch": 8.22,
	"learning_rate": 3.819135126392606e-06,
	"loss": 1.2758,
	"step": 11560
	},
	{
	"epoch": 8.23,
	"learning_rate": 3.7598472862353157e-06,
	"loss": 1.3126,
	"step": 11580
	},
	{
	"epoch": 8.25,
	"learning_rate": 3.700985802529544e-06,
	"loss": 1.2734,
	"step": 11600
	},
	{
	"epoch": 8.26,
	"learning_rate": 3.6425518568098087e-06,
	"loss": 1.3097,
	"step": 11620
	},
	{
	"epoch": 8.28,
	"learning_rate": 3.584546622028581e-06,
	"loss": 1.2896,
	"step": 11640
	},
	{
	"epoch": 8.29,
	"learning_rate": 3.526971262532758e-06,
	"loss": 1.2976,
	"step": 11660
	},
	{
	"epoch": 8.3,
	"learning_rate": 3.4698269340403157e-06,
	"loss": 1.2882,
	"step": 11680
	},
	{
	"epoch": 8.32,
	"learning_rate": 3.4131147836170634e-06,
	"loss": 1.2946,
	"step": 11700
	},
	{
	"epoch": 8.33,
	"learning_rate": 3.356835949653642e-06,
	"loss": 1.3031,
	"step": 11720
	},
	{
	"epoch": 8.35,
	"learning_rate": 3.3009915618426894e-06,
	"loss": 1.3059,
	"step": 11740
	},
	{
	"epoch": 8.36,
	"learning_rate": 3.2455827411561364e-06,
	"loss": 1.2993,
	"step": 11760
	},
	{
	"epoch": 8.38,
	"learning_rate": 3.1906105998227104e-06,
	"loss": 1.2902,
	"step": 11780
	},
	{
	"epoch": 8.39,
	"learning_rate": 3.136076241305633e-06,
	"loss": 1.2908,
	"step": 11800
	},
	{
	"epoch": 8.4,
	"learning_rate": 3.081980760280437e-06,
	"loss": 1.2843,
	"step": 11820
	},
	{
	"epoch": 8.42,
	"learning_rate": 3.0283252426130034e-06,
	"loss": 1.3316,
	"step": 11840
	},
	{
	"epoch": 8.43,
	"learning_rate": 2.9751107653377934e-06,
	"loss": 1.2902,
	"step": 11860
	},
	{
	"epoch": 8.45,
	"learning_rate": 2.9223383966361818e-06,
	"loss": 1.3192,
	"step": 11880
	},
	{
	"epoch": 8.46,
	"learning_rate": 2.870009195815046e-06,
	"loss": 1.2958,
	"step": 11900
	},
	{
	"epoch": 8.48,
	"learning_rate": 2.8181242132854973e-06,
	"loss": 1.3151,
	"step": 11920
	},
	{
	"epoch": 8.49,
	"learning_rate": 2.766684490541796e-06,
	"loss": 1.2813,
	"step": 11940
	},
	{
	"epoch": 8.5,
	"learning_rate": 2.715691060140424e-06,
	"loss": 1.2775,
	"step": 11960
	},
	{
	"epoch": 8.52,
	"learning_rate": 2.665144945679407e-06,
	"loss": 1.3077,
	"step": 11980
	},
	{
	"epoch": 8.53,
	"learning_rate": 2.6150471617777116e-06,
	"loss": 1.3131,
	"step": 12000
	},
	{
	"epoch": 8.55,
	"learning_rate": 2.565398714054917e-06,
	"loss": 1.3218,
	"step": 12020
	},
	{
	"epoch": 8.56,
	"learning_rate": 2.51620059911101e-06,
	"loss": 1.2741,
	"step": 12040
	},
	{
	"epoch": 8.57,
	"learning_rate": 2.4674538045063976e-06,
	"loss": 1.3002,
	"step": 12060
	},
	{
	"epoch": 8.59,
	"learning_rate": 2.4191593087420613e-06,
	"loss": 1.31,
	"step": 12080
	},
	{
	"epoch": 8.6,
	"learning_rate": 2.3713180812399317e-06,
	"loss": 1.3049,
	"step": 12100
	},
	{
	"epoch": 8.62,
	"learning_rate": 2.3239310823234215e-06,
	"loss": 1.2873,
	"step": 12120
	},
	{
	"epoch": 8.63,
	"learning_rate": 2.2769992631981595e-06,
	"loss": 1.2842,
	"step": 12140
	},
	{
	"epoch": 8.65,
	"learning_rate": 2.230523565932882e-06,
	"loss": 1.345,
	"step": 12160
	},
	{
	"epoch": 8.66,
	"learning_rate": 2.1845049234405306e-06,
	"loss": 1.2938,
	"step": 12180
	},
	{
	"epoch": 8.67,
	"learning_rate": 2.1389442594595214e-06,
	"loss": 1.3317,
	"step": 12200
	},
	{
	"epoch": 8.69,
	"learning_rate": 2.093842488535219e-06,
	"loss": 1.2947,
	"step": 12220
	},
	{
	"epoch": 8.7,
	"learning_rate": 2.049200516001554e-06,
	"loss": 1.3109,
	"step": 12240
	},
	{
	"epoch": 8.72,
	"learning_rate": 2.0050192379628656e-06,
	"loss": 1.2825,
	"step": 12260
	},
	{
	"epoch": 8.73,
	"learning_rate": 1.9612995412759016e-06,
	"loss": 1.313,
	"step": 12280
	},
	{
	"epoch": 8.75,
	"learning_rate": 1.9180423035320416e-06,
	"loss": 1.2819,
	"step": 12300
	},
	{
	"epoch": 8.76,
	"learning_rate": 1.875248393039658e-06,
	"loss": 1.2917,
	"step": 12320
	},
	{
	"epoch": 8.77,
	"learning_rate": 1.8329186688066797e-06,
	"loss": 1.2814,
	"step": 12340
	},
	{
	"epoch": 8.79,
	"learning_rate": 1.7910539805233827e-06,
	"loss": 1.3132,
	"step": 12360
	},
	{
	"epoch": 8.8,
	"learning_rate": 1.7496551685453028e-06,
	"loss": 1.2575,
	"step": 12380
	},
	{
	"epoch": 8.82,
	"learning_rate": 1.7087230638763745e-06,
	"loss": 1.2945,
	"step": 12400
	},
	{
	"epoch": 8.83,
	"learning_rate": 1.6682584881522634e-06,
	"loss": 1.3074,
	"step": 12420
	},
	{
	"epoch": 8.84,
	"learning_rate": 1.6282622536238551e-06,
	"loss": 1.2669,
	"step": 12440
	},
	{
	"epoch": 8.86,
	"learning_rate": 1.5887351631409614e-06,
	"loss": 1.2963,
	"step": 12460
	},
	{
	"epoch": 8.87,
	"learning_rate": 1.5496780101362074e-06,
	"loss": 1.2734,
	"step": 12480
	},
	{
	"epoch": 8.89,
	"learning_rate": 1.5110915786090918e-06,
	"loss": 1.2926,
	"step": 12500
	},
	{
	"epoch": 8.9,
	"learning_rate": 1.4729766431102604e-06,
	"loss": 1.2836,
	"step": 12520
	},
	{
	"epoch": 8.92,
	"learning_rate": 1.4353339687259632e-06,
	"loss": 1.2964,
	"step": 12540
	},
	{
	"epoch": 8.93,
	"learning_rate": 1.3981643110626775e-06,
	"loss": 1.3007,
	"step": 12560
	},
	{
	"epoch": 8.94,
	"learning_rate": 1.3614684162319564e-06,
	"loss": 1.2974,
	"step": 12580
	},
	{
	"epoch": 8.96,
	"learning_rate": 1.3252470208354518e-06,
	"loss": 1.2984,
	"step": 12600
	},
	{
	"epoch": 8.97,
	"learning_rate": 1.2895008519501206e-06,
	"loss": 1.3015,
	"step": 12620
	},
	{
	"epoch": 8.99,
	"learning_rate": 1.2542306271136284e-06,
	"loss": 1.3104,
	"step": 12640
	},
	{
	"epoch": 9.0,
	"eval_loss": 1.214709758758545,
	"eval_runtime": 293.5548,
	"eval_samples_per_second": 18.95,
	"eval_steps_per_second": 18.95,
	"step": 12658
	},
	{
	"epoch": 9.0,
	"learning_rate": 1.2194370543099659e-06,
	"loss": 1.3173,
	"step": 12660
	},
	{
	"epoch": 9.02,
	"learning_rate": 1.1851208319552109e-06,
	"loss": 1.3155,
	"step": 12680
	},
	{
	"epoch": 9.03,
	"learning_rate": 1.1512826488835227e-06,
	"loss": 1.2712,
	"step": 12700
	},
	{
	"epoch": 9.04,
	"learning_rate": 1.1179231843333248e-06,
	"loss": 1.2837,
	"step": 12720
	},
	{
	"epoch": 9.06,
	"learning_rate": 1.085043107933642e-06,
	"loss": 1.2944,
	"step": 12740
	},
	{
	"epoch": 9.07,
	"learning_rate": 1.0526430796906878e-06,
	"loss": 1.2903,
	"step": 12760
	},
	{
	"epoch": 9.09,
	"learning_rate": 1.0207237499746002e-06,
	"loss": 1.2911,
	"step": 12780
	},
	{
	"epoch": 9.1,
	"learning_rate": 9.892857595063947e-07,
	"loss": 1.2896,
	"step": 12800
	},
	{
	"epoch": 9.12,
	"learning_rate": 9.583297393450929e-07,
	"loss": 1.3074,
	"step": 12820
	},
	{
	"epoch": 9.13,
	"learning_rate": 9.278563108750665e-07,
	"loss": 1.2877,
	"step": 12840
	},
	{
	"epoch": 9.14,
	"learning_rate": 8.978660857935555e-07,
	"loss": 1.2782,
	"step": 12860
	},
	{
	"epoch": 9.16,
	"learning_rate": 8.68359666098395e-07,
	"loss": 1.3062,
	"step": 12880
	},
	{
	"epoch": 9.17,
	"learning_rate": 8.393376440759326e-07,
	"loss": 1.3011,
	"step": 12900
	},
	{
	"epoch": 9.19,
	"learning_rate": 8.108006022891274e-07,
	"loss": 1.2822,
	"step": 12920
	},
	{
	"epoch": 9.2,
	"learning_rate": 7.827491135658726e-07,
	"loss": 1.3102,
	"step": 12940
	},
	{
	"epoch": 9.21,
	"learning_rate": 7.551837409874862e-07,
	"loss": 1.3167,
	"step": 12960
	},
	{
	"epoch": 9.23,
	"learning_rate": 7.281050378774135e-07,
	"loss": 1.3019,
	"step": 12980
	},
	{
	"epoch": 9.24,
	"learning_rate": 7.015135477901086e-07,
	"loss": 1.316,
	"step": 13000
	},
	{
	"epoch": 9.26,
	"learning_rate": 6.754098045001517e-07,
	"loss": 1.2924,
	"step": 13020
	},
	{
	"epoch": 9.27,
	"learning_rate": 6.497943319914962e-07,
	"loss": 1.2847,
	"step": 13040
	},
	{
	"epoch": 9.29,
	"learning_rate": 6.246676444469774e-07,
	"loss": 1.2744,
	"step": 13060
	},
	{
	"epoch": 9.3,
	"learning_rate": 6.000302462379898e-07,
	"loss": 1.2995,
	"step": 13080
	},
	{
	"epoch": 9.31,
	"learning_rate": 5.758826319143512e-07,
	"loss": 1.3082,
	"step": 13100
	},
	{
	"epoch": 9.33,
	"learning_rate": 5.5222528619438e-07,
	"loss": 1.2896,
	"step": 13120
	},
	{
	"epoch": 9.34,
	"learning_rate": 5.29058683955172e-07,
	"loss": 1.2687,
	"step": 13140
	},
	{
	"epoch": 9.36,
	"learning_rate": 5.063832902230586e-07,
	"loss": 1.3082,
	"step": 13160
	},
	{
	"epoch": 9.37,
	"learning_rate": 4.841995601642751e-07,
	"loss": 1.3213,
	"step": 13180
	},
	{
	"epoch": 9.39,
	"learning_rate": 4.625079390758319e-07,
	"loss": 1.2916,
	"step": 13200
	},
	{
	"epoch": 9.4,
	"learning_rate": 4.41308862376566e-07,
	"loss": 1.2851,
	"step": 13220
	},
	{
	"epoch": 9.41,
	"learning_rate": 4.2060275559840377e-07,
	"loss": 1.3003,
	"step": 13240
	},
	{
	"epoch": 9.43,
	"learning_rate": 4.0039003437782055e-07,
	"loss": 1.28,
	"step": 13260
	},
	{
	"epoch": 9.44,
	"learning_rate": 3.80671104447497e-07,
	"loss": 1.2949,
	"step": 13280
	},
	{
	"epoch": 9.46,
	"learning_rate": 3.61446361628176e-07,
	"loss": 1.278,
	"step": 13300
	},
	{
	"epoch": 9.47,
	"learning_rate": 3.427161918207106e-07,
	"loss": 1.3191,
	"step": 13320
	},
	{
	"epoch": 9.48,
	"learning_rate": 3.2448097099833095e-07,
	"loss": 1.3055,
	"step": 13340
	},
	{
	"epoch": 9.5,
	"learning_rate": 3.0674106519908155e-07,
	"loss": 1.2913,
	"step": 13360
	},
	{
	"epoch": 9.51,
	"learning_rate": 2.8949683051848754e-07,
	"loss": 1.3131,
	"step": 13380
	},
	{
	"epoch": 9.53,
	"learning_rate": 2.727486131023971e-07,
	"loss": 1.2956,
	"step": 13400
	},
	{
	"epoch": 9.54,
	"learning_rate": 2.564967491400394e-07,
	"loss": 1.2721,
	"step": 13420
	},
	{
	"epoch": 9.56,
	"learning_rate": 2.4074156485727197e-07,
	"loss": 1.3024,
	"step": 13440
	},
	{
	"epoch": 9.57,
	"learning_rate": 2.2548337651003837e-07,
	"loss": 1.2989,
	"step": 13460
	},
	{
	"epoch": 9.58,
	"learning_rate": 2.1072249037800418e-07,
	"loss": 1.3151,
	"step": 13480
	},
	{
	"epoch": 9.6,
	"learning_rate": 1.9645920275843943e-07,
	"loss": 1.2864,
	"step": 13500
	},
	{
	"epoch": 9.61,
	"learning_rate": 1.8269379996023183e-07,
	"loss": 1.3041,
	"step": 13520
	},
	{
	"epoch": 9.63,
	"learning_rate": 1.6942655829817189e-07,
	"loss": 1.3049,
	"step": 13540
	},
	{
	"epoch": 9.64,
	"learning_rate": 1.566577440873962e-07,
	"loss": 1.2744,
	"step": 13560
	},
	{
	"epoch": 9.66,
	"learning_rate": 1.4438761363803067e-07,
	"loss": 1.2983,
	"step": 13580
	},
	{
	"epoch": 9.67,
	"learning_rate": 1.3261641325006124e-07,
	"loss": 1.3166,
	"step": 13600
	},
	{
	"epoch": 9.68,
	"learning_rate": 1.213443792083796e-07,
	"loss": 1.2968,
	"step": 13620
	},
	{
	"epoch": 9.7,
	"learning_rate": 1.1057173777804797e-07,
	"loss": 1.301,
	"step": 13640
	},
	{
	"epoch": 9.71,
	"learning_rate": 1.0029870519975004e-07,
	"loss": 1.3018,
	"step": 13660
	},
	{
	"epoch": 9.73,
	"learning_rate": 9.052548768545832e-08,
	"loss": 1.3071,
	"step": 13680
	},
	{
	"epoch": 9.74,
	"learning_rate": 8.125228141428465e-08,
	"loss": 1.3095,
	"step": 13700
	},
	{
	"epoch": 9.75,
	"learning_rate": 7.247927252854725e-08,
	"loss": 1.3138,
	"step": 13720
	},
	{
	"epoch": 9.77,
	"learning_rate": 6.420663713004038e-08,
	"loss": 1.3334,
	"step": 13740
	},
	{
	"epoch": 9.78,
	"learning_rate": 5.643454127648995e-08,
	"loss": 1.3292,
	"step": 13760
	},
	{
	"epoch": 9.8,
	"learning_rate": 4.9163140978225605e-08,
	"loss": 1.2938,
	"step": 13780
	},
	{
	"epoch": 9.81,
	"learning_rate": 4.239258219504716e-08,
	"loss": 1.2944,
	"step": 13800
	},
	{
	"epoch": 9.83,
	"learning_rate": 3.612300083329079e-08,
	"loss": 1.3012,
	"step": 13820
	},
	{
	"epoch": 9.84,
	"learning_rate": 3.035452274311457e-08,
	"loss": 1.2832,
	"step": 13840
	},
	{
	"epoch": 9.85,
	"learning_rate": 2.5087263715953268e-08,
	"loss": 1.2809,
	"step": 13860
	},
	{
	"epoch": 9.87,
	"learning_rate": 2.0321329482209107e-08,
	"loss": 1.2784,
	"step": 13880
	},
	{
	"epoch": 9.88,
	"learning_rate": 1.605681570912565e-08,
	"loss": 1.2963,
	"step": 13900
	},
	{
	"epoch": 9.9,
	"learning_rate": 1.2293807998858819e-08,
	"loss": 1.2885,
	"step": 13920
	},
	{
	"epoch": 9.91,
	"learning_rate": 9.03238188677269e-09,
	"loss": 1.2976,
	"step": 13940
	},
	{
	"epoch": 9.93,
	"learning_rate": 6.272602839915709e-09,
	"loss": 1.2775,
	"step": 13960
	},
	{
	"epoch": 9.94,
	"learning_rate": 4.014526255702311e-09,
	"loss": 1.2798,
	"step": 13980
	},
	{
	"epoch": 9.95,
	"learning_rate": 2.2581974608082425e-09,
	"loss": 1.2866,
	"step": 14000
	},
	{
	"epoch": 9.97,
	"learning_rate": 1.0036517102601784e-09,
	"loss": 1.2933,
	"step": 14020
	},
	{
	"epoch": 9.98,
	"learning_rate": 2.509141867224063e-10,
	"loss": 1.2835,
	"step": 14040
	},
	{
	"epoch": 10.0,
	"learning_rate": 0.0,
	"loss": 1.2806,
	"step": 14060
	},
	{
	"epoch": 10.0,
	"eval_loss": 1.2147753238677979,
	"eval_runtime": 291.9831,
	"eval_samples_per_second": 19.052,
	"eval_steps_per_second": 19.052,
	"step": 14060
	},
	{
	"epoch": 10.0,
	"step": 14060,
	"total_flos": 2.1277696239721021e+18,
	"train_loss": 1.371388260229553,
	"train_runtime": 75147.4617,
	"train_samples_per_second": 5.989,
	"train_steps_per_second": 0.187
	}
	],
	"logging_steps": 20,
	"max_steps": 14060,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 500,
	"total_flos": 2.1277696239721021e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}