QingyiSi
/

Alpaca-CoT

TensorBoard

Model card Files Files and versions Metrics Training metrics Community

Alpaca-CoT / adapters /saved_bloomfirefly /checkpoint-19200 /trainer_state.json

QingyiSi

Upload 1268 files

4697198 over 1 year ago

raw

history blame

137 kB

	{
	"best_metric": 2.329240560531616,
	"best_model_checkpoint": "/mnt/bn/qingyi-bn-lq/llama/saved_bloomfirefly/checkpoint-19200",
	"epoch": 2.9836105378171665,
	"global_step": 19200,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 5.9999999999999995e-05,
	"loss": 2.9733,
	"step": 20
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00011999999999999999,
	"loss": 2.7809,
	"step": 40
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00017999999999999998,
	"loss": 2.6052,
	"step": 60
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00023999999999999998,
	"loss": 2.4925,
	"step": 80
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0003,
	"loss": 2.458,
	"step": 100
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029968758135902107,
	"loss": 2.4281,
	"step": 120
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029937516271804216,
	"loss": 2.4178,
	"step": 140
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029906274407706326,
	"loss": 2.3839,
	"step": 160
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002987503254360843,
	"loss": 2.3521,
	"step": 180
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029843790679510545,
	"loss": 2.338,
	"step": 200
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.510117292404175,
	"eval_runtime": 69.1765,
	"eval_samples_per_second": 28.912,
	"eval_steps_per_second": 1.807,
	"step": 200
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002981254881541265,
	"loss": 2.3401,
	"step": 220
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002978130695131476,
	"loss": 2.3665,
	"step": 240
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002975006508721687,
	"loss": 2.3691,
	"step": 260
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002971882322311898,
	"loss": 2.3514,
	"step": 280
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002968758135902109,
	"loss": 2.3203,
	"step": 300
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00029656339494923197,
	"loss": 2.3393,
	"step": 320
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.000296250976308253,
	"loss": 2.3289,
	"step": 340
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00029593855766727416,
	"loss": 2.3407,
	"step": 360
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002956261390262952,
	"loss": 2.3163,
	"step": 380
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002953137203853163,
	"loss": 2.3212,
	"step": 400
	},
	{
	"epoch": 0.06,
	"eval_loss": 2.473245620727539,
	"eval_runtime": 69.0219,
	"eval_samples_per_second": 28.976,
	"eval_steps_per_second": 1.811,
	"step": 400
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002950013017443374,
	"loss": 2.2927,
	"step": 420
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002946888831033585,
	"loss": 2.2927,
	"step": 440
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002943764644623796,
	"loss": 2.29,
	"step": 460
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002940640458214007,
	"loss": 2.3099,
	"step": 480
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002937516271804217,
	"loss": 2.3286,
	"step": 500
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002934392085394428,
	"loss": 2.2928,
	"step": 520
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002931267898984639,
	"loss": 2.2956,
	"step": 540
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.000292814371257485,
	"loss": 2.2627,
	"step": 560
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002925019526165061,
	"loss": 2.2897,
	"step": 580
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002921895339755272,
	"loss": 2.2994,
	"step": 600
	},
	{
	"epoch": 0.09,
	"eval_loss": 2.455402374267578,
	"eval_runtime": 69.1315,
	"eval_samples_per_second": 28.93,
	"eval_steps_per_second": 1.808,
	"step": 600
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00029187711533454824,
	"loss": 2.3232,
	"step": 620
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002915646966935694,
	"loss": 2.2515,
	"step": 640
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00029125227805259043,
	"loss": 2.2856,
	"step": 660
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002909398594116115,
	"loss": 2.252,
	"step": 680
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002906274407706326,
	"loss": 2.2891,
	"step": 700
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002903150221296537,
	"loss": 2.2769,
	"step": 720
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002900026034886748,
	"loss": 2.2763,
	"step": 740
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002896901848476959,
	"loss": 2.278,
	"step": 760
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00028937776620671695,
	"loss": 2.3126,
	"step": 780
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002890653475657381,
	"loss": 2.2698,
	"step": 800
	},
	{
	"epoch": 0.12,
	"eval_loss": 2.4434444904327393,
	"eval_runtime": 69.7211,
	"eval_samples_per_second": 28.686,
	"eval_steps_per_second": 1.793,
	"step": 800
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00028875292892475914,
	"loss": 2.2587,
	"step": 820
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00028844051028378023,
	"loss": 2.2954,
	"step": 840
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00028812809164280133,
	"loss": 2.3102,
	"step": 860
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002878156730018224,
	"loss": 2.2918,
	"step": 880
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002875032543608435,
	"loss": 2.2698,
	"step": 900
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002871908357198646,
	"loss": 2.2514,
	"step": 920
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00028687841707888566,
	"loss": 2.2684,
	"step": 940
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00028656599843790675,
	"loss": 2.2833,
	"step": 960
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00028625357979692785,
	"loss": 2.2709,
	"step": 980
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00028594116115594894,
	"loss": 2.2596,
	"step": 1000
	},
	{
	"epoch": 0.16,
	"eval_loss": 2.436037302017212,
	"eval_runtime": 69.727,
	"eval_samples_per_second": 28.683,
	"eval_steps_per_second": 1.793,
	"step": 1000
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00028562874251497004,
	"loss": 2.2743,
	"step": 1020
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00028531632387399113,
	"loss": 2.23,
	"step": 1040
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002850039052330122,
	"loss": 2.2723,
	"step": 1060
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002846914865920333,
	"loss": 2.2585,
	"step": 1080
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00028437906795105437,
	"loss": 2.2463,
	"step": 1100
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00028406664931007546,
	"loss": 2.2264,
	"step": 1120
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.00028375423066909656,
	"loss": 2.223,
	"step": 1140
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.00028344181202811765,
	"loss": 2.2412,
	"step": 1160
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.00028312939338713875,
	"loss": 2.2714,
	"step": 1180
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00028281697474615984,
	"loss": 2.2638,
	"step": 1200
	},
	{
	"epoch": 0.19,
	"eval_loss": 2.4272871017456055,
	"eval_runtime": 69.3748,
	"eval_samples_per_second": 28.829,
	"eval_steps_per_second": 1.802,
	"step": 1200
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.0002825045561051809,
	"loss": 2.2303,
	"step": 1220
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.000282192137464202,
	"loss": 2.2491,
	"step": 1240
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00028187971882322313,
	"loss": 2.2598,
	"step": 1260
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00028156730018224417,
	"loss": 2.2566,
	"step": 1280
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00028125488154126527,
	"loss": 2.2642,
	"step": 1300
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00028094246290028636,
	"loss": 2.2976,
	"step": 1320
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00028063004425930746,
	"loss": 2.2144,
	"step": 1340
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00028031762561832855,
	"loss": 2.2618,
	"step": 1360
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00028000520697734965,
	"loss": 2.2232,
	"step": 1380
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.0002796927883363707,
	"loss": 2.2349,
	"step": 1400
	},
	{
	"epoch": 0.22,
	"eval_loss": 2.422177314758301,
	"eval_runtime": 69.7796,
	"eval_samples_per_second": 28.662,
	"eval_steps_per_second": 1.791,
	"step": 1400
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.00027938036969539184,
	"loss": 2.2655,
	"step": 1420
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.0002790679510544129,
	"loss": 2.265,
	"step": 1440
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.000278755532413434,
	"loss": 2.2552,
	"step": 1460
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00027844311377245507,
	"loss": 2.252,
	"step": 1480
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00027813069513147617,
	"loss": 2.255,
	"step": 1500
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00027781827649049726,
	"loss": 2.1869,
	"step": 1520
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00027750585784951836,
	"loss": 2.2601,
	"step": 1540
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.0002771934392085394,
	"loss": 2.2607,
	"step": 1560
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.0002768810205675605,
	"loss": 2.2245,
	"step": 1580
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.0002765686019265816,
	"loss": 2.2561,
	"step": 1600
	},
	{
	"epoch": 0.25,
	"eval_loss": 2.4173202514648438,
	"eval_runtime": 69.7813,
	"eval_samples_per_second": 28.661,
	"eval_steps_per_second": 1.791,
	"step": 1600
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.0002762561832856027,
	"loss": 2.2472,
	"step": 1620
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.0002759437646446238,
	"loss": 2.2952,
	"step": 1640
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0002756313460036449,
	"loss": 2.1941,
	"step": 1660
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0002753189273626659,
	"loss": 2.2396,
	"step": 1680
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.00027500650872168707,
	"loss": 2.2325,
	"step": 1700
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.0002746940900807081,
	"loss": 2.2458,
	"step": 1720
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.0002743816714397292,
	"loss": 2.2464,
	"step": 1740
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.0002740692527987503,
	"loss": 2.2487,
	"step": 1760
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.0002737568341577714,
	"loss": 2.2609,
	"step": 1780
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.0002734444155167925,
	"loss": 2.3016,
	"step": 1800
	},
	{
	"epoch": 0.28,
	"eval_loss": 2.4146716594696045,
	"eval_runtime": 69.513,
	"eval_samples_per_second": 28.772,
	"eval_steps_per_second": 1.798,
	"step": 1800
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.0002731319968758136,
	"loss": 2.2415,
	"step": 1820
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.0002728195782348346,
	"loss": 2.2512,
	"step": 1840
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.0002725071595938558,
	"loss": 2.2186,
	"step": 1860
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.0002721947409528768,
	"loss": 2.1982,
	"step": 1880
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.0002718823223118979,
	"loss": 2.2358,
	"step": 1900
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.000271569903670919,
	"loss": 2.2359,
	"step": 1920
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.0002712574850299401,
	"loss": 2.2367,
	"step": 1940
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.0002709450663889612,
	"loss": 2.2209,
	"step": 1960
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.0002706326477479823,
	"loss": 2.2026,
	"step": 1980
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00027032022910700333,
	"loss": 2.2302,
	"step": 2000
	},
	{
	"epoch": 0.31,
	"eval_loss": 2.4096806049346924,
	"eval_runtime": 69.8744,
	"eval_samples_per_second": 28.623,
	"eval_steps_per_second": 1.789,
	"step": 2000
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00027000781046602443,
	"loss": 2.2516,
	"step": 2020
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.0002696953918250455,
	"loss": 2.2173,
	"step": 2040
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.0002693829731840666,
	"loss": 2.2414,
	"step": 2060
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.0002690705545430877,
	"loss": 2.1922,
	"step": 2080
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.0002687581359021088,
	"loss": 2.2396,
	"step": 2100
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.00026844571726112985,
	"loss": 2.2602,
	"step": 2120
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.000268133298620151,
	"loss": 2.2263,
	"step": 2140
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00026782087997917204,
	"loss": 2.2082,
	"step": 2160
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00026750846133819314,
	"loss": 2.2144,
	"step": 2180
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00026719604269721423,
	"loss": 2.2066,
	"step": 2200
	},
	{
	"epoch": 0.34,
	"eval_loss": 2.4065375328063965,
	"eval_runtime": 69.933,
	"eval_samples_per_second": 28.599,
	"eval_steps_per_second": 1.787,
	"step": 2200
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00026688362405623533,
	"loss": 2.2494,
	"step": 2220
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.0002665712054152564,
	"loss": 2.2471,
	"step": 2240
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.0002662587867742775,
	"loss": 2.2512,
	"step": 2260
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.00026594636813329856,
	"loss": 2.2249,
	"step": 2280
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.0002656339494923197,
	"loss": 2.2526,
	"step": 2300
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00026532153085134075,
	"loss": 2.2375,
	"step": 2320
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00026500911221036185,
	"loss": 2.169,
	"step": 2340
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00026469669356938294,
	"loss": 2.2206,
	"step": 2360
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00026438427492840404,
	"loss": 2.2284,
	"step": 2380
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00026407185628742513,
	"loss": 2.2116,
	"step": 2400
	},
	{
	"epoch": 0.37,
	"eval_loss": 2.402400255203247,
	"eval_runtime": 70.6508,
	"eval_samples_per_second": 28.308,
	"eval_steps_per_second": 1.769,
	"step": 2400
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.00026375943764644623,
	"loss": 2.2228,
	"step": 2420
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.0002634470190054673,
	"loss": 2.2264,
	"step": 2440
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.00026313460036448837,
	"loss": 2.2212,
	"step": 2460
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.0002628221817235095,
	"loss": 2.2164,
	"step": 2480
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00026250976308253056,
	"loss": 2.2523,
	"step": 2500
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00026219734444155165,
	"loss": 2.2272,
	"step": 2520
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00026188492580057275,
	"loss": 2.2381,
	"step": 2540
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00026157250715959384,
	"loss": 2.2149,
	"step": 2560
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00026126008851861494,
	"loss": 2.228,
	"step": 2580
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00026094766987763603,
	"loss": 2.2145,
	"step": 2600
	},
	{
	"epoch": 0.4,
	"eval_loss": 2.399576425552368,
	"eval_runtime": 69.9194,
	"eval_samples_per_second": 28.604,
	"eval_steps_per_second": 1.788,
	"step": 2600
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.0002606352512366571,
	"loss": 2.18,
	"step": 2620
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.0002603228325956782,
	"loss": 2.1965,
	"step": 2640
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00026001041395469927,
	"loss": 2.178,
	"step": 2660
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00025969799531372036,
	"loss": 2.194,
	"step": 2680
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00025938557667274146,
	"loss": 2.2024,
	"step": 2700
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00025907315803176255,
	"loss": 2.2427,
	"step": 2720
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00025876073939078365,
	"loss": 2.2246,
	"step": 2740
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00025844832074980474,
	"loss": 2.2169,
	"step": 2760
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.0002581359021088258,
	"loss": 2.2154,
	"step": 2780
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.0002578234834678469,
	"loss": 2.1732,
	"step": 2800
	},
	{
	"epoch": 0.44,
	"eval_loss": 2.3982491493225098,
	"eval_runtime": 70.2191,
	"eval_samples_per_second": 28.482,
	"eval_steps_per_second": 1.78,
	"step": 2800
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.000257511064826868,
	"loss": 2.1951,
	"step": 2820
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00025719864618588907,
	"loss": 2.2139,
	"step": 2840
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00025688622754491017,
	"loss": 2.197,
	"step": 2860
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00025657380890393126,
	"loss": 2.2317,
	"step": 2880
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.0002562613902629523,
	"loss": 2.2107,
	"step": 2900
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00025594897162197345,
	"loss": 2.2087,
	"step": 2920
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.0002556365529809945,
	"loss": 2.2124,
	"step": 2940
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.0002553241343400156,
	"loss": 2.1762,
	"step": 2960
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.0002550117156990367,
	"loss": 2.2488,
	"step": 2980
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.0002546992970580578,
	"loss": 2.2316,
	"step": 3000
	},
	{
	"epoch": 0.47,
	"eval_loss": 2.394296646118164,
	"eval_runtime": 70.2494,
	"eval_samples_per_second": 28.47,
	"eval_steps_per_second": 1.779,
	"step": 3000
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.0002543868784170789,
	"loss": 2.2386,
	"step": 3020
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00025407445977609997,
	"loss": 2.224,
	"step": 3040
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.000253762041135121,
	"loss": 2.2479,
	"step": 3060
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.0002534496224941421,
	"loss": 2.2396,
	"step": 3080
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.0002531372038531632,
	"loss": 2.2405,
	"step": 3100
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.0002528247852121843,
	"loss": 2.1969,
	"step": 3120
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.0002525123665712054,
	"loss": 2.2095,
	"step": 3140
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.0002521999479302265,
	"loss": 2.2202,
	"step": 3160
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.0002518875292892476,
	"loss": 2.2088,
	"step": 3180
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.0002515751106482687,
	"loss": 2.2075,
	"step": 3200
	},
	{
	"epoch": 0.5,
	"eval_loss": 2.3918581008911133,
	"eval_runtime": 69.2896,
	"eval_samples_per_second": 28.864,
	"eval_steps_per_second": 1.804,
	"step": 3200
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.0002512626920072897,
	"loss": 2.1993,
	"step": 3220
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.0002509502733663108,
	"loss": 2.2406,
	"step": 3240
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.0002506378547253319,
	"loss": 2.2352,
	"step": 3260
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.000250325436084353,
	"loss": 2.236,
	"step": 3280
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.0002500130174433741,
	"loss": 2.1805,
	"step": 3300
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.0002497005988023952,
	"loss": 2.2249,
	"step": 3320
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.00024938818016141624,
	"loss": 2.2153,
	"step": 3340
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.0002490757615204374,
	"loss": 2.2115,
	"step": 3360
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.00024876334287945843,
	"loss": 2.2284,
	"step": 3380
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.0002484509242384795,
	"loss": 2.184,
	"step": 3400
	},
	{
	"epoch": 0.53,
	"eval_loss": 2.3887791633605957,
	"eval_runtime": 69.2387,
	"eval_samples_per_second": 28.886,
	"eval_steps_per_second": 1.805,
	"step": 3400
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.0002481385055975006,
	"loss": 2.2172,
	"step": 3420
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.0002478260869565217,
	"loss": 2.2347,
	"step": 3440
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.0002475136683155428,
	"loss": 2.2213,
	"step": 3460
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.0002472012496745639,
	"loss": 2.2215,
	"step": 3480
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00024688883103358495,
	"loss": 2.2058,
	"step": 3500
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00024657641239260604,
	"loss": 2.1918,
	"step": 3520
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.0002462639937516272,
	"loss": 2.2021,
	"step": 3540
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00024595157511064824,
	"loss": 2.1832,
	"step": 3560
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.00024563915646966933,
	"loss": 2.2199,
	"step": 3580
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.0002453267378286904,
	"loss": 2.1997,
	"step": 3600
	},
	{
	"epoch": 0.56,
	"eval_loss": 2.386540412902832,
	"eval_runtime": 69.2123,
	"eval_samples_per_second": 28.897,
	"eval_steps_per_second": 1.806,
	"step": 3600
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.0002450143191877115,
	"loss": 2.2009,
	"step": 3620
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.0002447019005467326,
	"loss": 2.2045,
	"step": 3640
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.0002443894819057537,
	"loss": 2.2231,
	"step": 3660
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.00024407706326477478,
	"loss": 2.211,
	"step": 3680
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.00024376464462379588,
	"loss": 2.1904,
	"step": 3700
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00024345222598281694,
	"loss": 2.1492,
	"step": 3720
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00024313980734183807,
	"loss": 2.2368,
	"step": 3740
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00024282738870085914,
	"loss": 2.1753,
	"step": 3760
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00024251497005988023,
	"loss": 2.179,
	"step": 3780
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.0002422025514189013,
	"loss": 2.1811,
	"step": 3800
	},
	{
	"epoch": 0.59,
	"eval_loss": 2.3864212036132812,
	"eval_runtime": 69.2951,
	"eval_samples_per_second": 28.862,
	"eval_steps_per_second": 1.804,
	"step": 3800
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.0002418901327779224,
	"loss": 2.1496,
	"step": 3820
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.0002415777141369435,
	"loss": 2.2071,
	"step": 3840
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00024126529549596459,
	"loss": 2.189,
	"step": 3860
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00024095287685498565,
	"loss": 2.1838,
	"step": 3880
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00024064045821400675,
	"loss": 2.2292,
	"step": 3900
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00024032803957302782,
	"loss": 2.1931,
	"step": 3920
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00024001562093204894,
	"loss": 2.2293,
	"step": 3940
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00023970320229107,
	"loss": 2.2112,
	"step": 3960
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.0002393907836500911,
	"loss": 2.1479,
	"step": 3980
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00023907836500911217,
	"loss": 2.1661,
	"step": 4000
	},
	{
	"epoch": 0.62,
	"eval_loss": 2.383505344390869,
	"eval_runtime": 69.2876,
	"eval_samples_per_second": 28.865,
	"eval_steps_per_second": 1.804,
	"step": 4000
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.0002387659463681333,
	"loss": 2.1783,
	"step": 4020
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00023845352772715436,
	"loss": 2.1975,
	"step": 4040
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00023814110908617546,
	"loss": 2.2268,
	"step": 4060
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00023782869044519653,
	"loss": 2.1815,
	"step": 4080
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00023751627180421765,
	"loss": 2.2305,
	"step": 4100
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00023720385316323872,
	"loss": 2.2087,
	"step": 4120
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.0002368914345222598,
	"loss": 2.2204,
	"step": 4140
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00023657901588128088,
	"loss": 2.2138,
	"step": 4160
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.000236266597240302,
	"loss": 2.2071,
	"step": 4180
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00023595417859932307,
	"loss": 2.1728,
	"step": 4200
	},
	{
	"epoch": 0.65,
	"eval_loss": 2.3820013999938965,
	"eval_runtime": 69.3049,
	"eval_samples_per_second": 28.858,
	"eval_steps_per_second": 1.804,
	"step": 4200
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00023564175995834417,
	"loss": 2.182,
	"step": 4220
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00023532934131736524,
	"loss": 2.1948,
	"step": 4240
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00023501692267638633,
	"loss": 2.2178,
	"step": 4260
	},
	{
	"epoch": 0.67,
	"learning_rate": 0.00023470450403540743,
	"loss": 2.1979,
	"step": 4280
	},
	{
	"epoch": 0.67,
	"learning_rate": 0.00023439208539442852,
	"loss": 2.222,
	"step": 4300
	},
	{
	"epoch": 0.67,
	"learning_rate": 0.0002340796667534496,
	"loss": 2.221,
	"step": 4320
	},
	{
	"epoch": 0.67,
	"learning_rate": 0.00023376724811247069,
	"loss": 2.208,
	"step": 4340
	},
	{
	"epoch": 0.68,
	"learning_rate": 0.00023345482947149175,
	"loss": 2.1502,
	"step": 4360
	},
	{
	"epoch": 0.68,
	"learning_rate": 0.00023314241083051288,
	"loss": 2.1628,
	"step": 4380
	},
	{
	"epoch": 0.68,
	"learning_rate": 0.00023282999218953395,
	"loss": 2.1933,
	"step": 4400
	},
	{
	"epoch": 0.68,
	"eval_loss": 2.380128860473633,
	"eval_runtime": 69.2864,
	"eval_samples_per_second": 28.866,
	"eval_steps_per_second": 1.804,
	"step": 4400
	},
	{
	"epoch": 0.69,
	"learning_rate": 0.00023251757354855504,
	"loss": 2.2204,
	"step": 4420
	},
	{
	"epoch": 0.69,
	"learning_rate": 0.0002322051549075761,
	"loss": 2.218,
	"step": 4440
	},
	{
	"epoch": 0.69,
	"learning_rate": 0.00023189273626659723,
	"loss": 2.199,
	"step": 4460
	},
	{
	"epoch": 0.7,
	"learning_rate": 0.0002315803176256183,
	"loss": 2.1826,
	"step": 4480
	},
	{
	"epoch": 0.7,
	"learning_rate": 0.0002312678989846394,
	"loss": 2.174,
	"step": 4500
	},
	{
	"epoch": 0.7,
	"learning_rate": 0.00023095548034366046,
	"loss": 2.2011,
	"step": 4520
	},
	{
	"epoch": 0.71,
	"learning_rate": 0.00023064306170268159,
	"loss": 2.1951,
	"step": 4540
	},
	{
	"epoch": 0.71,
	"learning_rate": 0.00023033064306170265,
	"loss": 2.2189,
	"step": 4560
	},
	{
	"epoch": 0.71,
	"learning_rate": 0.00023001822442072375,
	"loss": 2.1891,
	"step": 4580
	},
	{
	"epoch": 0.71,
	"learning_rate": 0.00022970580577974482,
	"loss": 2.1873,
	"step": 4600
	},
	{
	"epoch": 0.71,
	"eval_loss": 2.379713296890259,
	"eval_runtime": 69.3005,
	"eval_samples_per_second": 28.86,
	"eval_steps_per_second": 1.804,
	"step": 4600
	},
	{
	"epoch": 0.72,
	"learning_rate": 0.00022939338713876591,
	"loss": 2.2191,
	"step": 4620
	},
	{
	"epoch": 0.72,
	"learning_rate": 0.000229080968497787,
	"loss": 2.1966,
	"step": 4640
	},
	{
	"epoch": 0.72,
	"learning_rate": 0.0002287685498568081,
	"loss": 2.2062,
	"step": 4660
	},
	{
	"epoch": 0.73,
	"learning_rate": 0.00022845613121582917,
	"loss": 2.1888,
	"step": 4680
	},
	{
	"epoch": 0.73,
	"learning_rate": 0.00022814371257485027,
	"loss": 2.1938,
	"step": 4700
	},
	{
	"epoch": 0.73,
	"learning_rate": 0.0002278312939338714,
	"loss": 2.206,
	"step": 4720
	},
	{
	"epoch": 0.74,
	"learning_rate": 0.00022751887529289246,
	"loss": 2.1584,
	"step": 4740
	},
	{
	"epoch": 0.74,
	"learning_rate": 0.00022720645665191355,
	"loss": 2.1933,
	"step": 4760
	},
	{
	"epoch": 0.74,
	"learning_rate": 0.00022689403801093462,
	"loss": 2.2087,
	"step": 4780
	},
	{
	"epoch": 0.75,
	"learning_rate": 0.00022658161936995575,
	"loss": 2.2239,
	"step": 4800
	},
	{
	"epoch": 0.75,
	"eval_loss": 2.3774757385253906,
	"eval_runtime": 69.3137,
	"eval_samples_per_second": 28.854,
	"eval_steps_per_second": 1.803,
	"step": 4800
	},
	{
	"epoch": 0.75,
	"learning_rate": 0.00022626920072897681,
	"loss": 2.2136,
	"step": 4820
	},
	{
	"epoch": 0.75,
	"learning_rate": 0.0002259567820879979,
	"loss": 2.2046,
	"step": 4840
	},
	{
	"epoch": 0.76,
	"learning_rate": 0.00022564436344701898,
	"loss": 2.2031,
	"step": 4860
	},
	{
	"epoch": 0.76,
	"learning_rate": 0.0002253319448060401,
	"loss": 2.171,
	"step": 4880
	},
	{
	"epoch": 0.76,
	"learning_rate": 0.00022501952616506117,
	"loss": 2.2101,
	"step": 4900
	},
	{
	"epoch": 0.76,
	"learning_rate": 0.00022470710752408226,
	"loss": 2.1306,
	"step": 4920
	},
	{
	"epoch": 0.77,
	"learning_rate": 0.00022439468888310333,
	"loss": 2.1754,
	"step": 4940
	},
	{
	"epoch": 0.77,
	"learning_rate": 0.00022408227024212443,
	"loss": 2.1972,
	"step": 4960
	},
	{
	"epoch": 0.77,
	"learning_rate": 0.00022376985160114552,
	"loss": 2.2175,
	"step": 4980
	},
	{
	"epoch": 0.78,
	"learning_rate": 0.00022345743296016662,
	"loss": 2.139,
	"step": 5000
	},
	{
	"epoch": 0.78,
	"eval_loss": 2.3760337829589844,
	"eval_runtime": 69.3092,
	"eval_samples_per_second": 28.856,
	"eval_steps_per_second": 1.804,
	"step": 5000
	},
	{
	"epoch": 0.78,
	"learning_rate": 0.0002231450143191877,
	"loss": 2.1912,
	"step": 5020
	},
	{
	"epoch": 0.78,
	"learning_rate": 0.00022283259567820878,
	"loss": 2.2036,
	"step": 5040
	},
	{
	"epoch": 0.79,
	"learning_rate": 0.00022252017703722985,
	"loss": 2.1852,
	"step": 5060
	},
	{
	"epoch": 0.79,
	"learning_rate": 0.00022220775839625097,
	"loss": 2.1672,
	"step": 5080
	},
	{
	"epoch": 0.79,
	"learning_rate": 0.00022189533975527204,
	"loss": 2.1828,
	"step": 5100
	},
	{
	"epoch": 0.8,
	"learning_rate": 0.00022158292111429314,
	"loss": 2.1875,
	"step": 5120
	},
	{
	"epoch": 0.8,
	"learning_rate": 0.0002212705024733142,
	"loss": 2.1997,
	"step": 5140
	},
	{
	"epoch": 0.8,
	"learning_rate": 0.00022095808383233533,
	"loss": 2.2162,
	"step": 5160
	},
	{
	"epoch": 0.8,
	"learning_rate": 0.0002206456651913564,
	"loss": 2.2213,
	"step": 5180
	},
	{
	"epoch": 0.81,
	"learning_rate": 0.0002203332465503775,
	"loss": 2.1972,
	"step": 5200
	},
	{
	"epoch": 0.81,
	"eval_loss": 2.374734878540039,
	"eval_runtime": 69.2582,
	"eval_samples_per_second": 28.877,
	"eval_steps_per_second": 1.805,
	"step": 5200
	},
	{
	"epoch": 0.81,
	"learning_rate": 0.00022002082790939856,
	"loss": 2.175,
	"step": 5220
	},
	{
	"epoch": 0.81,
	"learning_rate": 0.00021970840926841968,
	"loss": 2.1951,
	"step": 5240
	},
	{
	"epoch": 0.82,
	"learning_rate": 0.00021939599062744075,
	"loss": 2.1493,
	"step": 5260
	},
	{
	"epoch": 0.82,
	"learning_rate": 0.00021908357198646185,
	"loss": 2.1611,
	"step": 5280
	},
	{
	"epoch": 0.82,
	"learning_rate": 0.00021877115334548291,
	"loss": 2.1621,
	"step": 5300
	},
	{
	"epoch": 0.83,
	"learning_rate": 0.00021845873470450404,
	"loss": 2.1875,
	"step": 5320
	},
	{
	"epoch": 0.83,
	"learning_rate": 0.0002181463160635251,
	"loss": 2.1733,
	"step": 5340
	},
	{
	"epoch": 0.83,
	"learning_rate": 0.0002178338974225462,
	"loss": 2.242,
	"step": 5360
	},
	{
	"epoch": 0.84,
	"learning_rate": 0.00021752147878156727,
	"loss": 2.2154,
	"step": 5380
	},
	{
	"epoch": 0.84,
	"learning_rate": 0.00021720906014058836,
	"loss": 2.1969,
	"step": 5400
	},
	{
	"epoch": 0.84,
	"eval_loss": 2.372680902481079,
	"eval_runtime": 69.283,
	"eval_samples_per_second": 28.867,
	"eval_steps_per_second": 1.804,
	"step": 5400
	},
	{
	"epoch": 0.84,
	"learning_rate": 0.00021689664149960946,
	"loss": 2.1245,
	"step": 5420
	},
	{
	"epoch": 0.85,
	"learning_rate": 0.00021658422285863056,
	"loss": 2.2049,
	"step": 5440
	},
	{
	"epoch": 0.85,
	"learning_rate": 0.00021627180421765162,
	"loss": 2.1716,
	"step": 5460
	},
	{
	"epoch": 0.85,
	"learning_rate": 0.00021595938557667272,
	"loss": 2.1891,
	"step": 5480
	},
	{
	"epoch": 0.85,
	"learning_rate": 0.0002156469669356938,
	"loss": 2.1963,
	"step": 5500
	},
	{
	"epoch": 0.86,
	"learning_rate": 0.0002153345482947149,
	"loss": 2.1946,
	"step": 5520
	},
	{
	"epoch": 0.86,
	"learning_rate": 0.00021502212965373598,
	"loss": 2.1982,
	"step": 5540
	},
	{
	"epoch": 0.86,
	"learning_rate": 0.00021470971101275707,
	"loss": 2.1759,
	"step": 5560
	},
	{
	"epoch": 0.87,
	"learning_rate": 0.00021439729237177814,
	"loss": 2.1661,
	"step": 5580
	},
	{
	"epoch": 0.87,
	"learning_rate": 0.00021408487373079926,
	"loss": 2.2051,
	"step": 5600
	},
	{
	"epoch": 0.87,
	"eval_loss": 2.3719565868377686,
	"eval_runtime": 69.321,
	"eval_samples_per_second": 28.851,
	"eval_steps_per_second": 1.803,
	"step": 5600
	},
	{
	"epoch": 0.87,
	"learning_rate": 0.00021377245508982033,
	"loss": 2.1605,
	"step": 5620
	},
	{
	"epoch": 0.88,
	"learning_rate": 0.00021346003644884143,
	"loss": 2.1375,
	"step": 5640
	},
	{
	"epoch": 0.88,
	"learning_rate": 0.0002131476178078625,
	"loss": 2.1293,
	"step": 5660
	},
	{
	"epoch": 0.88,
	"learning_rate": 0.00021283519916688362,
	"loss": 2.2189,
	"step": 5680
	},
	{
	"epoch": 0.89,
	"learning_rate": 0.0002125227805259047,
	"loss": 2.1784,
	"step": 5700
	},
	{
	"epoch": 0.89,
	"learning_rate": 0.00021221036188492578,
	"loss": 2.1764,
	"step": 5720
	},
	{
	"epoch": 0.89,
	"learning_rate": 0.00021189794324394685,
	"loss": 2.1569,
	"step": 5740
	},
	{
	"epoch": 0.9,
	"learning_rate": 0.00021158552460296795,
	"loss": 2.1704,
	"step": 5760
	},
	{
	"epoch": 0.9,
	"learning_rate": 0.00021127310596198904,
	"loss": 2.1614,
	"step": 5780
	},
	{
	"epoch": 0.9,
	"learning_rate": 0.00021096068732101014,
	"loss": 2.2078,
	"step": 5800
	},
	{
	"epoch": 0.9,
	"eval_loss": 2.370939016342163,
	"eval_runtime": 69.2728,
	"eval_samples_per_second": 28.871,
	"eval_steps_per_second": 1.804,
	"step": 5800
	},
	{
	"epoch": 0.9,
	"learning_rate": 0.0002106482686800312,
	"loss": 2.198,
	"step": 5820
	},
	{
	"epoch": 0.91,
	"learning_rate": 0.0002103358500390523,
	"loss": 2.1735,
	"step": 5840
	},
	{
	"epoch": 0.91,
	"learning_rate": 0.00021002343139807342,
	"loss": 2.1936,
	"step": 5860
	},
	{
	"epoch": 0.91,
	"learning_rate": 0.0002097110127570945,
	"loss": 2.1559,
	"step": 5880
	},
	{
	"epoch": 0.92,
	"learning_rate": 0.0002093985941161156,
	"loss": 2.1856,
	"step": 5900
	},
	{
	"epoch": 0.92,
	"learning_rate": 0.00020908617547513666,
	"loss": 2.194,
	"step": 5920
	},
	{
	"epoch": 0.92,
	"learning_rate": 0.00020877375683415778,
	"loss": 2.1983,
	"step": 5940
	},
	{
	"epoch": 0.93,
	"learning_rate": 0.00020846133819317885,
	"loss": 2.1788,
	"step": 5960
	},
	{
	"epoch": 0.93,
	"learning_rate": 0.00020814891955219994,
	"loss": 2.2126,
	"step": 5980
	},
	{
	"epoch": 0.93,
	"learning_rate": 0.000207836500911221,
	"loss": 2.1454,
	"step": 6000
	},
	{
	"epoch": 0.93,
	"eval_loss": 2.369137763977051,
	"eval_runtime": 69.3036,
	"eval_samples_per_second": 28.859,
	"eval_steps_per_second": 1.804,
	"step": 6000
	},
	{
	"epoch": 0.94,
	"learning_rate": 0.00020752408227024213,
	"loss": 2.1603,
	"step": 6020
	},
	{
	"epoch": 0.94,
	"learning_rate": 0.0002072116636292632,
	"loss": 2.2075,
	"step": 6040
	},
	{
	"epoch": 0.94,
	"learning_rate": 0.0002068992449882843,
	"loss": 2.1817,
	"step": 6060
	},
	{
	"epoch": 0.94,
	"learning_rate": 0.00020658682634730537,
	"loss": 2.1917,
	"step": 6080
	},
	{
	"epoch": 0.95,
	"learning_rate": 0.00020627440770632646,
	"loss": 2.1727,
	"step": 6100
	},
	{
	"epoch": 0.95,
	"learning_rate": 0.00020596198906534756,
	"loss": 2.1985,
	"step": 6120
	},
	{
	"epoch": 0.95,
	"learning_rate": 0.00020564957042436865,
	"loss": 2.1888,
	"step": 6140
	},
	{
	"epoch": 0.96,
	"learning_rate": 0.00020533715178338972,
	"loss": 2.1425,
	"step": 6160
	},
	{
	"epoch": 0.96,
	"learning_rate": 0.00020502473314241082,
	"loss": 2.1659,
	"step": 6180
	},
	{
	"epoch": 0.96,
	"learning_rate": 0.00020471231450143188,
	"loss": 2.1768,
	"step": 6200
	},
	{
	"epoch": 0.96,
	"eval_loss": 2.368589162826538,
	"eval_runtime": 69.4033,
	"eval_samples_per_second": 28.817,
	"eval_steps_per_second": 1.801,
	"step": 6200
	},
	{
	"epoch": 0.97,
	"learning_rate": 0.000204399895860453,
	"loss": 2.1744,
	"step": 6220
	},
	{
	"epoch": 0.97,
	"learning_rate": 0.00020408747721947407,
	"loss": 2.1484,
	"step": 6240
	},
	{
	"epoch": 0.97,
	"learning_rate": 0.00020377505857849517,
	"loss": 2.2154,
	"step": 6260
	},
	{
	"epoch": 0.98,
	"learning_rate": 0.00020346263993751624,
	"loss": 2.1358,
	"step": 6280
	},
	{
	"epoch": 0.98,
	"learning_rate": 0.00020315022129653736,
	"loss": 2.1809,
	"step": 6300
	},
	{
	"epoch": 0.98,
	"learning_rate": 0.00020283780265555843,
	"loss": 2.1813,
	"step": 6320
	},
	{
	"epoch": 0.99,
	"learning_rate": 0.00020252538401457952,
	"loss": 2.1903,
	"step": 6340
	},
	{
	"epoch": 0.99,
	"learning_rate": 0.0002022129653736006,
	"loss": 2.1971,
	"step": 6360
	},
	{
	"epoch": 0.99,
	"learning_rate": 0.00020190054673262172,
	"loss": 2.2041,
	"step": 6380
	},
	{
	"epoch": 0.99,
	"learning_rate": 0.00020158812809164278,
	"loss": 2.2169,
	"step": 6400
	},
	{
	"epoch": 0.99,
	"eval_loss": 2.3672330379486084,
	"eval_runtime": 69.3516,
	"eval_samples_per_second": 28.839,
	"eval_steps_per_second": 1.802,
	"step": 6400
	},
	{
	"epoch": 1.0,
	"learning_rate": 0.00020127570945066388,
	"loss": 2.2101,
	"step": 6420
	},
	{
	"epoch": 1.0,
	"learning_rate": 0.00020096329080968495,
	"loss": 2.1739,
	"step": 6440
	},
	{
	"epoch": 1.0,
	"learning_rate": 0.00020065087216870604,
	"loss": 2.1764,
	"step": 6460
	},
	{
	"epoch": 1.01,
	"learning_rate": 0.00020033845352772714,
	"loss": 2.1718,
	"step": 6480
	},
	{
	"epoch": 1.01,
	"learning_rate": 0.00020002603488674823,
	"loss": 2.1688,
	"step": 6500
	},
	{
	"epoch": 1.01,
	"learning_rate": 0.0001997136162457693,
	"loss": 2.1322,
	"step": 6520
	},
	{
	"epoch": 1.02,
	"learning_rate": 0.0001994011976047904,
	"loss": 2.1593,
	"step": 6540
	},
	{
	"epoch": 1.02,
	"learning_rate": 0.0001990887789638115,
	"loss": 2.179,
	"step": 6560
	},
	{
	"epoch": 1.02,
	"learning_rate": 0.0001987763603228326,
	"loss": 2.139,
	"step": 6580
	},
	{
	"epoch": 1.03,
	"learning_rate": 0.00019846394168185366,
	"loss": 2.1594,
	"step": 6600
	},
	{
	"epoch": 1.03,
	"eval_loss": 2.367051839828491,
	"eval_runtime": 69.3473,
	"eval_samples_per_second": 28.84,
	"eval_steps_per_second": 1.803,
	"step": 6600
	},
	{
	"epoch": 1.03,
	"learning_rate": 0.00019815152304087475,
	"loss": 2.2033,
	"step": 6620
	},
	{
	"epoch": 1.03,
	"learning_rate": 0.00019783910439989582,
	"loss": 2.183,
	"step": 6640
	},
	{
	"epoch": 1.03,
	"learning_rate": 0.00019752668575891694,
	"loss": 2.1517,
	"step": 6660
	},
	{
	"epoch": 1.04,
	"learning_rate": 0.000197214267117938,
	"loss": 2.183,
	"step": 6680
	},
	{
	"epoch": 1.04,
	"learning_rate": 0.0001969018484769591,
	"loss": 2.197,
	"step": 6700
	},
	{
	"epoch": 1.04,
	"learning_rate": 0.00019658942983598017,
	"loss": 2.1778,
	"step": 6720
	},
	{
	"epoch": 1.05,
	"learning_rate": 0.0001962770111950013,
	"loss": 2.1745,
	"step": 6740
	},
	{
	"epoch": 1.05,
	"learning_rate": 0.00019596459255402237,
	"loss": 2.1585,
	"step": 6760
	},
	{
	"epoch": 1.05,
	"learning_rate": 0.00019565217391304346,
	"loss": 2.1708,
	"step": 6780
	},
	{
	"epoch": 1.06,
	"learning_rate": 0.00019533975527206453,
	"loss": 2.1649,
	"step": 6800
	},
	{
	"epoch": 1.06,
	"eval_loss": 2.363710880279541,
	"eval_runtime": 69.2642,
	"eval_samples_per_second": 28.875,
	"eval_steps_per_second": 1.805,
	"step": 6800
	},
	{
	"epoch": 1.06,
	"learning_rate": 0.00019502733663108565,
	"loss": 2.1391,
	"step": 6820
	},
	{
	"epoch": 1.06,
	"learning_rate": 0.00019471491799010672,
	"loss": 2.1939,
	"step": 6840
	},
	{
	"epoch": 1.07,
	"learning_rate": 0.00019440249934912782,
	"loss": 2.1558,
	"step": 6860
	},
	{
	"epoch": 1.07,
	"learning_rate": 0.00019409008070814888,
	"loss": 2.173,
	"step": 6880
	},
	{
	"epoch": 1.07,
	"learning_rate": 0.00019377766206716998,
	"loss": 2.1821,
	"step": 6900
	},
	{
	"epoch": 1.08,
	"learning_rate": 0.00019346524342619107,
	"loss": 2.16,
	"step": 6920
	},
	{
	"epoch": 1.08,
	"learning_rate": 0.00019315282478521217,
	"loss": 2.1808,
	"step": 6940
	},
	{
	"epoch": 1.08,
	"learning_rate": 0.00019284040614423324,
	"loss": 2.1355,
	"step": 6960
	},
	{
	"epoch": 1.08,
	"learning_rate": 0.00019252798750325433,
	"loss": 2.1813,
	"step": 6980
	},
	{
	"epoch": 1.09,
	"learning_rate": 0.00019221556886227546,
	"loss": 2.1677,
	"step": 7000
	},
	{
	"epoch": 1.09,
	"eval_loss": 2.3648109436035156,
	"eval_runtime": 69.3675,
	"eval_samples_per_second": 28.832,
	"eval_steps_per_second": 1.802,
	"step": 7000
	},
	{
	"epoch": 1.09,
	"learning_rate": 0.00019190315022129652,
	"loss": 2.1479,
	"step": 7020
	},
	{
	"epoch": 1.09,
	"learning_rate": 0.00019159073158031762,
	"loss": 2.1852,
	"step": 7040
	},
	{
	"epoch": 1.1,
	"learning_rate": 0.0001912783129393387,
	"loss": 2.14,
	"step": 7060
	},
	{
	"epoch": 1.1,
	"learning_rate": 0.0001909658942983598,
	"loss": 2.1332,
	"step": 7080
	},
	{
	"epoch": 1.1,
	"learning_rate": 0.00019065347565738088,
	"loss": 2.178,
	"step": 7100
	},
	{
	"epoch": 1.11,
	"learning_rate": 0.00019034105701640197,
	"loss": 2.1661,
	"step": 7120
	},
	{
	"epoch": 1.11,
	"learning_rate": 0.00019002863837542304,
	"loss": 2.1902,
	"step": 7140
	},
	{
	"epoch": 1.11,
	"learning_rate": 0.00018971621973444417,
	"loss": 2.1775,
	"step": 7160
	},
	{
	"epoch": 1.12,
	"learning_rate": 0.00018940380109346523,
	"loss": 2.2007,
	"step": 7180
	},
	{
	"epoch": 1.12,
	"learning_rate": 0.00018909138245248633,
	"loss": 2.2078,
	"step": 7200
	},
	{
	"epoch": 1.12,
	"eval_loss": 2.3642289638519287,
	"eval_runtime": 69.5476,
	"eval_samples_per_second": 28.757,
	"eval_steps_per_second": 1.797,
	"step": 7200
	},
	{
	"epoch": 1.12,
	"learning_rate": 0.0001887789638115074,
	"loss": 2.185,
	"step": 7220
	},
	{
	"epoch": 1.13,
	"learning_rate": 0.0001884665451705285,
	"loss": 2.1856,
	"step": 7240
	},
	{
	"epoch": 1.13,
	"learning_rate": 0.0001881541265295496,
	"loss": 2.2049,
	"step": 7260
	},
	{
	"epoch": 1.13,
	"learning_rate": 0.00018784170788857068,
	"loss": 2.1376,
	"step": 7280
	},
	{
	"epoch": 1.13,
	"learning_rate": 0.00018752928924759175,
	"loss": 2.1693,
	"step": 7300
	},
	{
	"epoch": 1.14,
	"learning_rate": 0.00018721687060661285,
	"loss": 2.1825,
	"step": 7320
	},
	{
	"epoch": 1.14,
	"learning_rate": 0.00018690445196563392,
	"loss": 2.1649,
	"step": 7340
	},
	{
	"epoch": 1.14,
	"learning_rate": 0.00018659203332465504,
	"loss": 2.1936,
	"step": 7360
	},
	{
	"epoch": 1.15,
	"learning_rate": 0.0001862796146836761,
	"loss": 2.143,
	"step": 7380
	},
	{
	"epoch": 1.15,
	"learning_rate": 0.0001859671960426972,
	"loss": 2.1617,
	"step": 7400
	},
	{
	"epoch": 1.15,
	"eval_loss": 2.362150192260742,
	"eval_runtime": 69.3218,
	"eval_samples_per_second": 28.851,
	"eval_steps_per_second": 1.803,
	"step": 7400
	},
	{
	"epoch": 1.15,
	"learning_rate": 0.00018565477740171827,
	"loss": 2.1555,
	"step": 7420
	},
	{
	"epoch": 1.16,
	"learning_rate": 0.0001853423587607394,
	"loss": 2.1639,
	"step": 7440
	},
	{
	"epoch": 1.16,
	"learning_rate": 0.00018502994011976046,
	"loss": 2.1678,
	"step": 7460
	},
	{
	"epoch": 1.16,
	"learning_rate": 0.00018471752147878156,
	"loss": 2.1775,
	"step": 7480
	},
	{
	"epoch": 1.17,
	"learning_rate": 0.00018440510283780263,
	"loss": 2.1784,
	"step": 7500
	},
	{
	"epoch": 1.17,
	"learning_rate": 0.00018409268419682375,
	"loss": 2.1499,
	"step": 7520
	},
	{
	"epoch": 1.17,
	"learning_rate": 0.00018378026555584482,
	"loss": 2.154,
	"step": 7540
	},
	{
	"epoch": 1.17,
	"learning_rate": 0.0001834678469148659,
	"loss": 2.1793,
	"step": 7560
	},
	{
	"epoch": 1.18,
	"learning_rate": 0.00018315542827388698,
	"loss": 2.2292,
	"step": 7580
	},
	{
	"epoch": 1.18,
	"learning_rate": 0.00018284300963290808,
	"loss": 2.1578,
	"step": 7600
	},
	{
	"epoch": 1.18,
	"eval_loss": 2.3628857135772705,
	"eval_runtime": 69.2564,
	"eval_samples_per_second": 28.878,
	"eval_steps_per_second": 1.805,
	"step": 7600
	},
	{
	"epoch": 1.18,
	"learning_rate": 0.00018253059099192917,
	"loss": 2.1494,
	"step": 7620
	},
	{
	"epoch": 1.19,
	"learning_rate": 0.00018221817235095027,
	"loss": 2.1669,
	"step": 7640
	},
	{
	"epoch": 1.19,
	"learning_rate": 0.00018190575370997133,
	"loss": 2.1447,
	"step": 7660
	},
	{
	"epoch": 1.19,
	"learning_rate": 0.00018159333506899243,
	"loss": 2.1663,
	"step": 7680
	},
	{
	"epoch": 1.2,
	"learning_rate": 0.0001812809164280135,
	"loss": 2.1871,
	"step": 7700
	},
	{
	"epoch": 1.2,
	"learning_rate": 0.00018096849778703462,
	"loss": 2.1338,
	"step": 7720
	},
	{
	"epoch": 1.2,
	"learning_rate": 0.0001806560791460557,
	"loss": 2.1767,
	"step": 7740
	},
	{
	"epoch": 1.21,
	"learning_rate": 0.00018034366050507678,
	"loss": 2.1694,
	"step": 7760
	},
	{
	"epoch": 1.21,
	"learning_rate": 0.00018003124186409785,
	"loss": 2.1674,
	"step": 7780
	},
	{
	"epoch": 1.21,
	"learning_rate": 0.00017971882322311898,
	"loss": 2.1863,
	"step": 7800
	},
	{
	"epoch": 1.21,
	"eval_loss": 2.3613035678863525,
	"eval_runtime": 69.2881,
	"eval_samples_per_second": 28.865,
	"eval_steps_per_second": 1.804,
	"step": 7800
	},
	{
	"epoch": 1.22,
	"learning_rate": 0.00017940640458214004,
	"loss": 2.1441,
	"step": 7820
	},
	{
	"epoch": 1.22,
	"learning_rate": 0.00017909398594116114,
	"loss": 2.1885,
	"step": 7840
	},
	{
	"epoch": 1.22,
	"learning_rate": 0.0001787815673001822,
	"loss": 2.1514,
	"step": 7860
	},
	{
	"epoch": 1.22,
	"learning_rate": 0.00017846914865920333,
	"loss": 2.2002,
	"step": 7880
	},
	{
	"epoch": 1.23,
	"learning_rate": 0.0001781567300182244,
	"loss": 2.1759,
	"step": 7900
	},
	{
	"epoch": 1.23,
	"learning_rate": 0.0001778443113772455,
	"loss": 2.1611,
	"step": 7920
	},
	{
	"epoch": 1.23,
	"learning_rate": 0.00017753189273626656,
	"loss": 2.1667,
	"step": 7940
	},
	{
	"epoch": 1.24,
	"learning_rate": 0.00017721947409528768,
	"loss": 2.1717,
	"step": 7960
	},
	{
	"epoch": 1.24,
	"learning_rate": 0.00017690705545430875,
	"loss": 2.1983,
	"step": 7980
	},
	{
	"epoch": 1.24,
	"learning_rate": 0.00017659463681332985,
	"loss": 2.2092,
	"step": 8000
	},
	{
	"epoch": 1.24,
	"eval_loss": 2.3608274459838867,
	"eval_runtime": 69.3364,
	"eval_samples_per_second": 28.845,
	"eval_steps_per_second": 1.803,
	"step": 8000
	},
	{
	"epoch": 1.25,
	"learning_rate": 0.00017628221817235092,
	"loss": 2.1305,
	"step": 8020
	},
	{
	"epoch": 1.25,
	"learning_rate": 0.000175969799531372,
	"loss": 2.1431,
	"step": 8040
	},
	{
	"epoch": 1.25,
	"learning_rate": 0.0001756573808903931,
	"loss": 2.1384,
	"step": 8060
	},
	{
	"epoch": 1.26,
	"learning_rate": 0.0001753449622494142,
	"loss": 2.2093,
	"step": 8080
	},
	{
	"epoch": 1.26,
	"learning_rate": 0.00017503254360843527,
	"loss": 2.1271,
	"step": 8100
	},
	{
	"epoch": 1.26,
	"learning_rate": 0.00017472012496745637,
	"loss": 2.1466,
	"step": 8120
	},
	{
	"epoch": 1.26,
	"learning_rate": 0.0001744077063264775,
	"loss": 2.1578,
	"step": 8140
	},
	{
	"epoch": 1.27,
	"learning_rate": 0.00017409528768549856,
	"loss": 2.1632,
	"step": 8160
	},
	{
	"epoch": 1.27,
	"learning_rate": 0.00017378286904451965,
	"loss": 2.1465,
	"step": 8180
	},
	{
	"epoch": 1.27,
	"learning_rate": 0.00017347045040354072,
	"loss": 2.2226,
	"step": 8200
	},
	{
	"epoch": 1.27,
	"eval_loss": 2.35835599899292,
	"eval_runtime": 69.2657,
	"eval_samples_per_second": 28.874,
	"eval_steps_per_second": 1.805,
	"step": 8200
	},
	{
	"epoch": 1.28,
	"learning_rate": 0.00017315803176256184,
	"loss": 2.1585,
	"step": 8220
	},
	{
	"epoch": 1.28,
	"learning_rate": 0.0001728456131215829,
	"loss": 2.1529,
	"step": 8240
	},
	{
	"epoch": 1.28,
	"learning_rate": 0.000172533194480604,
	"loss": 2.1663,
	"step": 8260
	},
	{
	"epoch": 1.29,
	"learning_rate": 0.00017222077583962508,
	"loss": 2.1422,
	"step": 8280
	},
	{
	"epoch": 1.29,
	"learning_rate": 0.00017190835719864617,
	"loss": 2.158,
	"step": 8300
	},
	{
	"epoch": 1.29,
	"learning_rate": 0.00017159593855766727,
	"loss": 2.1984,
	"step": 8320
	},
	{
	"epoch": 1.3,
	"learning_rate": 0.00017128351991668836,
	"loss": 2.1395,
	"step": 8340
	},
	{
	"epoch": 1.3,
	"learning_rate": 0.00017097110127570943,
	"loss": 2.14,
	"step": 8360
	},
	{
	"epoch": 1.3,
	"learning_rate": 0.00017065868263473053,
	"loss": 2.1657,
	"step": 8380
	},
	{
	"epoch": 1.31,
	"learning_rate": 0.00017036188492580056,
	"loss": 2.167,
	"step": 8400
	},
	{
	"epoch": 1.31,
	"eval_loss": 2.35697603225708,
	"eval_runtime": 69.2685,
	"eval_samples_per_second": 28.873,
	"eval_steps_per_second": 1.805,
	"step": 8400
	},
	{
	"epoch": 1.31,
	"learning_rate": 0.00017004946628482165,
	"loss": 2.1396,
	"step": 8420
	},
	{
	"epoch": 1.31,
	"learning_rate": 0.00016973704764384272,
	"loss": 2.1777,
	"step": 8440
	},
	{
	"epoch": 1.31,
	"learning_rate": 0.00016942462900286384,
	"loss": 2.1366,
	"step": 8460
	},
	{
	"epoch": 1.32,
	"learning_rate": 0.0001691122103618849,
	"loss": 2.1625,
	"step": 8480
	},
	{
	"epoch": 1.32,
	"learning_rate": 0.000168799791720906,
	"loss": 2.1859,
	"step": 8500
	},
	{
	"epoch": 1.32,
	"learning_rate": 0.00016848737307992707,
	"loss": 2.1705,
	"step": 8520
	},
	{
	"epoch": 1.33,
	"learning_rate": 0.0001681749544389482,
	"loss": 2.1971,
	"step": 8540
	},
	{
	"epoch": 1.33,
	"learning_rate": 0.00016786253579796927,
	"loss": 2.1937,
	"step": 8560
	},
	{
	"epoch": 1.33,
	"learning_rate": 0.00016755011715699036,
	"loss": 2.1436,
	"step": 8580
	},
	{
	"epoch": 1.34,
	"learning_rate": 0.00016723769851601143,
	"loss": 2.1592,
	"step": 8600
	},
	{
	"epoch": 1.34,
	"eval_loss": 2.3576247692108154,
	"eval_runtime": 69.277,
	"eval_samples_per_second": 28.87,
	"eval_steps_per_second": 1.804,
	"step": 8600
	},
	{
	"epoch": 1.34,
	"learning_rate": 0.00016692527987503252,
	"loss": 2.1745,
	"step": 8620
	},
	{
	"epoch": 1.34,
	"learning_rate": 0.00016661286123405362,
	"loss": 2.1517,
	"step": 8640
	},
	{
	"epoch": 1.35,
	"learning_rate": 0.00016630044259307472,
	"loss": 2.1921,
	"step": 8660
	},
	{
	"epoch": 1.35,
	"learning_rate": 0.00016598802395209578,
	"loss": 2.1703,
	"step": 8680
	},
	{
	"epoch": 1.35,
	"learning_rate": 0.00016567560531111688,
	"loss": 2.1223,
	"step": 8700
	},
	{
	"epoch": 1.36,
	"learning_rate": 0.00016536318667013795,
	"loss": 2.1748,
	"step": 8720
	},
	{
	"epoch": 1.36,
	"learning_rate": 0.00016505076802915907,
	"loss": 2.145,
	"step": 8740
	},
	{
	"epoch": 1.36,
	"learning_rate": 0.00016473834938818014,
	"loss": 2.1077,
	"step": 8760
	},
	{
	"epoch": 1.36,
	"learning_rate": 0.00016442593074720123,
	"loss": 2.1571,
	"step": 8780
	},
	{
	"epoch": 1.37,
	"learning_rate": 0.0001641135121062223,
	"loss": 2.1946,
	"step": 8800
	},
	{
	"epoch": 1.37,
	"eval_loss": 2.3559648990631104,
	"eval_runtime": 69.3886,
	"eval_samples_per_second": 28.823,
	"eval_steps_per_second": 1.801,
	"step": 8800
	},
	{
	"epoch": 1.37,
	"learning_rate": 0.00016380109346524342,
	"loss": 2.1635,
	"step": 8820
	},
	{
	"epoch": 1.37,
	"learning_rate": 0.0001634886748242645,
	"loss": 2.1546,
	"step": 8840
	},
	{
	"epoch": 1.38,
	"learning_rate": 0.0001631762561832856,
	"loss": 2.1359,
	"step": 8860
	},
	{
	"epoch": 1.38,
	"learning_rate": 0.00016286383754230666,
	"loss": 2.1741,
	"step": 8880
	},
	{
	"epoch": 1.38,
	"learning_rate": 0.00016255141890132778,
	"loss": 2.1382,
	"step": 8900
	},
	{
	"epoch": 1.39,
	"learning_rate": 0.00016223900026034885,
	"loss": 2.1514,
	"step": 8920
	},
	{
	"epoch": 1.39,
	"learning_rate": 0.00016192658161936994,
	"loss": 2.17,
	"step": 8940
	},
	{
	"epoch": 1.39,
	"learning_rate": 0.000161614162978391,
	"loss": 2.1784,
	"step": 8960
	},
	{
	"epoch": 1.4,
	"learning_rate": 0.0001613017443374121,
	"loss": 2.1869,
	"step": 8980
	},
	{
	"epoch": 1.4,
	"learning_rate": 0.0001609893256964332,
	"loss": 2.155,
	"step": 9000
	},
	{
	"epoch": 1.4,
	"eval_loss": 2.3562612533569336,
	"eval_runtime": 70.7208,
	"eval_samples_per_second": 28.28,
	"eval_steps_per_second": 1.768,
	"step": 9000
	},
	{
	"epoch": 1.4,
	"learning_rate": 0.0001606769070554543,
	"loss": 2.1467,
	"step": 9020
	},
	{
	"epoch": 1.4,
	"learning_rate": 0.00016036448841447537,
	"loss": 2.1662,
	"step": 9040
	},
	{
	"epoch": 1.41,
	"learning_rate": 0.00016005206977349646,
	"loss": 2.1928,
	"step": 9060
	},
	{
	"epoch": 1.41,
	"learning_rate": 0.00015973965113251756,
	"loss": 2.1084,
	"step": 9080
	},
	{
	"epoch": 1.41,
	"learning_rate": 0.00015942723249153865,
	"loss": 2.182,
	"step": 9100
	},
	{
	"epoch": 1.42,
	"learning_rate": 0.00015911481385055975,
	"loss": 2.1502,
	"step": 9120
	},
	{
	"epoch": 1.42,
	"learning_rate": 0.00015880239520958082,
	"loss": 2.1645,
	"step": 9140
	},
	{
	"epoch": 1.42,
	"learning_rate": 0.00015848997656860194,
	"loss": 2.1246,
	"step": 9160
	},
	{
	"epoch": 1.43,
	"learning_rate": 0.000158177557927623,
	"loss": 2.1769,
	"step": 9180
	},
	{
	"epoch": 1.43,
	"learning_rate": 0.0001578651392866441,
	"loss": 2.1772,
	"step": 9200
	},
	{
	"epoch": 1.43,
	"eval_loss": 2.354128360748291,
	"eval_runtime": 70.4883,
	"eval_samples_per_second": 28.374,
	"eval_steps_per_second": 1.773,
	"step": 9200
	},
	{
	"epoch": 1.43,
	"learning_rate": 0.00015755272064566517,
	"loss": 2.1777,
	"step": 9220
	},
	{
	"epoch": 1.44,
	"learning_rate": 0.0001572403020046863,
	"loss": 2.1749,
	"step": 9240
	},
	{
	"epoch": 1.44,
	"learning_rate": 0.00015692788336370736,
	"loss": 2.1861,
	"step": 9260
	},
	{
	"epoch": 1.44,
	"learning_rate": 0.00015661546472272846,
	"loss": 2.1567,
	"step": 9280
	},
	{
	"epoch": 1.45,
	"learning_rate": 0.00015630304608174952,
	"loss": 2.1426,
	"step": 9300
	},
	{
	"epoch": 1.45,
	"learning_rate": 0.00015599062744077062,
	"loss": 2.1658,
	"step": 9320
	},
	{
	"epoch": 1.45,
	"learning_rate": 0.00015567820879979172,
	"loss": 2.1639,
	"step": 9340
	},
	{
	"epoch": 1.45,
	"learning_rate": 0.0001553657901588128,
	"loss": 2.1897,
	"step": 9360
	},
	{
	"epoch": 1.46,
	"learning_rate": 0.00015505337151783388,
	"loss": 2.1439,
	"step": 9380
	},
	{
	"epoch": 1.46,
	"learning_rate": 0.00015474095287685497,
	"loss": 2.1326,
	"step": 9400
	},
	{
	"epoch": 1.46,
	"eval_loss": 2.352673292160034,
	"eval_runtime": 69.2871,
	"eval_samples_per_second": 28.865,
	"eval_steps_per_second": 1.804,
	"step": 9400
	},
	{
	"epoch": 1.46,
	"learning_rate": 0.00015442853423587604,
	"loss": 2.139,
	"step": 9420
	},
	{
	"epoch": 1.47,
	"learning_rate": 0.00015411611559489717,
	"loss": 2.1087,
	"step": 9440
	},
	{
	"epoch": 1.47,
	"learning_rate": 0.00015380369695391823,
	"loss": 2.1528,
	"step": 9460
	},
	{
	"epoch": 1.47,
	"learning_rate": 0.00015349127831293933,
	"loss": 2.1866,
	"step": 9480
	},
	{
	"epoch": 1.48,
	"learning_rate": 0.0001531788596719604,
	"loss": 2.1436,
	"step": 9500
	},
	{
	"epoch": 1.48,
	"learning_rate": 0.00015286644103098152,
	"loss": 2.1699,
	"step": 9520
	},
	{
	"epoch": 1.48,
	"learning_rate": 0.0001525540223900026,
	"loss": 2.1415,
	"step": 9540
	},
	{
	"epoch": 1.49,
	"learning_rate": 0.00015224160374902368,
	"loss": 2.1092,
	"step": 9560
	},
	{
	"epoch": 1.49,
	"learning_rate": 0.00015192918510804475,
	"loss": 2.1422,
	"step": 9580
	},
	{
	"epoch": 1.49,
	"learning_rate": 0.00015161676646706587,
	"loss": 2.1677,
	"step": 9600
	},
	{
	"epoch": 1.49,
	"eval_loss": 2.3518292903900146,
	"eval_runtime": 69.3029,
	"eval_samples_per_second": 28.859,
	"eval_steps_per_second": 1.804,
	"step": 9600
	},
	{
	"epoch": 1.49,
	"learning_rate": 0.00015130434782608694,
	"loss": 2.1594,
	"step": 9620
	},
	{
	"epoch": 1.5,
	"learning_rate": 0.00015099192918510804,
	"loss": 2.1539,
	"step": 9640
	},
	{
	"epoch": 1.5,
	"learning_rate": 0.0001506795105441291,
	"loss": 2.1343,
	"step": 9660
	},
	{
	"epoch": 1.5,
	"learning_rate": 0.00015036709190315023,
	"loss": 2.1386,
	"step": 9680
	},
	{
	"epoch": 1.51,
	"learning_rate": 0.0001500546732621713,
	"loss": 2.1512,
	"step": 9700
	},
	{
	"epoch": 1.51,
	"learning_rate": 0.0001497422546211924,
	"loss": 2.1669,
	"step": 9720
	},
	{
	"epoch": 1.51,
	"learning_rate": 0.0001494298359802135,
	"loss": 2.158,
	"step": 9740
	},
	{
	"epoch": 1.52,
	"learning_rate": 0.00014911741733923456,
	"loss": 2.1643,
	"step": 9760
	},
	{
	"epoch": 1.52,
	"learning_rate": 0.00014880499869825565,
	"loss": 2.1612,
	"step": 9780
	},
	{
	"epoch": 1.52,
	"learning_rate": 0.00014849258005727675,
	"loss": 2.1441,
	"step": 9800
	},
	{
	"epoch": 1.52,
	"eval_loss": 2.35211181640625,
	"eval_runtime": 69.2821,
	"eval_samples_per_second": 28.867,
	"eval_steps_per_second": 1.804,
	"step": 9800
	},
	{
	"epoch": 1.53,
	"learning_rate": 0.00014818016141629784,
	"loss": 2.1704,
	"step": 9820
	},
	{
	"epoch": 1.53,
	"learning_rate": 0.0001478677427753189,
	"loss": 2.1546,
	"step": 9840
	},
	{
	"epoch": 1.53,
	"learning_rate": 0.00014755532413434,
	"loss": 2.1909,
	"step": 9860
	},
	{
	"epoch": 1.54,
	"learning_rate": 0.0001472429054933611,
	"loss": 2.149,
	"step": 9880
	},
	{
	"epoch": 1.54,
	"learning_rate": 0.00014693048685238217,
	"loss": 2.1419,
	"step": 9900
	},
	{
	"epoch": 1.54,
	"learning_rate": 0.00014661806821140327,
	"loss": 2.1465,
	"step": 9920
	},
	{
	"epoch": 1.54,
	"learning_rate": 0.00014630564957042436,
	"loss": 2.1551,
	"step": 9940
	},
	{
	"epoch": 1.55,
	"learning_rate": 0.00014599323092944546,
	"loss": 2.1526,
	"step": 9960
	},
	{
	"epoch": 1.55,
	"learning_rate": 0.00014568081228846653,
	"loss": 2.1437,
	"step": 9980
	},
	{
	"epoch": 1.55,
	"learning_rate": 0.00014536839364748762,
	"loss": 2.1659,
	"step": 10000
	},
	{
	"epoch": 1.55,
	"eval_loss": 2.3507654666900635,
	"eval_runtime": 69.2997,
	"eval_samples_per_second": 28.86,
	"eval_steps_per_second": 1.804,
	"step": 10000
	},
	{
	"epoch": 1.56,
	"learning_rate": 0.00014505597500650872,
	"loss": 2.14,
	"step": 10020
	},
	{
	"epoch": 1.56,
	"learning_rate": 0.0001447435563655298,
	"loss": 2.1289,
	"step": 10040
	},
	{
	"epoch": 1.56,
	"learning_rate": 0.00014443113772455088,
	"loss": 2.1226,
	"step": 10060
	},
	{
	"epoch": 1.57,
	"learning_rate": 0.00014411871908357198,
	"loss": 2.1627,
	"step": 10080
	},
	{
	"epoch": 1.57,
	"learning_rate": 0.00014380630044259307,
	"loss": 2.1759,
	"step": 10100
	},
	{
	"epoch": 1.57,
	"learning_rate": 0.00014349388180161414,
	"loss": 2.1511,
	"step": 10120
	},
	{
	"epoch": 1.58,
	"learning_rate": 0.00014318146316063523,
	"loss": 2.1275,
	"step": 10140
	},
	{
	"epoch": 1.58,
	"learning_rate": 0.00014286904451965633,
	"loss": 2.1638,
	"step": 10160
	},
	{
	"epoch": 1.58,
	"learning_rate": 0.00014255662587867743,
	"loss": 2.1494,
	"step": 10180
	},
	{
	"epoch": 1.59,
	"learning_rate": 0.0001422442072376985,
	"loss": 2.1554,
	"step": 10200
	},
	{
	"epoch": 1.59,
	"eval_loss": 2.349271059036255,
	"eval_runtime": 69.2627,
	"eval_samples_per_second": 28.876,
	"eval_steps_per_second": 1.805,
	"step": 10200
	},
	{
	"epoch": 1.59,
	"learning_rate": 0.0001419317885967196,
	"loss": 2.133,
	"step": 10220
	},
	{
	"epoch": 1.59,
	"learning_rate": 0.00014161936995574068,
	"loss": 2.1515,
	"step": 10240
	},
	{
	"epoch": 1.59,
	"learning_rate": 0.00014130695131476178,
	"loss": 2.1262,
	"step": 10260
	},
	{
	"epoch": 1.6,
	"learning_rate": 0.00014099453267378285,
	"loss": 2.142,
	"step": 10280
	},
	{
	"epoch": 1.6,
	"learning_rate": 0.00014068211403280394,
	"loss": 2.1578,
	"step": 10300
	},
	{
	"epoch": 1.6,
	"learning_rate": 0.00014036969539182504,
	"loss": 2.1583,
	"step": 10320
	},
	{
	"epoch": 1.61,
	"learning_rate": 0.0001400572767508461,
	"loss": 2.1043,
	"step": 10340
	},
	{
	"epoch": 1.61,
	"learning_rate": 0.0001397448581098672,
	"loss": 2.1539,
	"step": 10360
	},
	{
	"epoch": 1.61,
	"learning_rate": 0.0001394324394688883,
	"loss": 2.1189,
	"step": 10380
	},
	{
	"epoch": 1.62,
	"learning_rate": 0.0001391200208279094,
	"loss": 2.1484,
	"step": 10400
	},
	{
	"epoch": 1.62,
	"eval_loss": 2.3479487895965576,
	"eval_runtime": 69.2625,
	"eval_samples_per_second": 28.876,
	"eval_steps_per_second": 1.805,
	"step": 10400
	},
	{
	"epoch": 1.62,
	"learning_rate": 0.00013880760218693046,
	"loss": 2.1993,
	"step": 10420
	},
	{
	"epoch": 1.62,
	"learning_rate": 0.00013849518354595156,
	"loss": 2.1869,
	"step": 10440
	},
	{
	"epoch": 1.63,
	"learning_rate": 0.00013818276490497265,
	"loss": 2.1644,
	"step": 10460
	},
	{
	"epoch": 1.63,
	"learning_rate": 0.00013787034626399375,
	"loss": 2.1751,
	"step": 10480
	},
	{
	"epoch": 1.63,
	"learning_rate": 0.00013755792762301482,
	"loss": 2.1416,
	"step": 10500
	},
	{
	"epoch": 1.63,
	"learning_rate": 0.0001372455089820359,
	"loss": 2.1809,
	"step": 10520
	},
	{
	"epoch": 1.64,
	"learning_rate": 0.000136933090341057,
	"loss": 2.1653,
	"step": 10540
	},
	{
	"epoch": 1.64,
	"learning_rate": 0.00013662067170007808,
	"loss": 2.1026,
	"step": 10560
	},
	{
	"epoch": 1.64,
	"learning_rate": 0.00013630825305909917,
	"loss": 2.1503,
	"step": 10580
	},
	{
	"epoch": 1.65,
	"learning_rate": 0.00013599583441812027,
	"loss": 2.1289,
	"step": 10600
	},
	{
	"epoch": 1.65,
	"eval_loss": 2.3468515872955322,
	"eval_runtime": 69.2274,
	"eval_samples_per_second": 28.89,
	"eval_steps_per_second": 1.806,
	"step": 10600
	},
	{
	"epoch": 1.65,
	"learning_rate": 0.00013568341577714136,
	"loss": 2.1929,
	"step": 10620
	},
	{
	"epoch": 1.65,
	"learning_rate": 0.00013537099713616243,
	"loss": 2.1547,
	"step": 10640
	},
	{
	"epoch": 1.66,
	"learning_rate": 0.00013505857849518353,
	"loss": 2.1571,
	"step": 10660
	},
	{
	"epoch": 1.66,
	"learning_rate": 0.00013474615985420462,
	"loss": 2.1649,
	"step": 10680
	},
	{
	"epoch": 1.66,
	"learning_rate": 0.00013443374121322572,
	"loss": 2.1647,
	"step": 10700
	},
	{
	"epoch": 1.67,
	"learning_rate": 0.00013412132257224679,
	"loss": 2.206,
	"step": 10720
	},
	{
	"epoch": 1.67,
	"learning_rate": 0.00013380890393126788,
	"loss": 2.1377,
	"step": 10740
	},
	{
	"epoch": 1.67,
	"learning_rate": 0.00013349648529028898,
	"loss": 2.1347,
	"step": 10760
	},
	{
	"epoch": 1.68,
	"learning_rate": 0.00013318406664931004,
	"loss": 2.1948,
	"step": 10780
	},
	{
	"epoch": 1.68,
	"learning_rate": 0.00013287164800833114,
	"loss": 2.1844,
	"step": 10800
	},
	{
	"epoch": 1.68,
	"eval_loss": 2.347837209701538,
	"eval_runtime": 69.2425,
	"eval_samples_per_second": 28.884,
	"eval_steps_per_second": 1.805,
	"step": 10800
	},
	{
	"epoch": 1.68,
	"learning_rate": 0.00013255922936735224,
	"loss": 2.1515,
	"step": 10820
	},
	{
	"epoch": 1.68,
	"learning_rate": 0.00013224681072637333,
	"loss": 2.1885,
	"step": 10840
	},
	{
	"epoch": 1.69,
	"learning_rate": 0.00013193439208539443,
	"loss": 2.143,
	"step": 10860
	},
	{
	"epoch": 1.69,
	"learning_rate": 0.00013162197344441552,
	"loss": 2.1671,
	"step": 10880
	},
	{
	"epoch": 1.69,
	"learning_rate": 0.0001313095548034366,
	"loss": 2.1426,
	"step": 10900
	},
	{
	"epoch": 1.7,
	"learning_rate": 0.00013099713616245769,
	"loss": 2.1653,
	"step": 10920
	},
	{
	"epoch": 1.7,
	"learning_rate": 0.00013068471752147878,
	"loss": 2.1774,
	"step": 10940
	},
	{
	"epoch": 1.7,
	"learning_rate": 0.00013037229888049988,
	"loss": 2.1344,
	"step": 10960
	},
	{
	"epoch": 1.71,
	"learning_rate": 0.00013005988023952094,
	"loss": 2.1217,
	"step": 10980
	},
	{
	"epoch": 1.71,
	"learning_rate": 0.00012974746159854204,
	"loss": 2.1281,
	"step": 11000
	},
	{
	"epoch": 1.71,
	"eval_loss": 2.345808982849121,
	"eval_runtime": 69.2499,
	"eval_samples_per_second": 28.881,
	"eval_steps_per_second": 1.805,
	"step": 11000
	},
	{
	"epoch": 1.71,
	"learning_rate": 0.00012943504295756314,
	"loss": 2.1459,
	"step": 11020
	},
	{
	"epoch": 1.72,
	"learning_rate": 0.0001291226243165842,
	"loss": 2.1294,
	"step": 11040
	},
	{
	"epoch": 1.72,
	"learning_rate": 0.0001288102056756053,
	"loss": 2.1455,
	"step": 11060
	},
	{
	"epoch": 1.72,
	"learning_rate": 0.0001284977870346264,
	"loss": 2.1219,
	"step": 11080
	},
	{
	"epoch": 1.72,
	"learning_rate": 0.0001281853683936475,
	"loss": 2.1696,
	"step": 11100
	},
	{
	"epoch": 1.73,
	"learning_rate": 0.00012787294975266856,
	"loss": 2.1474,
	"step": 11120
	},
	{
	"epoch": 1.73,
	"learning_rate": 0.00012756053111168965,
	"loss": 2.1436,
	"step": 11140
	},
	{
	"epoch": 1.73,
	"learning_rate": 0.00012724811247071075,
	"loss": 2.1785,
	"step": 11160
	},
	{
	"epoch": 1.74,
	"learning_rate": 0.00012693569382973184,
	"loss": 2.1677,
	"step": 11180
	},
	{
	"epoch": 1.74,
	"learning_rate": 0.0001266232751887529,
	"loss": 2.1564,
	"step": 11200
	},
	{
	"epoch": 1.74,
	"eval_loss": 2.3451294898986816,
	"eval_runtime": 69.2454,
	"eval_samples_per_second": 28.883,
	"eval_steps_per_second": 1.805,
	"step": 11200
	},
	{
	"epoch": 1.74,
	"learning_rate": 0.000126310856547774,
	"loss": 2.1793,
	"step": 11220
	},
	{
	"epoch": 1.75,
	"learning_rate": 0.0001259984379067951,
	"loss": 2.1583,
	"step": 11240
	},
	{
	"epoch": 1.75,
	"learning_rate": 0.00012568601926581617,
	"loss": 2.1482,
	"step": 11260
	},
	{
	"epoch": 1.75,
	"learning_rate": 0.00012537360062483727,
	"loss": 2.1393,
	"step": 11280
	},
	{
	"epoch": 1.76,
	"learning_rate": 0.00012506118198385836,
	"loss": 2.1586,
	"step": 11300
	},
	{
	"epoch": 1.76,
	"learning_rate": 0.00012474876334287946,
	"loss": 2.1533,
	"step": 11320
	},
	{
	"epoch": 1.76,
	"learning_rate": 0.00012443634470190053,
	"loss": 2.1516,
	"step": 11340
	},
	{
	"epoch": 1.77,
	"learning_rate": 0.00012412392606092162,
	"loss": 2.1184,
	"step": 11360
	},
	{
	"epoch": 1.77,
	"learning_rate": 0.00012381150741994272,
	"loss": 2.1162,
	"step": 11380
	},
	{
	"epoch": 1.77,
	"learning_rate": 0.0001234990887789638,
	"loss": 2.1588,
	"step": 11400
	},
	{
	"epoch": 1.77,
	"eval_loss": 2.3451669216156006,
	"eval_runtime": 69.2383,
	"eval_samples_per_second": 28.886,
	"eval_steps_per_second": 1.805,
	"step": 11400
	},
	{
	"epoch": 1.77,
	"learning_rate": 0.00012318667013798488,
	"loss": 2.1588,
	"step": 11420
	},
	{
	"epoch": 1.78,
	"learning_rate": 0.00012287425149700598,
	"loss": 2.1463,
	"step": 11440
	},
	{
	"epoch": 1.78,
	"learning_rate": 0.00012256183285602707,
	"loss": 2.1498,
	"step": 11460
	},
	{
	"epoch": 1.78,
	"learning_rate": 0.00012224941421504814,
	"loss": 2.1663,
	"step": 11480
	},
	{
	"epoch": 1.79,
	"learning_rate": 0.00012193699557406924,
	"loss": 2.1306,
	"step": 11500
	},
	{
	"epoch": 1.79,
	"learning_rate": 0.00012162457693309033,
	"loss": 2.1542,
	"step": 11520
	},
	{
	"epoch": 1.79,
	"learning_rate": 0.00012131215829211141,
	"loss": 2.1513,
	"step": 11540
	},
	{
	"epoch": 1.8,
	"learning_rate": 0.00012099973965113251,
	"loss": 2.2031,
	"step": 11560
	},
	{
	"epoch": 1.8,
	"learning_rate": 0.00012068732101015359,
	"loss": 2.1438,
	"step": 11580
	},
	{
	"epoch": 1.8,
	"learning_rate": 0.00012037490236917469,
	"loss": 2.1431,
	"step": 11600
	},
	{
	"epoch": 1.8,
	"eval_loss": 2.3447554111480713,
	"eval_runtime": 69.2865,
	"eval_samples_per_second": 28.866,
	"eval_steps_per_second": 1.804,
	"step": 11600
	},
	{
	"epoch": 1.81,
	"learning_rate": 0.00012006248372819577,
	"loss": 2.1272,
	"step": 11620
	},
	{
	"epoch": 1.81,
	"learning_rate": 0.00011975006508721686,
	"loss": 2.1584,
	"step": 11640
	},
	{
	"epoch": 1.81,
	"learning_rate": 0.00011943764644623794,
	"loss": 2.128,
	"step": 11660
	},
	{
	"epoch": 1.82,
	"learning_rate": 0.00011912522780525903,
	"loss": 2.1461,
	"step": 11680
	},
	{
	"epoch": 1.82,
	"learning_rate": 0.00011881280916428012,
	"loss": 2.1411,
	"step": 11700
	},
	{
	"epoch": 1.82,
	"learning_rate": 0.0001185003905233012,
	"loss": 2.1592,
	"step": 11720
	},
	{
	"epoch": 1.82,
	"learning_rate": 0.0001181879718823223,
	"loss": 2.1642,
	"step": 11740
	},
	{
	"epoch": 1.83,
	"learning_rate": 0.00011787555324134338,
	"loss": 2.1914,
	"step": 11760
	},
	{
	"epoch": 1.83,
	"learning_rate": 0.00011756313460036448,
	"loss": 2.1612,
	"step": 11780
	},
	{
	"epoch": 1.83,
	"learning_rate": 0.00011725071595938556,
	"loss": 2.1452,
	"step": 11800
	},
	{
	"epoch": 1.83,
	"eval_loss": 2.3442630767822266,
	"eval_runtime": 69.2459,
	"eval_samples_per_second": 28.883,
	"eval_steps_per_second": 1.805,
	"step": 11800
	},
	{
	"epoch": 1.84,
	"learning_rate": 0.00011693829731840665,
	"loss": 2.1453,
	"step": 11820
	},
	{
	"epoch": 1.84,
	"learning_rate": 0.00011662587867742774,
	"loss": 2.1251,
	"step": 11840
	},
	{
	"epoch": 1.84,
	"learning_rate": 0.00011631346003644882,
	"loss": 2.1412,
	"step": 11860
	},
	{
	"epoch": 1.85,
	"learning_rate": 0.00011600104139546991,
	"loss": 2.1033,
	"step": 11880
	},
	{
	"epoch": 1.85,
	"learning_rate": 0.000115688622754491,
	"loss": 2.1219,
	"step": 11900
	},
	{
	"epoch": 1.85,
	"learning_rate": 0.00011537620411351209,
	"loss": 2.1831,
	"step": 11920
	},
	{
	"epoch": 1.86,
	"learning_rate": 0.00011506378547253317,
	"loss": 2.1434,
	"step": 11940
	},
	{
	"epoch": 1.86,
	"learning_rate": 0.00011475136683155427,
	"loss": 2.1439,
	"step": 11960
	},
	{
	"epoch": 1.86,
	"learning_rate": 0.00011443894819057536,
	"loss": 2.1377,
	"step": 11980
	},
	{
	"epoch": 1.86,
	"learning_rate": 0.00011412652954959646,
	"loss": 2.1345,
	"step": 12000
	},
	{
	"epoch": 1.86,
	"eval_loss": 2.342855453491211,
	"eval_runtime": 69.2714,
	"eval_samples_per_second": 28.872,
	"eval_steps_per_second": 1.804,
	"step": 12000
	},
	{
	"epoch": 1.87,
	"learning_rate": 0.00011381411090861754,
	"loss": 2.1527,
	"step": 12020
	},
	{
	"epoch": 1.87,
	"learning_rate": 0.00011350169226763864,
	"loss": 2.1737,
	"step": 12040
	},
	{
	"epoch": 1.87,
	"learning_rate": 0.00011318927362665972,
	"loss": 2.137,
	"step": 12060
	},
	{
	"epoch": 1.88,
	"learning_rate": 0.00011287685498568081,
	"loss": 2.1616,
	"step": 12080
	},
	{
	"epoch": 1.88,
	"learning_rate": 0.0001125644363447019,
	"loss": 2.1688,
	"step": 12100
	},
	{
	"epoch": 1.88,
	"learning_rate": 0.00011225201770372299,
	"loss": 2.1746,
	"step": 12120
	},
	{
	"epoch": 1.89,
	"learning_rate": 0.00011193959906274407,
	"loss": 2.1552,
	"step": 12140
	},
	{
	"epoch": 1.89,
	"learning_rate": 0.00011162718042176515,
	"loss": 2.1643,
	"step": 12160
	},
	{
	"epoch": 1.89,
	"learning_rate": 0.00011131476178078625,
	"loss": 2.1494,
	"step": 12180
	},
	{
	"epoch": 1.9,
	"learning_rate": 0.00011100234313980733,
	"loss": 2.1112,
	"step": 12200
	},
	{
	"epoch": 1.9,
	"eval_loss": 2.34304141998291,
	"eval_runtime": 72.1422,
	"eval_samples_per_second": 27.723,
	"eval_steps_per_second": 1.733,
	"step": 12200
	},
	{
	"epoch": 1.9,
	"learning_rate": 0.00011068992449882843,
	"loss": 2.1505,
	"step": 12220
	},
	{
	"epoch": 1.9,
	"learning_rate": 0.00011037750585784951,
	"loss": 2.1722,
	"step": 12240
	},
	{
	"epoch": 1.91,
	"learning_rate": 0.0001100650872168706,
	"loss": 2.1582,
	"step": 12260
	},
	{
	"epoch": 1.91,
	"learning_rate": 0.00010975266857589169,
	"loss": 2.1806,
	"step": 12280
	},
	{
	"epoch": 1.91,
	"learning_rate": 0.00010944024993491278,
	"loss": 2.1508,
	"step": 12300
	},
	{
	"epoch": 1.91,
	"learning_rate": 0.00010912783129393386,
	"loss": 2.1654,
	"step": 12320
	},
	{
	"epoch": 1.92,
	"learning_rate": 0.00010881541265295496,
	"loss": 2.131,
	"step": 12340
	},
	{
	"epoch": 1.92,
	"learning_rate": 0.00010850299401197604,
	"loss": 2.1301,
	"step": 12360
	},
	{
	"epoch": 1.92,
	"learning_rate": 0.00010819057537099712,
	"loss": 2.1312,
	"step": 12380
	},
	{
	"epoch": 1.93,
	"learning_rate": 0.00010787815673001822,
	"loss": 2.1301,
	"step": 12400
	},
	{
	"epoch": 1.93,
	"eval_loss": 2.3404922485351562,
	"eval_runtime": 71.3367,
	"eval_samples_per_second": 28.036,
	"eval_steps_per_second": 1.752,
	"step": 12400
	},
	{
	"epoch": 1.93,
	"learning_rate": 0.00010758135902108825,
	"loss": 2.1398,
	"step": 12420
	},
	{
	"epoch": 1.93,
	"learning_rate": 0.00010726894038010933,
	"loss": 2.1449,
	"step": 12440
	},
	{
	"epoch": 1.94,
	"learning_rate": 0.00010695652173913043,
	"loss": 2.1498,
	"step": 12460
	},
	{
	"epoch": 1.94,
	"learning_rate": 0.00010664410309815151,
	"loss": 2.1484,
	"step": 12480
	},
	{
	"epoch": 1.94,
	"learning_rate": 0.0001063316844571726,
	"loss": 2.1705,
	"step": 12500
	},
	{
	"epoch": 1.95,
	"learning_rate": 0.00010601926581619368,
	"loss": 2.1236,
	"step": 12520
	},
	{
	"epoch": 1.95,
	"learning_rate": 0.00010570684717521478,
	"loss": 2.1435,
	"step": 12540
	},
	{
	"epoch": 1.95,
	"learning_rate": 0.00010539442853423586,
	"loss": 2.1656,
	"step": 12560
	},
	{
	"epoch": 1.95,
	"learning_rate": 0.00010508200989325696,
	"loss": 2.1459,
	"step": 12580
	},
	{
	"epoch": 1.96,
	"learning_rate": 0.00010476959125227804,
	"loss": 2.1392,
	"step": 12600
	},
	{
	"epoch": 1.96,
	"eval_loss": 2.3410892486572266,
	"eval_runtime": 72.1407,
	"eval_samples_per_second": 27.724,
	"eval_steps_per_second": 1.733,
	"step": 12600
	},
	{
	"epoch": 1.96,
	"learning_rate": 0.00010445717261129913,
	"loss": 2.1399,
	"step": 12620
	},
	{
	"epoch": 1.96,
	"learning_rate": 0.00010414475397032022,
	"loss": 2.1979,
	"step": 12640
	},
	{
	"epoch": 1.97,
	"learning_rate": 0.0001038323353293413,
	"loss": 2.1596,
	"step": 12660
	},
	{
	"epoch": 1.97,
	"learning_rate": 0.0001035199166883624,
	"loss": 2.1817,
	"step": 12680
	},
	{
	"epoch": 1.97,
	"learning_rate": 0.00010320749804738348,
	"loss": 2.0972,
	"step": 12700
	},
	{
	"epoch": 1.98,
	"learning_rate": 0.00010289507940640457,
	"loss": 2.1293,
	"step": 12720
	},
	{
	"epoch": 1.98,
	"learning_rate": 0.00010258266076542565,
	"loss": 2.1362,
	"step": 12740
	},
	{
	"epoch": 1.98,
	"learning_rate": 0.00010227024212444675,
	"loss": 2.1474,
	"step": 12760
	},
	{
	"epoch": 1.99,
	"learning_rate": 0.00010195782348346783,
	"loss": 2.2004,
	"step": 12780
	},
	{
	"epoch": 1.99,
	"learning_rate": 0.00010164540484248893,
	"loss": 2.1221,
	"step": 12800
	},
	{
	"epoch": 1.99,
	"eval_loss": 2.340029716491699,
	"eval_runtime": 72.0796,
	"eval_samples_per_second": 27.747,
	"eval_steps_per_second": 1.734,
	"step": 12800
	},
	{
	"epoch": 1.99,
	"learning_rate": 0.00010133298620151001,
	"loss": 2.1782,
	"step": 12820
	},
	{
	"epoch": 2.0,
	"learning_rate": 0.00010102056756053109,
	"loss": 2.1358,
	"step": 12840
	},
	{
	"epoch": 2.0,
	"learning_rate": 0.00010070814891955218,
	"loss": 2.122,
	"step": 12860
	},
	{
	"epoch": 2.0,
	"learning_rate": 0.00010039573027857327,
	"loss": 2.1494,
	"step": 12880
	},
	{
	"epoch": 2.0,
	"learning_rate": 0.00010008331163759436,
	"loss": 2.1522,
	"step": 12900
	},
	{
	"epoch": 2.01,
	"learning_rate": 9.977089299661544e-05,
	"loss": 2.1241,
	"step": 12920
	},
	{
	"epoch": 2.01,
	"learning_rate": 9.945847435563654e-05,
	"loss": 2.1456,
	"step": 12940
	},
	{
	"epoch": 2.01,
	"learning_rate": 9.914605571465763e-05,
	"loss": 2.1495,
	"step": 12960
	},
	{
	"epoch": 2.02,
	"learning_rate": 9.883363707367873e-05,
	"loss": 2.1734,
	"step": 12980
	},
	{
	"epoch": 2.02,
	"learning_rate": 9.852121843269981e-05,
	"loss": 2.1711,
	"step": 13000
	},
	{
	"epoch": 2.02,
	"eval_loss": 2.339312791824341,
	"eval_runtime": 69.2994,
	"eval_samples_per_second": 28.86,
	"eval_steps_per_second": 1.804,
	"step": 13000
	},
	{
	"epoch": 2.02,
	"learning_rate": 9.820879979172091e-05,
	"loss": 2.1483,
	"step": 13020
	},
	{
	"epoch": 2.03,
	"learning_rate": 9.789638115074199e-05,
	"loss": 2.124,
	"step": 13040
	},
	{
	"epoch": 2.03,
	"learning_rate": 9.758396250976308e-05,
	"loss": 2.1337,
	"step": 13060
	},
	{
	"epoch": 2.03,
	"learning_rate": 9.727154386878417e-05,
	"loss": 2.137,
	"step": 13080
	},
	{
	"epoch": 2.04,
	"learning_rate": 9.695912522780526e-05,
	"loss": 2.1225,
	"step": 13100
	},
	{
	"epoch": 2.04,
	"learning_rate": 9.664670658682634e-05,
	"loss": 2.1384,
	"step": 13120
	},
	{
	"epoch": 2.04,
	"learning_rate": 9.633428794584743e-05,
	"loss": 2.1052,
	"step": 13140
	},
	{
	"epoch": 2.05,
	"learning_rate": 9.602186930486852e-05,
	"loss": 2.1489,
	"step": 13160
	},
	{
	"epoch": 2.05,
	"learning_rate": 9.57094506638896e-05,
	"loss": 2.1154,
	"step": 13180
	},
	{
	"epoch": 2.05,
	"learning_rate": 9.53970320229107e-05,
	"loss": 2.1476,
	"step": 13200
	},
	{
	"epoch": 2.05,
	"eval_loss": 2.3396096229553223,
	"eval_runtime": 69.2833,
	"eval_samples_per_second": 28.867,
	"eval_steps_per_second": 1.804,
	"step": 13200
	},
	{
	"epoch": 2.05,
	"learning_rate": 9.508461338193178e-05,
	"loss": 2.1109,
	"step": 13220
	},
	{
	"epoch": 2.06,
	"learning_rate": 9.477219474095288e-05,
	"loss": 2.0973,
	"step": 13240
	},
	{
	"epoch": 2.06,
	"learning_rate": 9.445977609997396e-05,
	"loss": 2.1281,
	"step": 13260
	},
	{
	"epoch": 2.06,
	"learning_rate": 9.414735745899505e-05,
	"loss": 2.1216,
	"step": 13280
	},
	{
	"epoch": 2.07,
	"learning_rate": 9.383493881801614e-05,
	"loss": 2.1323,
	"step": 13300
	},
	{
	"epoch": 2.07,
	"learning_rate": 9.352252017703723e-05,
	"loss": 2.1477,
	"step": 13320
	},
	{
	"epoch": 2.07,
	"learning_rate": 9.321010153605831e-05,
	"loss": 2.1309,
	"step": 13340
	},
	{
	"epoch": 2.08,
	"learning_rate": 9.28976828950794e-05,
	"loss": 2.0899,
	"step": 13360
	},
	{
	"epoch": 2.08,
	"learning_rate": 9.258526425410049e-05,
	"loss": 2.1402,
	"step": 13380
	},
	{
	"epoch": 2.08,
	"learning_rate": 9.227284561312157e-05,
	"loss": 2.0768,
	"step": 13400
	},
	{
	"epoch": 2.08,
	"eval_loss": 2.3376858234405518,
	"eval_runtime": 69.4568,
	"eval_samples_per_second": 28.795,
	"eval_steps_per_second": 1.8,
	"step": 13400
	},
	{
	"epoch": 2.09,
	"learning_rate": 9.196042697214267e-05,
	"loss": 2.1405,
	"step": 13420
	},
	{
	"epoch": 2.09,
	"learning_rate": 9.164800833116375e-05,
	"loss": 2.1118,
	"step": 13440
	},
	{
	"epoch": 2.09,
	"learning_rate": 9.133558969018484e-05,
	"loss": 2.1525,
	"step": 13460
	},
	{
	"epoch": 2.09,
	"learning_rate": 9.102317104920593e-05,
	"loss": 2.1369,
	"step": 13480
	},
	{
	"epoch": 2.1,
	"learning_rate": 9.071075240822702e-05,
	"loss": 2.1683,
	"step": 13500
	},
	{
	"epoch": 2.1,
	"learning_rate": 9.03983337672481e-05,
	"loss": 2.1193,
	"step": 13520
	},
	{
	"epoch": 2.1,
	"learning_rate": 9.00859151262692e-05,
	"loss": 2.1222,
	"step": 13540
	},
	{
	"epoch": 2.11,
	"learning_rate": 8.977349648529028e-05,
	"loss": 2.1461,
	"step": 13560
	},
	{
	"epoch": 2.11,
	"learning_rate": 8.946107784431136e-05,
	"loss": 2.1106,
	"step": 13580
	},
	{
	"epoch": 2.11,
	"learning_rate": 8.914865920333246e-05,
	"loss": 2.1307,
	"step": 13600
	},
	{
	"epoch": 2.11,
	"eval_loss": 2.3381118774414062,
	"eval_runtime": 69.5609,
	"eval_samples_per_second": 28.752,
	"eval_steps_per_second": 1.797,
	"step": 13600
	},
	{
	"epoch": 2.12,
	"learning_rate": 8.883624056235354e-05,
	"loss": 2.1679,
	"step": 13620
	},
	{
	"epoch": 2.12,
	"learning_rate": 8.852382192137464e-05,
	"loss": 2.1418,
	"step": 13640
	},
	{
	"epoch": 2.12,
	"learning_rate": 8.821140328039572e-05,
	"loss": 2.1238,
	"step": 13660
	},
	{
	"epoch": 2.13,
	"learning_rate": 8.789898463941681e-05,
	"loss": 2.0995,
	"step": 13680
	},
	{
	"epoch": 2.13,
	"learning_rate": 8.75865659984379e-05,
	"loss": 2.1596,
	"step": 13700
	},
	{
	"epoch": 2.13,
	"learning_rate": 8.727414735745899e-05,
	"loss": 2.1478,
	"step": 13720
	},
	{
	"epoch": 2.14,
	"learning_rate": 8.696172871648007e-05,
	"loss": 2.1299,
	"step": 13740
	},
	{
	"epoch": 2.14,
	"learning_rate": 8.664931007550115e-05,
	"loss": 2.1405,
	"step": 13760
	},
	{
	"epoch": 2.14,
	"learning_rate": 8.633689143452225e-05,
	"loss": 2.174,
	"step": 13780
	},
	{
	"epoch": 2.14,
	"learning_rate": 8.602447279354333e-05,
	"loss": 2.129,
	"step": 13800
	},
	{
	"epoch": 2.14,
	"eval_loss": 2.337769031524658,
	"eval_runtime": 69.7472,
	"eval_samples_per_second": 28.675,
	"eval_steps_per_second": 1.792,
	"step": 13800
	},
	{
	"epoch": 2.15,
	"learning_rate": 8.571205415256443e-05,
	"loss": 2.1368,
	"step": 13820
	},
	{
	"epoch": 2.15,
	"learning_rate": 8.539963551158551e-05,
	"loss": 2.1573,
	"step": 13840
	},
	{
	"epoch": 2.15,
	"learning_rate": 8.50872168706066e-05,
	"loss": 2.1132,
	"step": 13860
	},
	{
	"epoch": 2.16,
	"learning_rate": 8.477479822962769e-05,
	"loss": 2.1131,
	"step": 13880
	},
	{
	"epoch": 2.16,
	"learning_rate": 8.446237958864878e-05,
	"loss": 2.1351,
	"step": 13900
	},
	{
	"epoch": 2.16,
	"learning_rate": 8.414996094766986e-05,
	"loss": 2.1738,
	"step": 13920
	},
	{
	"epoch": 2.17,
	"learning_rate": 8.383754230669096e-05,
	"loss": 2.1551,
	"step": 13940
	},
	{
	"epoch": 2.17,
	"learning_rate": 8.352512366571204e-05,
	"loss": 2.1195,
	"step": 13960
	},
	{
	"epoch": 2.17,
	"learning_rate": 8.321270502473312e-05,
	"loss": 2.1125,
	"step": 13980
	},
	{
	"epoch": 2.18,
	"learning_rate": 8.290028638375422e-05,
	"loss": 2.1549,
	"step": 14000
	},
	{
	"epoch": 2.18,
	"eval_loss": 2.337301731109619,
	"eval_runtime": 69.7462,
	"eval_samples_per_second": 28.675,
	"eval_steps_per_second": 1.792,
	"step": 14000
	},
	{
	"epoch": 2.18,
	"learning_rate": 8.25878677427753e-05,
	"loss": 2.1573,
	"step": 14020
	},
	{
	"epoch": 2.18,
	"learning_rate": 8.22754491017964e-05,
	"loss": 2.1125,
	"step": 14040
	},
	{
	"epoch": 2.18,
	"learning_rate": 8.196303046081748e-05,
	"loss": 2.161,
	"step": 14060
	},
	{
	"epoch": 2.19,
	"learning_rate": 8.165061181983857e-05,
	"loss": 2.1511,
	"step": 14080
	},
	{
	"epoch": 2.19,
	"learning_rate": 8.133819317885967e-05,
	"loss": 2.1737,
	"step": 14100
	},
	{
	"epoch": 2.19,
	"learning_rate": 8.102577453788076e-05,
	"loss": 2.1158,
	"step": 14120
	},
	{
	"epoch": 2.2,
	"learning_rate": 8.071335589690184e-05,
	"loss": 2.1398,
	"step": 14140
	},
	{
	"epoch": 2.2,
	"learning_rate": 8.040093725592294e-05,
	"loss": 2.1183,
	"step": 14160
	},
	{
	"epoch": 2.2,
	"learning_rate": 8.008851861494402e-05,
	"loss": 2.1295,
	"step": 14180
	},
	{
	"epoch": 2.21,
	"learning_rate": 7.977609997396512e-05,
	"loss": 2.1416,
	"step": 14200
	},
	{
	"epoch": 2.21,
	"eval_loss": 2.336796760559082,
	"eval_runtime": 69.3578,
	"eval_samples_per_second": 28.836,
	"eval_steps_per_second": 1.802,
	"step": 14200
	},
	{
	"epoch": 2.21,
	"learning_rate": 7.94636813329862e-05,
	"loss": 2.1461,
	"step": 14220
	},
	{
	"epoch": 2.21,
	"learning_rate": 7.91512626920073e-05,
	"loss": 2.0931,
	"step": 14240
	},
	{
	"epoch": 2.22,
	"learning_rate": 7.883884405102838e-05,
	"loss": 2.1341,
	"step": 14260
	},
	{
	"epoch": 2.22,
	"learning_rate": 7.852642541004946e-05,
	"loss": 2.1369,
	"step": 14280
	},
	{
	"epoch": 2.22,
	"learning_rate": 7.821400676907055e-05,
	"loss": 2.1431,
	"step": 14300
	},
	{
	"epoch": 2.23,
	"learning_rate": 7.790158812809164e-05,
	"loss": 2.1508,
	"step": 14320
	},
	{
	"epoch": 2.23,
	"learning_rate": 7.758916948711273e-05,
	"loss": 2.1456,
	"step": 14340
	},
	{
	"epoch": 2.23,
	"learning_rate": 7.727675084613381e-05,
	"loss": 2.1448,
	"step": 14360
	},
	{
	"epoch": 2.23,
	"learning_rate": 7.696433220515491e-05,
	"loss": 2.1637,
	"step": 14380
	},
	{
	"epoch": 2.24,
	"learning_rate": 7.665191356417599e-05,
	"loss": 2.114,
	"step": 14400
	},
	{
	"epoch": 2.24,
	"eval_loss": 2.3362655639648438,
	"eval_runtime": 69.5792,
	"eval_samples_per_second": 28.744,
	"eval_steps_per_second": 1.797,
	"step": 14400
	},
	{
	"epoch": 2.24,
	"learning_rate": 7.633949492319709e-05,
	"loss": 2.1222,
	"step": 14420
	},
	{
	"epoch": 2.24,
	"learning_rate": 7.602707628221817e-05,
	"loss": 2.1776,
	"step": 14440
	},
	{
	"epoch": 2.25,
	"learning_rate": 7.57302785732882e-05,
	"loss": 2.1414,
	"step": 14460
	},
	{
	"epoch": 2.25,
	"learning_rate": 7.541785993230929e-05,
	"loss": 2.1231,
	"step": 14480
	},
	{
	"epoch": 2.25,
	"learning_rate": 7.510544129133038e-05,
	"loss": 2.1345,
	"step": 14500
	},
	{
	"epoch": 2.26,
	"learning_rate": 7.479302265035147e-05,
	"loss": 2.1339,
	"step": 14520
	},
	{
	"epoch": 2.26,
	"learning_rate": 7.448060400937255e-05,
	"loss": 2.1562,
	"step": 14540
	},
	{
	"epoch": 2.26,
	"learning_rate": 7.416818536839363e-05,
	"loss": 2.1649,
	"step": 14560
	},
	{
	"epoch": 2.27,
	"learning_rate": 7.385576672741473e-05,
	"loss": 2.1339,
	"step": 14580
	},
	{
	"epoch": 2.27,
	"learning_rate": 7.354334808643581e-05,
	"loss": 2.1347,
	"step": 14600
	},
	{
	"epoch": 2.27,
	"eval_loss": 2.335818290710449,
	"eval_runtime": 69.5131,
	"eval_samples_per_second": 28.772,
	"eval_steps_per_second": 1.798,
	"step": 14600
	},
	{
	"epoch": 2.27,
	"learning_rate": 7.323092944545691e-05,
	"loss": 2.1078,
	"step": 14620
	},
	{
	"epoch": 2.28,
	"learning_rate": 7.291851080447799e-05,
	"loss": 2.1446,
	"step": 14640
	},
	{
	"epoch": 2.28,
	"learning_rate": 7.260609216349908e-05,
	"loss": 2.1076,
	"step": 14660
	},
	{
	"epoch": 2.28,
	"learning_rate": 7.229367352252017e-05,
	"loss": 2.1548,
	"step": 14680
	},
	{
	"epoch": 2.28,
	"learning_rate": 7.198125488154126e-05,
	"loss": 2.1317,
	"step": 14700
	},
	{
	"epoch": 2.29,
	"learning_rate": 7.166883624056234e-05,
	"loss": 2.0991,
	"step": 14720
	},
	{
	"epoch": 2.29,
	"learning_rate": 7.135641759958343e-05,
	"loss": 2.1507,
	"step": 14740
	},
	{
	"epoch": 2.29,
	"learning_rate": 7.104399895860452e-05,
	"loss": 2.1173,
	"step": 14760
	},
	{
	"epoch": 2.3,
	"learning_rate": 7.073158031762562e-05,
	"loss": 2.104,
	"step": 14780
	},
	{
	"epoch": 2.3,
	"learning_rate": 7.043478260869565e-05,
	"loss": 2.1118,
	"step": 14800
	},
	{
	"epoch": 2.3,
	"eval_loss": 2.334048271179199,
	"eval_runtime": 69.3816,
	"eval_samples_per_second": 28.826,
	"eval_steps_per_second": 1.802,
	"step": 14800
	},
	{
	"epoch": 2.3,
	"learning_rate": 7.012236396771674e-05,
	"loss": 2.0738,
	"step": 14820
	},
	{
	"epoch": 2.31,
	"learning_rate": 6.980994532673782e-05,
	"loss": 2.1221,
	"step": 14840
	},
	{
	"epoch": 2.31,
	"learning_rate": 6.94975266857589e-05,
	"loss": 2.1531,
	"step": 14860
	},
	{
	"epoch": 2.31,
	"learning_rate": 6.918510804478e-05,
	"loss": 2.1318,
	"step": 14880
	},
	{
	"epoch": 2.32,
	"learning_rate": 6.887268940380108e-05,
	"loss": 2.1251,
	"step": 14900
	},
	{
	"epoch": 2.32,
	"learning_rate": 6.856027076282218e-05,
	"loss": 2.1212,
	"step": 14920
	},
	{
	"epoch": 2.32,
	"learning_rate": 6.824785212184326e-05,
	"loss": 2.0927,
	"step": 14940
	},
	{
	"epoch": 2.32,
	"learning_rate": 6.793543348086436e-05,
	"loss": 2.1277,
	"step": 14960
	},
	{
	"epoch": 2.33,
	"learning_rate": 6.762301483988544e-05,
	"loss": 2.156,
	"step": 14980
	},
	{
	"epoch": 2.33,
	"learning_rate": 6.731059619890653e-05,
	"loss": 2.1276,
	"step": 15000
	},
	{
	"epoch": 2.33,
	"eval_loss": 2.3340351581573486,
	"eval_runtime": 69.2926,
	"eval_samples_per_second": 28.863,
	"eval_steps_per_second": 1.804,
	"step": 15000
	},
	{
	"epoch": 2.33,
	"learning_rate": 6.699817755792761e-05,
	"loss": 2.1313,
	"step": 15020
	},
	{
	"epoch": 2.34,
	"learning_rate": 6.668575891694871e-05,
	"loss": 2.1452,
	"step": 15040
	},
	{
	"epoch": 2.34,
	"learning_rate": 6.637334027596979e-05,
	"loss": 2.1148,
	"step": 15060
	},
	{
	"epoch": 2.34,
	"learning_rate": 6.606092163499087e-05,
	"loss": 2.1193,
	"step": 15080
	},
	{
	"epoch": 2.35,
	"learning_rate": 6.574850299401197e-05,
	"loss": 2.1672,
	"step": 15100
	},
	{
	"epoch": 2.35,
	"learning_rate": 6.543608435303305e-05,
	"loss": 2.0789,
	"step": 15120
	},
	{
	"epoch": 2.35,
	"learning_rate": 6.512366571205415e-05,
	"loss": 2.1438,
	"step": 15140
	},
	{
	"epoch": 2.36,
	"learning_rate": 6.481124707107523e-05,
	"loss": 2.1597,
	"step": 15160
	},
	{
	"epoch": 2.36,
	"learning_rate": 6.449882843009632e-05,
	"loss": 2.11,
	"step": 15180
	},
	{
	"epoch": 2.36,
	"learning_rate": 6.418640978911742e-05,
	"loss": 2.1279,
	"step": 15200
	},
	{
	"epoch": 2.36,
	"eval_loss": 2.3344008922576904,
	"eval_runtime": 69.3363,
	"eval_samples_per_second": 28.845,
	"eval_steps_per_second": 1.803,
	"step": 15200
	},
	{
	"epoch": 2.37,
	"learning_rate": 6.38739911481385e-05,
	"loss": 2.1459,
	"step": 15220
	},
	{
	"epoch": 2.37,
	"learning_rate": 6.35615725071596e-05,
	"loss": 2.1702,
	"step": 15240
	},
	{
	"epoch": 2.37,
	"learning_rate": 6.324915386618068e-05,
	"loss": 2.1262,
	"step": 15260
	},
	{
	"epoch": 2.37,
	"learning_rate": 6.293673522520177e-05,
	"loss": 2.0988,
	"step": 15280
	},
	{
	"epoch": 2.38,
	"learning_rate": 6.262431658422286e-05,
	"loss": 2.1224,
	"step": 15300
	},
	{
	"epoch": 2.38,
	"learning_rate": 6.231189794324394e-05,
	"loss": 2.1102,
	"step": 15320
	},
	{
	"epoch": 2.38,
	"learning_rate": 6.199947930226503e-05,
	"loss": 2.1168,
	"step": 15340
	},
	{
	"epoch": 2.39,
	"learning_rate": 6.168706066128611e-05,
	"loss": 2.1205,
	"step": 15360
	},
	{
	"epoch": 2.39,
	"learning_rate": 6.137464202030721e-05,
	"loss": 2.0855,
	"step": 15380
	},
	{
	"epoch": 2.39,
	"learning_rate": 6.106222337932829e-05,
	"loss": 2.1548,
	"step": 15400
	},
	{
	"epoch": 2.39,
	"eval_loss": 2.333451271057129,
	"eval_runtime": 69.3334,
	"eval_samples_per_second": 28.846,
	"eval_steps_per_second": 1.803,
	"step": 15400
	},
	{
	"epoch": 2.4,
	"learning_rate": 6.074980473834938e-05,
	"loss": 2.1433,
	"step": 15420
	},
	{
	"epoch": 2.4,
	"learning_rate": 6.043738609737047e-05,
	"loss": 2.123,
	"step": 15440
	},
	{
	"epoch": 2.4,
	"learning_rate": 6.012496745639156e-05,
	"loss": 2.0965,
	"step": 15460
	},
	{
	"epoch": 2.41,
	"learning_rate": 5.9812548815412647e-05,
	"loss": 2.1498,
	"step": 15480
	},
	{
	"epoch": 2.41,
	"learning_rate": 5.9500130174433735e-05,
	"loss": 2.1456,
	"step": 15500
	},
	{
	"epoch": 2.41,
	"learning_rate": 5.9187711533454824e-05,
	"loss": 2.1295,
	"step": 15520
	},
	{
	"epoch": 2.41,
	"learning_rate": 5.887529289247591e-05,
	"loss": 2.108,
	"step": 15540
	},
	{
	"epoch": 2.42,
	"learning_rate": 5.8562874251497e-05,
	"loss": 2.1592,
	"step": 15560
	},
	{
	"epoch": 2.42,
	"learning_rate": 5.825045561051809e-05,
	"loss": 2.1214,
	"step": 15580
	},
	{
	"epoch": 2.42,
	"learning_rate": 5.793803696953918e-05,
	"loss": 2.1561,
	"step": 15600
	},
	{
	"epoch": 2.42,
	"eval_loss": 2.3329403400421143,
	"eval_runtime": 69.6034,
	"eval_samples_per_second": 28.734,
	"eval_steps_per_second": 1.796,
	"step": 15600
	},
	{
	"epoch": 2.43,
	"learning_rate": 5.762561832856026e-05,
	"loss": 2.1382,
	"step": 15620
	},
	{
	"epoch": 2.43,
	"learning_rate": 5.731319968758135e-05,
	"loss": 2.109,
	"step": 15640
	},
	{
	"epoch": 2.43,
	"learning_rate": 5.700078104660244e-05,
	"loss": 2.1283,
	"step": 15660
	},
	{
	"epoch": 2.44,
	"learning_rate": 5.6688362405623526e-05,
	"loss": 2.15,
	"step": 15680
	},
	{
	"epoch": 2.44,
	"learning_rate": 5.6375943764644615e-05,
	"loss": 2.1125,
	"step": 15700
	},
	{
	"epoch": 2.44,
	"learning_rate": 5.6063525123665704e-05,
	"loss": 2.1709,
	"step": 15720
	},
	{
	"epoch": 2.45,
	"learning_rate": 5.575110648268679e-05,
	"loss": 2.1622,
	"step": 15740
	},
	{
	"epoch": 2.45,
	"learning_rate": 5.543868784170789e-05,
	"loss": 2.0769,
	"step": 15760
	},
	{
	"epoch": 2.45,
	"learning_rate": 5.5126269200728976e-05,
	"loss": 2.137,
	"step": 15780
	},
	{
	"epoch": 2.46,
	"learning_rate": 5.4813850559750065e-05,
	"loss": 2.1294,
	"step": 15800
	},
	{
	"epoch": 2.46,
	"eval_loss": 2.3324475288391113,
	"eval_runtime": 69.559,
	"eval_samples_per_second": 28.753,
	"eval_steps_per_second": 1.797,
	"step": 15800
	},
	{
	"epoch": 2.46,
	"learning_rate": 5.4501431918771154e-05,
	"loss": 2.1425,
	"step": 15820
	},
	{
	"epoch": 2.46,
	"learning_rate": 5.418901327779224e-05,
	"loss": 2.128,
	"step": 15840
	},
	{
	"epoch": 2.46,
	"learning_rate": 5.387659463681333e-05,
	"loss": 2.1553,
	"step": 15860
	},
	{
	"epoch": 2.47,
	"learning_rate": 5.356417599583441e-05,
	"loss": 2.1339,
	"step": 15880
	},
	{
	"epoch": 2.47,
	"learning_rate": 5.32517573548555e-05,
	"loss": 2.1536,
	"step": 15900
	},
	{
	"epoch": 2.47,
	"learning_rate": 5.293933871387659e-05,
	"loss": 2.1669,
	"step": 15920
	},
	{
	"epoch": 2.48,
	"learning_rate": 5.262692007289768e-05,
	"loss": 2.122,
	"step": 15940
	},
	{
	"epoch": 2.48,
	"learning_rate": 5.231450143191877e-05,
	"loss": 2.1435,
	"step": 15960
	},
	{
	"epoch": 2.48,
	"learning_rate": 5.2002082790939856e-05,
	"loss": 2.1406,
	"step": 15980
	},
	{
	"epoch": 2.49,
	"learning_rate": 5.1689664149960945e-05,
	"loss": 2.1174,
	"step": 16000
	},
	{
	"epoch": 2.49,
	"eval_loss": 2.332836866378784,
	"eval_runtime": 69.3739,
	"eval_samples_per_second": 28.829,
	"eval_steps_per_second": 1.802,
	"step": 16000
	},
	{
	"epoch": 2.49,
	"learning_rate": 5.137724550898203e-05,
	"loss": 2.1286,
	"step": 16020
	},
	{
	"epoch": 2.49,
	"learning_rate": 5.106482686800312e-05,
	"loss": 2.1343,
	"step": 16040
	},
	{
	"epoch": 2.5,
	"learning_rate": 5.075240822702421e-05,
	"loss": 2.1134,
	"step": 16060
	},
	{
	"epoch": 2.5,
	"learning_rate": 5.043998958604529e-05,
	"loss": 2.1633,
	"step": 16080
	},
	{
	"epoch": 2.5,
	"learning_rate": 5.012757094506638e-05,
	"loss": 2.1473,
	"step": 16100
	},
	{
	"epoch": 2.5,
	"learning_rate": 4.981515230408747e-05,
	"loss": 2.1535,
	"step": 16120
	},
	{
	"epoch": 2.51,
	"learning_rate": 4.950273366310856e-05,
	"loss": 2.112,
	"step": 16140
	},
	{
	"epoch": 2.51,
	"learning_rate": 4.919031502212965e-05,
	"loss": 2.1399,
	"step": 16160
	},
	{
	"epoch": 2.51,
	"learning_rate": 4.8877896381150736e-05,
	"loss": 2.0913,
	"step": 16180
	},
	{
	"epoch": 2.52,
	"learning_rate": 4.8565477740171824e-05,
	"loss": 2.1179,
	"step": 16200
	},
	{
	"epoch": 2.52,
	"eval_loss": 2.332409143447876,
	"eval_runtime": 69.3294,
	"eval_samples_per_second": 28.848,
	"eval_steps_per_second": 1.803,
	"step": 16200
	},
	{
	"epoch": 2.52,
	"learning_rate": 4.825305909919291e-05,
	"loss": 2.1756,
	"step": 16220
	},
	{
	"epoch": 2.52,
	"learning_rate": 4.7940640458214e-05,
	"loss": 2.1466,
	"step": 16240
	},
	{
	"epoch": 2.53,
	"learning_rate": 4.762822181723509e-05,
	"loss": 2.1443,
	"step": 16260
	},
	{
	"epoch": 2.53,
	"learning_rate": 4.731580317625618e-05,
	"loss": 2.1207,
	"step": 16280
	},
	{
	"epoch": 2.53,
	"learning_rate": 4.700338453527726e-05,
	"loss": 2.1275,
	"step": 16300
	},
	{
	"epoch": 2.54,
	"learning_rate": 4.669096589429835e-05,
	"loss": 2.1305,
	"step": 16320
	},
	{
	"epoch": 2.54,
	"learning_rate": 4.6378547253319445e-05,
	"loss": 2.134,
	"step": 16340
	},
	{
	"epoch": 2.54,
	"learning_rate": 4.6066128612340534e-05,
	"loss": 2.1681,
	"step": 16360
	},
	{
	"epoch": 2.55,
	"learning_rate": 4.575370997136162e-05,
	"loss": 2.1627,
	"step": 16380
	},
	{
	"epoch": 2.55,
	"learning_rate": 4.544129133038271e-05,
	"loss": 2.1421,
	"step": 16400
	},
	{
	"epoch": 2.55,
	"eval_loss": 2.3318614959716797,
	"eval_runtime": 69.3251,
	"eval_samples_per_second": 28.85,
	"eval_steps_per_second": 1.803,
	"step": 16400
	},
	{
	"epoch": 2.55,
	"learning_rate": 4.51288726894038e-05,
	"loss": 2.1225,
	"step": 16420
	},
	{
	"epoch": 2.55,
	"learning_rate": 4.481645404842489e-05,
	"loss": 2.156,
	"step": 16440
	},
	{
	"epoch": 2.56,
	"learning_rate": 4.450403540744598e-05,
	"loss": 2.1573,
	"step": 16460
	},
	{
	"epoch": 2.56,
	"learning_rate": 4.4191616766467066e-05,
	"loss": 2.1295,
	"step": 16480
	},
	{
	"epoch": 2.56,
	"learning_rate": 4.3879198125488154e-05,
	"loss": 2.14,
	"step": 16500
	},
	{
	"epoch": 2.57,
	"learning_rate": 4.356677948450924e-05,
	"loss": 2.1046,
	"step": 16520
	},
	{
	"epoch": 2.57,
	"learning_rate": 4.3254360843530325e-05,
	"loss": 2.1201,
	"step": 16540
	},
	{
	"epoch": 2.57,
	"learning_rate": 4.2941942202551413e-05,
	"loss": 2.1767,
	"step": 16560
	},
	{
	"epoch": 2.58,
	"learning_rate": 4.26295235615725e-05,
	"loss": 2.1244,
	"step": 16580
	},
	{
	"epoch": 2.58,
	"learning_rate": 4.231710492059359e-05,
	"loss": 2.1301,
	"step": 16600
	},
	{
	"epoch": 2.58,
	"eval_loss": 2.331899881362915,
	"eval_runtime": 69.3398,
	"eval_samples_per_second": 28.843,
	"eval_steps_per_second": 1.803,
	"step": 16600
	},
	{
	"epoch": 2.58,
	"learning_rate": 4.200468627961468e-05,
	"loss": 2.1022,
	"step": 16620
	},
	{
	"epoch": 2.59,
	"learning_rate": 4.169226763863577e-05,
	"loss": 2.1121,
	"step": 16640
	},
	{
	"epoch": 2.59,
	"learning_rate": 4.137984899765686e-05,
	"loss": 2.1014,
	"step": 16660
	},
	{
	"epoch": 2.59,
	"learning_rate": 4.1067430356677945e-05,
	"loss": 2.1867,
	"step": 16680
	},
	{
	"epoch": 2.6,
	"learning_rate": 4.0755011715699034e-05,
	"loss": 2.1055,
	"step": 16700
	},
	{
	"epoch": 2.6,
	"learning_rate": 4.044259307472012e-05,
	"loss": 2.1435,
	"step": 16720
	},
	{
	"epoch": 2.6,
	"learning_rate": 4.013017443374121e-05,
	"loss": 2.09,
	"step": 16740
	},
	{
	"epoch": 2.6,
	"learning_rate": 3.981775579276229e-05,
	"loss": 2.1317,
	"step": 16760
	},
	{
	"epoch": 2.61,
	"learning_rate": 3.950533715178338e-05,
	"loss": 2.0683,
	"step": 16780
	},
	{
	"epoch": 2.61,
	"learning_rate": 3.919291851080447e-05,
	"loss": 2.1249,
	"step": 16800
	},
	{
	"epoch": 2.61,
	"eval_loss": 2.331566572189331,
	"eval_runtime": 69.3154,
	"eval_samples_per_second": 28.854,
	"eval_steps_per_second": 1.803,
	"step": 16800
	},
	{
	"epoch": 2.61,
	"learning_rate": 3.888049986982556e-05,
	"loss": 2.164,
	"step": 16820
	},
	{
	"epoch": 2.62,
	"learning_rate": 3.856808122884665e-05,
	"loss": 2.16,
	"step": 16840
	},
	{
	"epoch": 2.62,
	"learning_rate": 3.8255662587867736e-05,
	"loss": 2.1603,
	"step": 16860
	},
	{
	"epoch": 2.62,
	"learning_rate": 3.7943243946888825e-05,
	"loss": 2.1346,
	"step": 16880
	},
	{
	"epoch": 2.63,
	"learning_rate": 3.7630825305909914e-05,
	"loss": 2.1082,
	"step": 16900
	},
	{
	"epoch": 2.63,
	"learning_rate": 3.7318406664931e-05,
	"loss": 2.1014,
	"step": 16920
	},
	{
	"epoch": 2.63,
	"learning_rate": 3.700598802395209e-05,
	"loss": 2.1088,
	"step": 16940
	},
	{
	"epoch": 2.64,
	"learning_rate": 3.669356938297318e-05,
	"loss": 2.0975,
	"step": 16960
	},
	{
	"epoch": 2.64,
	"learning_rate": 3.638115074199427e-05,
	"loss": 2.1212,
	"step": 16980
	},
	{
	"epoch": 2.64,
	"learning_rate": 3.606873210101536e-05,
	"loss": 2.1226,
	"step": 17000
	},
	{
	"epoch": 2.64,
	"eval_loss": 2.3310983180999756,
	"eval_runtime": 69.3945,
	"eval_samples_per_second": 28.821,
	"eval_steps_per_second": 1.801,
	"step": 17000
	},
	{
	"epoch": 2.64,
	"learning_rate": 3.5756313460036446e-05,
	"loss": 2.1318,
	"step": 17020
	},
	{
	"epoch": 2.65,
	"learning_rate": 3.5443894819057534e-05,
	"loss": 2.1073,
	"step": 17040
	},
	{
	"epoch": 2.65,
	"learning_rate": 3.513147617807862e-05,
	"loss": 2.1411,
	"step": 17060
	},
	{
	"epoch": 2.65,
	"learning_rate": 3.481905753709971e-05,
	"loss": 2.0959,
	"step": 17080
	},
	{
	"epoch": 2.66,
	"learning_rate": 3.45066388961208e-05,
	"loss": 2.0858,
	"step": 17100
	},
	{
	"epoch": 2.66,
	"learning_rate": 3.419422025514189e-05,
	"loss": 2.1174,
	"step": 17120
	},
	{
	"epoch": 2.66,
	"learning_rate": 3.388180161416298e-05,
	"loss": 2.1459,
	"step": 17140
	},
	{
	"epoch": 2.67,
	"learning_rate": 3.3569382973184066e-05,
	"loss": 2.1425,
	"step": 17160
	},
	{
	"epoch": 2.67,
	"learning_rate": 3.3256964332205155e-05,
	"loss": 2.0971,
	"step": 17180
	},
	{
	"epoch": 2.67,
	"learning_rate": 3.2944545691226243e-05,
	"loss": 2.1176,
	"step": 17200
	},
	{
	"epoch": 2.67,
	"eval_loss": 2.330962896347046,
	"eval_runtime": 69.3407,
	"eval_samples_per_second": 28.843,
	"eval_steps_per_second": 1.803,
	"step": 17200
	},
	{
	"epoch": 2.68,
	"learning_rate": 3.2632127050247325e-05,
	"loss": 2.1471,
	"step": 17220
	},
	{
	"epoch": 2.68,
	"learning_rate": 3.2319708409268414e-05,
	"loss": 2.1064,
	"step": 17240
	},
	{
	"epoch": 2.68,
	"learning_rate": 3.20072897682895e-05,
	"loss": 2.1347,
	"step": 17260
	},
	{
	"epoch": 2.69,
	"learning_rate": 3.169487112731059e-05,
	"loss": 2.142,
	"step": 17280
	},
	{
	"epoch": 2.69,
	"learning_rate": 3.138245248633168e-05,
	"loss": 2.1773,
	"step": 17300
	},
	{
	"epoch": 2.69,
	"learning_rate": 3.107003384535277e-05,
	"loss": 2.1489,
	"step": 17320
	},
	{
	"epoch": 2.69,
	"learning_rate": 3.075761520437386e-05,
	"loss": 2.1257,
	"step": 17340
	},
	{
	"epoch": 2.7,
	"learning_rate": 3.044519656339495e-05,
	"loss": 2.1288,
	"step": 17360
	},
	{
	"epoch": 2.7,
	"learning_rate": 3.0132777922416038e-05,
	"loss": 2.1258,
	"step": 17380
	},
	{
	"epoch": 2.7,
	"learning_rate": 2.9820359281437123e-05,
	"loss": 2.1322,
	"step": 17400
	},
	{
	"epoch": 2.7,
	"eval_loss": 2.3309593200683594,
	"eval_runtime": 69.3923,
	"eval_samples_per_second": 28.822,
	"eval_steps_per_second": 1.801,
	"step": 17400
	},
	{
	"epoch": 2.71,
	"learning_rate": 2.9507940640458212e-05,
	"loss": 2.1495,
	"step": 17420
	},
	{
	"epoch": 2.71,
	"learning_rate": 2.91955219994793e-05,
	"loss": 2.0843,
	"step": 17440
	},
	{
	"epoch": 2.71,
	"learning_rate": 2.888310335850039e-05,
	"loss": 2.11,
	"step": 17460
	},
	{
	"epoch": 2.72,
	"learning_rate": 2.8570684717521478e-05,
	"loss": 2.1005,
	"step": 17480
	},
	{
	"epoch": 2.72,
	"learning_rate": 2.827388700859151e-05,
	"loss": 2.1302,
	"step": 17500
	},
	{
	"epoch": 2.72,
	"learning_rate": 2.79614683676126e-05,
	"loss": 2.1086,
	"step": 17520
	},
	{
	"epoch": 2.73,
	"learning_rate": 2.7649049726633688e-05,
	"loss": 2.1302,
	"step": 17540
	},
	{
	"epoch": 2.73,
	"learning_rate": 2.7336631085654777e-05,
	"loss": 2.1417,
	"step": 17560
	},
	{
	"epoch": 2.73,
	"learning_rate": 2.7024212444675862e-05,
	"loss": 2.1369,
	"step": 17580
	},
	{
	"epoch": 2.73,
	"learning_rate": 2.671179380369695e-05,
	"loss": 2.1384,
	"step": 17600
	},
	{
	"epoch": 2.73,
	"eval_loss": 2.33089017868042,
	"eval_runtime": 69.3747,
	"eval_samples_per_second": 28.829,
	"eval_steps_per_second": 1.802,
	"step": 17600
	},
	{
	"epoch": 2.74,
	"learning_rate": 2.639937516271804e-05,
	"loss": 2.1243,
	"step": 17620
	},
	{
	"epoch": 2.74,
	"learning_rate": 2.6086956521739128e-05,
	"loss": 2.1161,
	"step": 17640
	},
	{
	"epoch": 2.74,
	"learning_rate": 2.5774537880760217e-05,
	"loss": 2.1051,
	"step": 17660
	},
	{
	"epoch": 2.75,
	"learning_rate": 2.5462119239781302e-05,
	"loss": 2.0762,
	"step": 17680
	},
	{
	"epoch": 2.75,
	"learning_rate": 2.514970059880239e-05,
	"loss": 2.1105,
	"step": 17700
	},
	{
	"epoch": 2.75,
	"learning_rate": 2.483728195782348e-05,
	"loss": 2.1535,
	"step": 17720
	},
	{
	"epoch": 2.76,
	"learning_rate": 2.452486331684457e-05,
	"loss": 2.1706,
	"step": 17740
	},
	{
	"epoch": 2.76,
	"learning_rate": 2.421244467586566e-05,
	"loss": 2.0857,
	"step": 17760
	},
	{
	"epoch": 2.76,
	"learning_rate": 2.390002603488675e-05,
	"loss": 2.1553,
	"step": 17780
	},
	{
	"epoch": 2.77,
	"learning_rate": 2.3587607393907834e-05,
	"loss": 2.0983,
	"step": 17800
	},
	{
	"epoch": 2.77,
	"eval_loss": 2.3304569721221924,
	"eval_runtime": 69.35,
	"eval_samples_per_second": 28.839,
	"eval_steps_per_second": 1.802,
	"step": 17800
	},
	{
	"epoch": 2.77,
	"learning_rate": 2.3275188752928923e-05,
	"loss": 2.1212,
	"step": 17820
	},
	{
	"epoch": 2.77,
	"learning_rate": 2.296277011195001e-05,
	"loss": 2.0816,
	"step": 17840
	},
	{
	"epoch": 2.78,
	"learning_rate": 2.26503514709711e-05,
	"loss": 2.0935,
	"step": 17860
	},
	{
	"epoch": 2.78,
	"learning_rate": 2.233793282999219e-05,
	"loss": 2.1576,
	"step": 17880
	},
	{
	"epoch": 2.78,
	"learning_rate": 2.2025514189013274e-05,
	"loss": 2.1076,
	"step": 17900
	},
	{
	"epoch": 2.78,
	"learning_rate": 2.1713095548034362e-05,
	"loss": 2.1184,
	"step": 17920
	},
	{
	"epoch": 2.79,
	"learning_rate": 2.140067690705545e-05,
	"loss": 2.1169,
	"step": 17940
	},
	{
	"epoch": 2.79,
	"learning_rate": 2.108825826607654e-05,
	"loss": 2.1442,
	"step": 17960
	},
	{
	"epoch": 2.79,
	"learning_rate": 2.077583962509763e-05,
	"loss": 2.1332,
	"step": 17980
	},
	{
	"epoch": 2.8,
	"learning_rate": 2.0463420984118717e-05,
	"loss": 2.1553,
	"step": 18000
	},
	{
	"epoch": 2.8,
	"eval_loss": 2.330599069595337,
	"eval_runtime": 69.346,
	"eval_samples_per_second": 28.841,
	"eval_steps_per_second": 1.803,
	"step": 18000
	},
	{
	"epoch": 2.8,
	"learning_rate": 2.0151002343139802e-05,
	"loss": 2.1055,
	"step": 18020
	},
	{
	"epoch": 2.8,
	"learning_rate": 1.9838583702160894e-05,
	"loss": 2.0778,
	"step": 18040
	},
	{
	"epoch": 2.81,
	"learning_rate": 1.9526165061181983e-05,
	"loss": 2.143,
	"step": 18060
	},
	{
	"epoch": 2.81,
	"learning_rate": 1.921374642020307e-05,
	"loss": 2.0886,
	"step": 18080
	},
	{
	"epoch": 2.81,
	"learning_rate": 1.890132777922416e-05,
	"loss": 2.1236,
	"step": 18100
	},
	{
	"epoch": 2.82,
	"learning_rate": 1.858890913824525e-05,
	"loss": 2.1307,
	"step": 18120
	},
	{
	"epoch": 2.82,
	"learning_rate": 1.8276490497266334e-05,
	"loss": 2.1192,
	"step": 18140
	},
	{
	"epoch": 2.82,
	"learning_rate": 1.7964071856287423e-05,
	"loss": 2.0999,
	"step": 18160
	},
	{
	"epoch": 2.83,
	"learning_rate": 1.765165321530851e-05,
	"loss": 2.0792,
	"step": 18180
	},
	{
	"epoch": 2.83,
	"learning_rate": 1.73392345743296e-05,
	"loss": 2.1015,
	"step": 18200
	},
	{
	"epoch": 2.83,
	"eval_loss": 2.330050230026245,
	"eval_runtime": 69.3278,
	"eval_samples_per_second": 28.848,
	"eval_steps_per_second": 1.803,
	"step": 18200
	},
	{
	"epoch": 2.83,
	"learning_rate": 1.702681593335069e-05,
	"loss": 2.1226,
	"step": 18220
	},
	{
	"epoch": 2.83,
	"learning_rate": 1.6714397292371778e-05,
	"loss": 2.0924,
	"step": 18240
	},
	{
	"epoch": 2.84,
	"learning_rate": 1.6401978651392866e-05,
	"loss": 2.1272,
	"step": 18260
	},
	{
	"epoch": 2.84,
	"learning_rate": 1.6089560010413955e-05,
	"loss": 2.1175,
	"step": 18280
	},
	{
	"epoch": 2.84,
	"learning_rate": 1.577714136943504e-05,
	"loss": 2.1396,
	"step": 18300
	},
	{
	"epoch": 2.85,
	"learning_rate": 1.546472272845613e-05,
	"loss": 2.1514,
	"step": 18320
	},
	{
	"epoch": 2.85,
	"learning_rate": 1.5152304087477217e-05,
	"loss": 2.1257,
	"step": 18340
	},
	{
	"epoch": 2.85,
	"learning_rate": 1.4839885446498306e-05,
	"loss": 2.1459,
	"step": 18360
	},
	{
	"epoch": 2.86,
	"learning_rate": 1.4527466805519396e-05,
	"loss": 2.09,
	"step": 18380
	},
	{
	"epoch": 2.86,
	"learning_rate": 1.4215048164540483e-05,
	"loss": 2.1442,
	"step": 18400
	},
	{
	"epoch": 2.86,
	"eval_loss": 2.330048084259033,
	"eval_runtime": 69.2975,
	"eval_samples_per_second": 28.861,
	"eval_steps_per_second": 1.804,
	"step": 18400
	},
	{
	"epoch": 2.86,
	"learning_rate": 1.3902629523561572e-05,
	"loss": 2.1816,
	"step": 18420
	},
	{
	"epoch": 2.87,
	"learning_rate": 1.3590210882582659e-05,
	"loss": 2.0965,
	"step": 18440
	},
	{
	"epoch": 2.87,
	"learning_rate": 1.3277792241603748e-05,
	"loss": 2.1178,
	"step": 18460
	},
	{
	"epoch": 2.87,
	"learning_rate": 1.2965373600624836e-05,
	"loss": 2.1562,
	"step": 18480
	},
	{
	"epoch": 2.87,
	"learning_rate": 1.2652954959645923e-05,
	"loss": 2.095,
	"step": 18500
	},
	{
	"epoch": 2.88,
	"learning_rate": 1.2340536318667012e-05,
	"loss": 2.1522,
	"step": 18520
	},
	{
	"epoch": 2.88,
	"learning_rate": 1.2028117677688102e-05,
	"loss": 2.1729,
	"step": 18540
	},
	{
	"epoch": 2.88,
	"learning_rate": 1.1715699036709189e-05,
	"loss": 2.141,
	"step": 18560
	},
	{
	"epoch": 2.89,
	"learning_rate": 1.1403280395730278e-05,
	"loss": 2.148,
	"step": 18580
	},
	{
	"epoch": 2.89,
	"learning_rate": 1.1090861754751366e-05,
	"loss": 2.1619,
	"step": 18600
	},
	{
	"epoch": 2.89,
	"eval_loss": 2.329728603363037,
	"eval_runtime": 69.3412,
	"eval_samples_per_second": 28.843,
	"eval_steps_per_second": 1.803,
	"step": 18600
	},
	{
	"epoch": 2.89,
	"learning_rate": 1.0778443113772453e-05,
	"loss": 2.1199,
	"step": 18620
	},
	{
	"epoch": 2.9,
	"learning_rate": 1.0466024472793542e-05,
	"loss": 2.131,
	"step": 18640
	},
	{
	"epoch": 2.9,
	"learning_rate": 1.0153605831814629e-05,
	"loss": 2.1512,
	"step": 18660
	},
	{
	"epoch": 2.9,
	"learning_rate": 9.84118719083572e-06,
	"loss": 2.1292,
	"step": 18680
	},
	{
	"epoch": 2.91,
	"learning_rate": 9.528768549856808e-06,
	"loss": 2.0928,
	"step": 18700
	},
	{
	"epoch": 2.91,
	"learning_rate": 9.216349908877897e-06,
	"loss": 2.1168,
	"step": 18720
	},
	{
	"epoch": 2.91,
	"learning_rate": 8.903931267898984e-06,
	"loss": 2.1316,
	"step": 18740
	},
	{
	"epoch": 2.92,
	"learning_rate": 8.591512626920072e-06,
	"loss": 2.1198,
	"step": 18760
	},
	{
	"epoch": 2.92,
	"learning_rate": 8.279093985941161e-06,
	"loss": 2.1226,
	"step": 18780
	},
	{
	"epoch": 2.92,
	"learning_rate": 7.96667534496225e-06,
	"loss": 2.1234,
	"step": 18800
	},
	{
	"epoch": 2.92,
	"eval_loss": 2.3294034004211426,
	"eval_runtime": 69.3303,
	"eval_samples_per_second": 28.847,
	"eval_steps_per_second": 1.803,
	"step": 18800
	},
	{
	"epoch": 2.92,
	"learning_rate": 7.654256703983337e-06,
	"loss": 2.1251,
	"step": 18820
	},
	{
	"epoch": 2.93,
	"learning_rate": 7.341838063004425e-06,
	"loss": 2.1278,
	"step": 18840
	},
	{
	"epoch": 2.93,
	"learning_rate": 7.029419422025514e-06,
	"loss": 2.1115,
	"step": 18860
	},
	{
	"epoch": 2.93,
	"learning_rate": 6.717000781046602e-06,
	"loss": 2.1468,
	"step": 18880
	},
	{
	"epoch": 2.94,
	"learning_rate": 6.4045821400676894e-06,
	"loss": 2.0903,
	"step": 18900
	},
	{
	"epoch": 2.94,
	"learning_rate": 6.092163499088779e-06,
	"loss": 2.1271,
	"step": 18920
	},
	{
	"epoch": 2.94,
	"learning_rate": 5.779744858109867e-06,
	"loss": 2.1253,
	"step": 18940
	},
	{
	"epoch": 2.95,
	"learning_rate": 5.4673262171309545e-06,
	"loss": 2.0903,
	"step": 18960
	},
	{
	"epoch": 2.95,
	"learning_rate": 5.154907576152043e-06,
	"loss": 2.1566,
	"step": 18980
	},
	{
	"epoch": 2.95,
	"learning_rate": 4.842488935173132e-06,
	"loss": 2.1477,
	"step": 19000
	},
	{
	"epoch": 2.95,
	"eval_loss": 2.3293075561523438,
	"eval_runtime": 69.6518,
	"eval_samples_per_second": 28.714,
	"eval_steps_per_second": 1.795,
	"step": 19000
	},
	{
	"epoch": 2.96,
	"learning_rate": 4.53007029419422e-06,
	"loss": 2.1145,
	"step": 19020
	},
	{
	"epoch": 2.96,
	"learning_rate": 4.217651653215308e-06,
	"loss": 2.1255,
	"step": 19040
	},
	{
	"epoch": 2.96,
	"learning_rate": 3.905233012236396e-06,
	"loss": 2.1122,
	"step": 19060
	},
	{
	"epoch": 2.96,
	"learning_rate": 3.5928143712574848e-06,
	"loss": 2.1299,
	"step": 19080
	},
	{
	"epoch": 2.97,
	"learning_rate": 3.280395730278573e-06,
	"loss": 2.1272,
	"step": 19100
	},
	{
	"epoch": 2.97,
	"learning_rate": 2.9679770892996616e-06,
	"loss": 2.1234,
	"step": 19120
	},
	{
	"epoch": 2.97,
	"learning_rate": 2.6555584483207494e-06,
	"loss": 2.1791,
	"step": 19140
	},
	{
	"epoch": 2.98,
	"learning_rate": 2.343139807341838e-06,
	"loss": 2.1565,
	"step": 19160
	},
	{
	"epoch": 2.98,
	"learning_rate": 2.0307211663629263e-06,
	"loss": 2.1256,
	"step": 19180
	},
	{
	"epoch": 2.98,
	"learning_rate": 1.7183025253840145e-06,
	"loss": 2.1641,
	"step": 19200
	},
	{
	"epoch": 2.98,
	"eval_loss": 2.329240560531616,
	"eval_runtime": 69.5753,
	"eval_samples_per_second": 28.746,
	"eval_steps_per_second": 1.797,
	"step": 19200
	}
	],
	"max_steps": 19305,
	"num_train_epochs": 3,
	"total_flos": 5.372174060814231e+19,
	"trial_name": null,
	"trial_params": null
	}