Upload 13 files

6197248 verified 29 days ago

32.9 kB

	{
	"best_metric": 0.08053209632635117,
	"best_model_checkpoint": "saves/Breeze-7B-FC-v1_0-15-12-2024\\checkpoint-1700",
	"epoch": 0.3381150088257962,
	"eval_steps": 100,
	"global_step": 1700,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0019889118166223304,
	"grad_norm": 0.6233828067779541,
	"learning_rate": 0.0004,
	"loss": 0.7108,
	"step": 10
	},
	{
	"epoch": 0.003977823633244661,
	"grad_norm": 0.4662277102470398,
	"learning_rate": 0.0004,
	"loss": 0.729,
	"step": 20
	},
	{
	"epoch": 0.005966735449866992,
	"grad_norm": 0.5307815670967102,
	"learning_rate": 0.0004,
	"loss": 0.6936,
	"step": 30
	},
	{
	"epoch": 0.007955647266489322,
	"grad_norm": 0.5890870690345764,
	"learning_rate": 0.0004,
	"loss": 0.7229,
	"step": 40
	},
	{
	"epoch": 0.009944559083111653,
	"grad_norm": 0.5515501499176025,
	"learning_rate": 0.0004,
	"loss": 0.6669,
	"step": 50
	},
	{
	"epoch": 0.011933470899733983,
	"grad_norm": 0.5326377153396606,
	"learning_rate": 0.0004,
	"loss": 0.6564,
	"step": 60
	},
	{
	"epoch": 0.013922382716356313,
	"grad_norm": 0.5636907815933228,
	"learning_rate": 0.0004,
	"loss": 0.6773,
	"step": 70
	},
	{
	"epoch": 0.015911294532978643,
	"grad_norm": 0.49359801411628723,
	"learning_rate": 0.0004,
	"loss": 0.6516,
	"step": 80
	},
	{
	"epoch": 0.017900206349600975,
	"grad_norm": 0.4739631116390228,
	"learning_rate": 0.0004,
	"loss": 0.6594,
	"step": 90
	},
	{
	"epoch": 0.019889118166223307,
	"grad_norm": 0.5182624459266663,
	"learning_rate": 0.0004,
	"loss": 0.69,
	"step": 100
	},
	{
	"epoch": 0.019889118166223307,
	"eval_loss": 0.08401616662740707,
	"eval_runtime": 30.1147,
	"eval_samples_per_second": 2.69,
	"eval_steps_per_second": 1.361,
	"step": 100
	},
	{
	"epoch": 0.021878029982845635,
	"grad_norm": 0.5577639937400818,
	"learning_rate": 0.0004,
	"loss": 0.6813,
	"step": 110
	},
	{
	"epoch": 0.023866941799467967,
	"grad_norm": 0.5308650732040405,
	"learning_rate": 0.0004,
	"loss": 0.689,
	"step": 120
	},
	{
	"epoch": 0.025855853616090295,
	"grad_norm": 0.705682635307312,
	"learning_rate": 0.0004,
	"loss": 0.6846,
	"step": 130
	},
	{
	"epoch": 0.027844765432712627,
	"grad_norm": 0.5250112414360046,
	"learning_rate": 0.0004,
	"loss": 0.6699,
	"step": 140
	},
	{
	"epoch": 0.02983367724933496,
	"grad_norm": 0.5885920524597168,
	"learning_rate": 0.0004,
	"loss": 0.6733,
	"step": 150
	},
	{
	"epoch": 0.03182258906595729,
	"grad_norm": 0.5392662286758423,
	"learning_rate": 0.0004,
	"loss": 0.673,
	"step": 160
	},
	{
	"epoch": 0.03381150088257962,
	"grad_norm": 0.576032280921936,
	"learning_rate": 0.0004,
	"loss": 0.6934,
	"step": 170
	},
	{
	"epoch": 0.03580041269920195,
	"grad_norm": 0.5046477317810059,
	"learning_rate": 0.0004,
	"loss": 0.6535,
	"step": 180
	},
	{
	"epoch": 0.03778932451582428,
	"grad_norm": 0.628962516784668,
	"learning_rate": 0.0004,
	"loss": 0.6758,
	"step": 190
	},
	{
	"epoch": 0.03977823633244661,
	"grad_norm": 0.5312318801879883,
	"learning_rate": 0.0004,
	"loss": 0.6839,
	"step": 200
	},
	{
	"epoch": 0.03977823633244661,
	"eval_loss": 0.08386518061161041,
	"eval_runtime": 30.1222,
	"eval_samples_per_second": 2.689,
	"eval_steps_per_second": 1.361,
	"step": 200
	},
	{
	"epoch": 0.04176714814906894,
	"grad_norm": 0.5689460635185242,
	"learning_rate": 0.0004,
	"loss": 0.6616,
	"step": 210
	},
	{
	"epoch": 0.04375605996569127,
	"grad_norm": 0.5760230422019958,
	"learning_rate": 0.0004,
	"loss": 0.67,
	"step": 220
	},
	{
	"epoch": 0.045744971782313605,
	"grad_norm": 0.6037033200263977,
	"learning_rate": 0.0004,
	"loss": 0.6608,
	"step": 230
	},
	{
	"epoch": 0.04773388359893593,
	"grad_norm": 0.5196573138237,
	"learning_rate": 0.0004,
	"loss": 0.672,
	"step": 240
	},
	{
	"epoch": 0.04972279541555826,
	"grad_norm": 0.5766464471817017,
	"learning_rate": 0.0004,
	"loss": 0.6651,
	"step": 250
	},
	{
	"epoch": 0.05171170723218059,
	"grad_norm": 0.5686795711517334,
	"learning_rate": 0.0004,
	"loss": 0.6351,
	"step": 260
	},
	{
	"epoch": 0.053700619048802925,
	"grad_norm": 0.5607637763023376,
	"learning_rate": 0.0004,
	"loss": 0.659,
	"step": 270
	},
	{
	"epoch": 0.05568953086542525,
	"grad_norm": 0.545982837677002,
	"learning_rate": 0.0004,
	"loss": 0.6297,
	"step": 280
	},
	{
	"epoch": 0.05767844268204758,
	"grad_norm": 0.6047331690788269,
	"learning_rate": 0.0004,
	"loss": 0.6541,
	"step": 290
	},
	{
	"epoch": 0.05966735449866992,
	"grad_norm": 0.5864997506141663,
	"learning_rate": 0.0004,
	"loss": 0.6831,
	"step": 300
	},
	{
	"epoch": 0.05966735449866992,
	"eval_loss": 0.0832422524690628,
	"eval_runtime": 30.1361,
	"eval_samples_per_second": 2.688,
	"eval_steps_per_second": 1.36,
	"step": 300
	},
	{
	"epoch": 0.061656266315292245,
	"grad_norm": 0.6031671166419983,
	"learning_rate": 0.0004,
	"loss": 0.6441,
	"step": 310
	},
	{
	"epoch": 0.06364517813191457,
	"grad_norm": 0.5433733463287354,
	"learning_rate": 0.0004,
	"loss": 0.6836,
	"step": 320
	},
	{
	"epoch": 0.06563408994853691,
	"grad_norm": 0.5863742232322693,
	"learning_rate": 0.0004,
	"loss": 0.6804,
	"step": 330
	},
	{
	"epoch": 0.06762300176515924,
	"grad_norm": 0.7768782377243042,
	"learning_rate": 0.0004,
	"loss": 0.7014,
	"step": 340
	},
	{
	"epoch": 0.06961191358178156,
	"grad_norm": 0.548475444316864,
	"learning_rate": 0.0004,
	"loss": 0.6545,
	"step": 350
	},
	{
	"epoch": 0.0716008253984039,
	"grad_norm": 0.7511247992515564,
	"learning_rate": 0.0004,
	"loss": 0.6478,
	"step": 360
	},
	{
	"epoch": 0.07358973721502624,
	"grad_norm": 0.6464333534240723,
	"learning_rate": 0.0004,
	"loss": 0.6762,
	"step": 370
	},
	{
	"epoch": 0.07557864903164856,
	"grad_norm": 0.6280458569526672,
	"learning_rate": 0.0004,
	"loss": 0.6723,
	"step": 380
	},
	{
	"epoch": 0.07756756084827089,
	"grad_norm": 0.6138644218444824,
	"learning_rate": 0.0004,
	"loss": 0.6834,
	"step": 390
	},
	{
	"epoch": 0.07955647266489323,
	"grad_norm": 0.6612856984138489,
	"learning_rate": 0.0004,
	"loss": 0.662,
	"step": 400
	},
	{
	"epoch": 0.07955647266489323,
	"eval_loss": 0.08379939943552017,
	"eval_runtime": 30.1324,
	"eval_samples_per_second": 2.688,
	"eval_steps_per_second": 1.361,
	"step": 400
	},
	{
	"epoch": 0.08154538448151555,
	"grad_norm": 0.5658541917800903,
	"learning_rate": 0.0004,
	"loss": 0.6507,
	"step": 410
	},
	{
	"epoch": 0.08353429629813788,
	"grad_norm": 0.5861065983772278,
	"learning_rate": 0.0004,
	"loss": 0.6565,
	"step": 420
	},
	{
	"epoch": 0.08552320811476022,
	"grad_norm": 0.6580057144165039,
	"learning_rate": 0.0004,
	"loss": 0.6961,
	"step": 430
	},
	{
	"epoch": 0.08751211993138254,
	"grad_norm": 0.6456801295280457,
	"learning_rate": 0.0004,
	"loss": 0.6667,
	"step": 440
	},
	{
	"epoch": 0.08950103174800488,
	"grad_norm": 0.6603415608406067,
	"learning_rate": 0.0004,
	"loss": 0.6589,
	"step": 450
	},
	{
	"epoch": 0.09148994356462721,
	"grad_norm": 0.6744834184646606,
	"learning_rate": 0.0004,
	"loss": 0.6791,
	"step": 460
	},
	{
	"epoch": 0.09347885538124953,
	"grad_norm": 0.6219160556793213,
	"learning_rate": 0.0004,
	"loss": 0.6748,
	"step": 470
	},
	{
	"epoch": 0.09546776719787187,
	"grad_norm": 0.6373462677001953,
	"learning_rate": 0.0004,
	"loss": 0.654,
	"step": 480
	},
	{
	"epoch": 0.09745667901449419,
	"grad_norm": 0.7271533608436584,
	"learning_rate": 0.0004,
	"loss": 0.651,
	"step": 490
	},
	{
	"epoch": 0.09944559083111652,
	"grad_norm": 0.6483666300773621,
	"learning_rate": 0.0004,
	"loss": 0.6728,
	"step": 500
	},
	{
	"epoch": 0.09944559083111652,
	"eval_loss": 0.08319716155529022,
	"eval_runtime": 30.1252,
	"eval_samples_per_second": 2.689,
	"eval_steps_per_second": 1.361,
	"step": 500
	},
	{
	"epoch": 0.10143450264773886,
	"grad_norm": 0.5817425847053528,
	"learning_rate": 0.0004,
	"loss": 0.6571,
	"step": 510
	},
	{
	"epoch": 0.10342341446436118,
	"grad_norm": 0.6830428838729858,
	"learning_rate": 0.0004,
	"loss": 0.6618,
	"step": 520
	},
	{
	"epoch": 0.10541232628098351,
	"grad_norm": 0.5775642395019531,
	"learning_rate": 0.0004,
	"loss": 0.6181,
	"step": 530
	},
	{
	"epoch": 0.10740123809760585,
	"grad_norm": 0.6007582545280457,
	"learning_rate": 0.0004,
	"loss": 0.6839,
	"step": 540
	},
	{
	"epoch": 0.10939014991422817,
	"grad_norm": 0.648262083530426,
	"learning_rate": 0.0004,
	"loss": 0.6643,
	"step": 550
	},
	{
	"epoch": 0.1113790617308505,
	"grad_norm": 0.6632483601570129,
	"learning_rate": 0.0004,
	"loss": 0.652,
	"step": 560
	},
	{
	"epoch": 0.11336797354747284,
	"grad_norm": 0.5972626805305481,
	"learning_rate": 0.0004,
	"loss": 0.6938,
	"step": 570
	},
	{
	"epoch": 0.11535688536409516,
	"grad_norm": 0.6052406430244446,
	"learning_rate": 0.0004,
	"loss": 0.6301,
	"step": 580
	},
	{
	"epoch": 0.1173457971807175,
	"grad_norm": 0.5875466465950012,
	"learning_rate": 0.0004,
	"loss": 0.6614,
	"step": 590
	},
	{
	"epoch": 0.11933470899733983,
	"grad_norm": 0.7067976593971252,
	"learning_rate": 0.0004,
	"loss": 0.647,
	"step": 600
	},
	{
	"epoch": 0.11933470899733983,
	"eval_loss": 0.08319241553544998,
	"eval_runtime": 30.1031,
	"eval_samples_per_second": 2.691,
	"eval_steps_per_second": 1.362,
	"step": 600
	},
	{
	"epoch": 0.12132362081396215,
	"grad_norm": 0.66518634557724,
	"learning_rate": 0.0004,
	"loss": 0.693,
	"step": 610
	},
	{
	"epoch": 0.12331253263058449,
	"grad_norm": 0.6959813833236694,
	"learning_rate": 0.0004,
	"loss": 0.6747,
	"step": 620
	},
	{
	"epoch": 0.1253014444472068,
	"grad_norm": 0.935105562210083,
	"learning_rate": 0.0004,
	"loss": 0.6686,
	"step": 630
	},
	{
	"epoch": 0.12729035626382915,
	"grad_norm": 0.713768720626831,
	"learning_rate": 0.0004,
	"loss": 0.6707,
	"step": 640
	},
	{
	"epoch": 0.12927926808045148,
	"grad_norm": 0.7059699296951294,
	"learning_rate": 0.0004,
	"loss": 0.7255,
	"step": 650
	},
	{
	"epoch": 0.13126817989707382,
	"grad_norm": 0.588306725025177,
	"learning_rate": 0.0004,
	"loss": 0.6689,
	"step": 660
	},
	{
	"epoch": 0.13325709171369615,
	"grad_norm": 0.6097111105918884,
	"learning_rate": 0.0004,
	"loss": 0.6612,
	"step": 670
	},
	{
	"epoch": 0.1352460035303185,
	"grad_norm": 0.642393946647644,
	"learning_rate": 0.0004,
	"loss": 0.6743,
	"step": 680
	},
	{
	"epoch": 0.1372349153469408,
	"grad_norm": 0.7600162625312805,
	"learning_rate": 0.0004,
	"loss": 0.6768,
	"step": 690
	},
	{
	"epoch": 0.13922382716356313,
	"grad_norm": 0.7193499207496643,
	"learning_rate": 0.0004,
	"loss": 0.6559,
	"step": 700
	},
	{
	"epoch": 0.13922382716356313,
	"eval_loss": 0.08392166346311569,
	"eval_runtime": 30.1253,
	"eval_samples_per_second": 2.689,
	"eval_steps_per_second": 1.361,
	"step": 700
	},
	{
	"epoch": 0.14121273898018546,
	"grad_norm": 0.6542356014251709,
	"learning_rate": 0.0004,
	"loss": 0.6775,
	"step": 710
	},
	{
	"epoch": 0.1432016507968078,
	"grad_norm": 0.629941999912262,
	"learning_rate": 0.0004,
	"loss": 0.6223,
	"step": 720
	},
	{
	"epoch": 0.14519056261343014,
	"grad_norm": 0.6493385434150696,
	"learning_rate": 0.0004,
	"loss": 0.6894,
	"step": 730
	},
	{
	"epoch": 0.14717947443005247,
	"grad_norm": 0.7201417684555054,
	"learning_rate": 0.0004,
	"loss": 0.6858,
	"step": 740
	},
	{
	"epoch": 0.14916838624667478,
	"grad_norm": 0.6775253415107727,
	"learning_rate": 0.0004,
	"loss": 0.6628,
	"step": 750
	},
	{
	"epoch": 0.1511572980632971,
	"grad_norm": 0.6149548292160034,
	"learning_rate": 0.0004,
	"loss": 0.6993,
	"step": 760
	},
	{
	"epoch": 0.15314620987991945,
	"grad_norm": 0.6627587080001831,
	"learning_rate": 0.0004,
	"loss": 0.646,
	"step": 770
	},
	{
	"epoch": 0.15513512169654178,
	"grad_norm": 0.6701797842979431,
	"learning_rate": 0.0004,
	"loss": 0.6927,
	"step": 780
	},
	{
	"epoch": 0.15712403351316412,
	"grad_norm": 0.678193211555481,
	"learning_rate": 0.0004,
	"loss": 0.6454,
	"step": 790
	},
	{
	"epoch": 0.15911294532978645,
	"grad_norm": 0.6337444186210632,
	"learning_rate": 0.0004,
	"loss": 0.6723,
	"step": 800
	},
	{
	"epoch": 0.15911294532978645,
	"eval_loss": 0.08426591008901596,
	"eval_runtime": 30.0445,
	"eval_samples_per_second": 2.696,
	"eval_steps_per_second": 1.365,
	"step": 800
	},
	{
	"epoch": 0.16110185714640876,
	"grad_norm": 0.654451310634613,
	"learning_rate": 0.0004,
	"loss": 0.6799,
	"step": 810
	},
	{
	"epoch": 0.1630907689630311,
	"grad_norm": 0.6989086866378784,
	"learning_rate": 0.0004,
	"loss": 0.6694,
	"step": 820
	},
	{
	"epoch": 0.16507968077965343,
	"grad_norm": 0.6176579594612122,
	"learning_rate": 0.0004,
	"loss": 0.6225,
	"step": 830
	},
	{
	"epoch": 0.16706859259627577,
	"grad_norm": 0.6462605595588684,
	"learning_rate": 0.0004,
	"loss": 0.6584,
	"step": 840
	},
	{
	"epoch": 0.1690575044128981,
	"grad_norm": 0.7809733748435974,
	"learning_rate": 0.0004,
	"loss": 0.6601,
	"step": 850
	},
	{
	"epoch": 0.17104641622952044,
	"grad_norm": 0.7143774032592773,
	"learning_rate": 0.0004,
	"loss": 0.6655,
	"step": 860
	},
	{
	"epoch": 0.17303532804614274,
	"grad_norm": 0.7137865424156189,
	"learning_rate": 0.0004,
	"loss": 0.6849,
	"step": 870
	},
	{
	"epoch": 0.17502423986276508,
	"grad_norm": 0.715568482875824,
	"learning_rate": 0.0004,
	"loss": 0.6408,
	"step": 880
	},
	{
	"epoch": 0.17701315167938741,
	"grad_norm": 0.59111088514328,
	"learning_rate": 0.0004,
	"loss": 0.6772,
	"step": 890
	},
	{
	"epoch": 0.17900206349600975,
	"grad_norm": 0.7616696357727051,
	"learning_rate": 0.0004,
	"loss": 0.6671,
	"step": 900
	},
	{
	"epoch": 0.17900206349600975,
	"eval_loss": 0.084267757833004,
	"eval_runtime": 30.1275,
	"eval_samples_per_second": 2.689,
	"eval_steps_per_second": 1.361,
	"step": 900
	},
	{
	"epoch": 0.18099097531263209,
	"grad_norm": 0.6685693860054016,
	"learning_rate": 0.0004,
	"loss": 0.6792,
	"step": 910
	},
	{
	"epoch": 0.18297988712925442,
	"grad_norm": 0.7320526838302612,
	"learning_rate": 0.0004,
	"loss": 0.6435,
	"step": 920
	},
	{
	"epoch": 0.18496879894587673,
	"grad_norm": 0.6541480422019958,
	"learning_rate": 0.0004,
	"loss": 0.6649,
	"step": 930
	},
	{
	"epoch": 0.18695771076249906,
	"grad_norm": 0.6433006525039673,
	"learning_rate": 0.0004,
	"loss": 0.6677,
	"step": 940
	},
	{
	"epoch": 0.1889466225791214,
	"grad_norm": 0.6296941041946411,
	"learning_rate": 0.0004,
	"loss": 0.6334,
	"step": 950
	},
	{
	"epoch": 0.19093553439574373,
	"grad_norm": 0.7856689691543579,
	"learning_rate": 0.0004,
	"loss": 0.7039,
	"step": 960
	},
	{
	"epoch": 0.19292444621236607,
	"grad_norm": 0.6200475096702576,
	"learning_rate": 0.0004,
	"loss": 0.6602,
	"step": 970
	},
	{
	"epoch": 0.19491335802898838,
	"grad_norm": 0.6970551609992981,
	"learning_rate": 0.0004,
	"loss": 0.6704,
	"step": 980
	},
	{
	"epoch": 0.1969022698456107,
	"grad_norm": 0.6525449752807617,
	"learning_rate": 0.0004,
	"loss": 0.6721,
	"step": 990
	},
	{
	"epoch": 0.19889118166223305,
	"grad_norm": 0.7507511377334595,
	"learning_rate": 0.0004,
	"loss": 0.6829,
	"step": 1000
	},
	{
	"epoch": 0.19889118166223305,
	"eval_loss": 0.0835462287068367,
	"eval_runtime": 30.0507,
	"eval_samples_per_second": 2.695,
	"eval_steps_per_second": 1.364,
	"step": 1000
	},
	{
	"epoch": 0.20088009347885538,
	"grad_norm": 0.7378696203231812,
	"learning_rate": 0.0004,
	"loss": 0.6567,
	"step": 1010
	},
	{
	"epoch": 0.20286900529547772,
	"grad_norm": 0.6451396346092224,
	"learning_rate": 0.0004,
	"loss": 0.6502,
	"step": 1020
	},
	{
	"epoch": 0.20485791711210005,
	"grad_norm": 0.6342566013336182,
	"learning_rate": 0.0004,
	"loss": 0.6477,
	"step": 1030
	},
	{
	"epoch": 0.20684682892872236,
	"grad_norm": 0.7209526896476746,
	"learning_rate": 0.0004,
	"loss": 0.6661,
	"step": 1040
	},
	{
	"epoch": 0.2088357407453447,
	"grad_norm": 0.6808329820632935,
	"learning_rate": 0.0004,
	"loss": 0.6515,
	"step": 1050
	},
	{
	"epoch": 0.21082465256196703,
	"grad_norm": 0.6738231182098389,
	"learning_rate": 0.0004,
	"loss": 0.626,
	"step": 1060
	},
	{
	"epoch": 0.21281356437858936,
	"grad_norm": 0.6646963357925415,
	"learning_rate": 0.0004,
	"loss": 0.6714,
	"step": 1070
	},
	{
	"epoch": 0.2148024761952117,
	"grad_norm": 0.6372888088226318,
	"learning_rate": 0.0004,
	"loss": 0.6768,
	"step": 1080
	},
	{
	"epoch": 0.21679138801183404,
	"grad_norm": 0.7138890624046326,
	"learning_rate": 0.0004,
	"loss": 0.6949,
	"step": 1090
	},
	{
	"epoch": 0.21878029982845634,
	"grad_norm": 0.7249679565429688,
	"learning_rate": 0.0004,
	"loss": 0.6928,
	"step": 1100
	},
	{
	"epoch": 0.21878029982845634,
	"eval_loss": 0.08422956615686417,
	"eval_runtime": 30.1032,
	"eval_samples_per_second": 2.691,
	"eval_steps_per_second": 1.362,
	"step": 1100
	},
	{
	"epoch": 0.22076921164507868,
	"grad_norm": 0.6382346153259277,
	"learning_rate": 0.0004,
	"loss": 0.6619,
	"step": 1110
	},
	{
	"epoch": 0.222758123461701,
	"grad_norm": 0.6400596499443054,
	"learning_rate": 0.0004,
	"loss": 0.7103,
	"step": 1120
	},
	{
	"epoch": 0.22474703527832335,
	"grad_norm": 0.6994810700416565,
	"learning_rate": 0.0004,
	"loss": 0.6647,
	"step": 1130
	},
	{
	"epoch": 0.22673594709494568,
	"grad_norm": 0.76835036277771,
	"learning_rate": 0.0004,
	"loss": 0.6923,
	"step": 1140
	},
	{
	"epoch": 0.22872485891156802,
	"grad_norm": 0.6603644490242004,
	"learning_rate": 0.0004,
	"loss": 0.673,
	"step": 1150
	},
	{
	"epoch": 0.23071377072819033,
	"grad_norm": 0.7264408469200134,
	"learning_rate": 0.0004,
	"loss": 0.6828,
	"step": 1160
	},
	{
	"epoch": 0.23270268254481266,
	"grad_norm": 0.7072731852531433,
	"learning_rate": 0.0004,
	"loss": 0.6831,
	"step": 1170
	},
	{
	"epoch": 0.234691594361435,
	"grad_norm": 0.6494096517562866,
	"learning_rate": 0.0004,
	"loss": 0.6659,
	"step": 1180
	},
	{
	"epoch": 0.23668050617805733,
	"grad_norm": 0.6463006734848022,
	"learning_rate": 0.0004,
	"loss": 0.7155,
	"step": 1190
	},
	{
	"epoch": 0.23866941799467967,
	"grad_norm": 0.6508920192718506,
	"learning_rate": 0.0004,
	"loss": 0.6563,
	"step": 1200
	},
	{
	"epoch": 0.23866941799467967,
	"eval_loss": 0.08387701213359833,
	"eval_runtime": 30.0299,
	"eval_samples_per_second": 2.697,
	"eval_steps_per_second": 1.365,
	"step": 1200
	},
	{
	"epoch": 0.240658329811302,
	"grad_norm": 0.6701735258102417,
	"learning_rate": 0.0004,
	"loss": 0.6765,
	"step": 1210
	},
	{
	"epoch": 0.2426472416279243,
	"grad_norm": 0.5798119902610779,
	"learning_rate": 0.0004,
	"loss": 0.6501,
	"step": 1220
	},
	{
	"epoch": 0.24463615344454664,
	"grad_norm": 0.7210298776626587,
	"learning_rate": 0.0004,
	"loss": 0.6576,
	"step": 1230
	},
	{
	"epoch": 0.24662506526116898,
	"grad_norm": 0.7448759078979492,
	"learning_rate": 0.0004,
	"loss": 0.6918,
	"step": 1240
	},
	{
	"epoch": 0.24861397707779131,
	"grad_norm": 0.6556337475776672,
	"learning_rate": 0.0004,
	"loss": 0.6526,
	"step": 1250
	},
	{
	"epoch": 0.2506028888944136,
	"grad_norm": 0.6584301590919495,
	"learning_rate": 0.0004,
	"loss": 0.6736,
	"step": 1260
	},
	{
	"epoch": 0.252591800711036,
	"grad_norm": 0.6725241541862488,
	"learning_rate": 0.0004,
	"loss": 0.6772,
	"step": 1270
	},
	{
	"epoch": 0.2545807125276583,
	"grad_norm": 0.7188987731933594,
	"learning_rate": 0.0004,
	"loss": 0.6629,
	"step": 1280
	},
	{
	"epoch": 0.25656962434428066,
	"grad_norm": 0.8247680068016052,
	"learning_rate": 0.0004,
	"loss": 0.6844,
	"step": 1290
	},
	{
	"epoch": 0.25855853616090296,
	"grad_norm": 0.6960418224334717,
	"learning_rate": 0.0004,
	"loss": 0.6411,
	"step": 1300
	},
	{
	"epoch": 0.25855853616090296,
	"eval_loss": 0.0839666873216629,
	"eval_runtime": 30.0597,
	"eval_samples_per_second": 2.695,
	"eval_steps_per_second": 1.364,
	"step": 1300
	},
	{
	"epoch": 0.26054744797752527,
	"grad_norm": 0.6796591877937317,
	"learning_rate": 0.0004,
	"loss": 0.6707,
	"step": 1310
	},
	{
	"epoch": 0.26253635979414763,
	"grad_norm": 0.6542907357215881,
	"learning_rate": 0.0004,
	"loss": 0.6691,
	"step": 1320
	},
	{
	"epoch": 0.26452527161076994,
	"grad_norm": 0.6826708912849426,
	"learning_rate": 0.0004,
	"loss": 0.6696,
	"step": 1330
	},
	{
	"epoch": 0.2665141834273923,
	"grad_norm": 0.7088764905929565,
	"learning_rate": 0.0004,
	"loss": 0.6817,
	"step": 1340
	},
	{
	"epoch": 0.2685030952440146,
	"grad_norm": 0.7242617607116699,
	"learning_rate": 0.0004,
	"loss": 0.6759,
	"step": 1350
	},
	{
	"epoch": 0.270492007060637,
	"grad_norm": 0.7008711099624634,
	"learning_rate": 0.0004,
	"loss": 0.6592,
	"step": 1360
	},
	{
	"epoch": 0.2724809188772593,
	"grad_norm": 0.6489241719245911,
	"learning_rate": 0.0004,
	"loss": 0.6637,
	"step": 1370
	},
	{
	"epoch": 0.2744698306938816,
	"grad_norm": 0.7217922806739807,
	"learning_rate": 0.0004,
	"loss": 0.6539,
	"step": 1380
	},
	{
	"epoch": 0.27645874251050395,
	"grad_norm": 0.8037365078926086,
	"learning_rate": 0.0004,
	"loss": 0.6994,
	"step": 1390
	},
	{
	"epoch": 0.27844765432712626,
	"grad_norm": 0.659654974937439,
	"learning_rate": 0.0004,
	"loss": 0.6673,
	"step": 1400
	},
	{
	"epoch": 0.27844765432712626,
	"eval_loss": 0.0840681791305542,
	"eval_runtime": 30.0353,
	"eval_samples_per_second": 2.697,
	"eval_steps_per_second": 1.365,
	"step": 1400
	},
	{
	"epoch": 0.2804365661437486,
	"grad_norm": 0.7238272428512573,
	"learning_rate": 0.0004,
	"loss": 0.6974,
	"step": 1410
	},
	{
	"epoch": 0.28242547796037093,
	"grad_norm": 0.6564947366714478,
	"learning_rate": 0.0004,
	"loss": 0.6687,
	"step": 1420
	},
	{
	"epoch": 0.28441438977699324,
	"grad_norm": 0.7392669916152954,
	"learning_rate": 0.0004,
	"loss": 0.6546,
	"step": 1430
	},
	{
	"epoch": 0.2864033015936156,
	"grad_norm": 0.7504440546035767,
	"learning_rate": 0.0004,
	"loss": 0.6737,
	"step": 1440
	},
	{
	"epoch": 0.2883922134102379,
	"grad_norm": 0.7336270213127136,
	"learning_rate": 0.0004,
	"loss": 0.6803,
	"step": 1450
	},
	{
	"epoch": 0.29038112522686027,
	"grad_norm": 1.862186312675476,
	"learning_rate": 0.0004,
	"loss": 0.658,
	"step": 1460
	},
	{
	"epoch": 0.2923700370434826,
	"grad_norm": 0.7425276637077332,
	"learning_rate": 0.0004,
	"loss": 0.6383,
	"step": 1470
	},
	{
	"epoch": 0.29435894886010494,
	"grad_norm": 0.6604830622673035,
	"learning_rate": 0.0004,
	"loss": 0.7077,
	"step": 1480
	},
	{
	"epoch": 0.29634786067672725,
	"grad_norm": 0.7673712968826294,
	"learning_rate": 0.0004,
	"loss": 0.6722,
	"step": 1490
	},
	{
	"epoch": 0.29833677249334956,
	"grad_norm": 0.7889634370803833,
	"learning_rate": 0.0004,
	"loss": 0.6909,
	"step": 1500
	},
	{
	"epoch": 0.29833677249334956,
	"eval_loss": 0.08427305519580841,
	"eval_runtime": 30.0826,
	"eval_samples_per_second": 2.693,
	"eval_steps_per_second": 1.363,
	"step": 1500
	},
	{
	"epoch": 0.3003256843099719,
	"grad_norm": 0.8077505826950073,
	"learning_rate": 0.0004,
	"loss": 0.6976,
	"step": 1510
	},
	{
	"epoch": 0.3023145961265942,
	"grad_norm": 0.6837480068206787,
	"learning_rate": 0.0004,
	"loss": 0.675,
	"step": 1520
	},
	{
	"epoch": 0.3043035079432166,
	"grad_norm": 0.6629063487052917,
	"learning_rate": 0.0004,
	"loss": 0.6396,
	"step": 1530
	},
	{
	"epoch": 0.3062924197598389,
	"grad_norm": 0.7187213897705078,
	"learning_rate": 0.0004,
	"loss": 0.6898,
	"step": 1540
	},
	{
	"epoch": 0.3082813315764612,
	"grad_norm": 0.7269571423530579,
	"learning_rate": 0.0004,
	"loss": 0.7106,
	"step": 1550
	},
	{
	"epoch": 0.31027024339308357,
	"grad_norm": 0.6767787337303162,
	"learning_rate": 0.0004,
	"loss": 0.6836,
	"step": 1560
	},
	{
	"epoch": 0.3122591552097059,
	"grad_norm": 0.7046016454696655,
	"learning_rate": 0.0004,
	"loss": 0.7129,
	"step": 1570
	},
	{
	"epoch": 0.31424806702632824,
	"grad_norm": 0.6218843460083008,
	"learning_rate": 0.0004,
	"loss": 0.7129,
	"step": 1580
	},
	{
	"epoch": 0.31623697884295054,
	"grad_norm": 0.7410914897918701,
	"learning_rate": 0.0004,
	"loss": 0.6616,
	"step": 1590
	},
	{
	"epoch": 0.3182258906595729,
	"grad_norm": 0.5945529937744141,
	"learning_rate": 0.0004,
	"loss": 0.6878,
	"step": 1600
	},
	{
	"epoch": 0.3182258906595729,
	"eval_loss": 0.08433911204338074,
	"eval_runtime": 30.0269,
	"eval_samples_per_second": 2.698,
	"eval_steps_per_second": 1.365,
	"step": 1600
	},
	{
	"epoch": 0.3202148024761952,
	"grad_norm": 0.6479379534721375,
	"learning_rate": 4e-05,
	"loss": 0.6708,
	"step": 1610
	},
	{
	"epoch": 0.3222037142928175,
	"grad_norm": 0.6011672616004944,
	"learning_rate": 4e-05,
	"loss": 0.6511,
	"step": 1620
	},
	{
	"epoch": 0.3241926261094399,
	"grad_norm": 0.6457736492156982,
	"learning_rate": 4e-05,
	"loss": 0.6601,
	"step": 1630
	},
	{
	"epoch": 0.3261815379260622,
	"grad_norm": 0.6549608707427979,
	"learning_rate": 4e-05,
	"loss": 0.6643,
	"step": 1640
	},
	{
	"epoch": 0.32817044974268456,
	"grad_norm": 0.6869723200798035,
	"learning_rate": 4e-05,
	"loss": 0.6766,
	"step": 1650
	},
	{
	"epoch": 0.33015936155930686,
	"grad_norm": 0.6526493430137634,
	"learning_rate": 4e-05,
	"loss": 0.6625,
	"step": 1660
	},
	{
	"epoch": 0.33214827337592917,
	"grad_norm": 0.6106629967689514,
	"learning_rate": 4e-05,
	"loss": 0.6412,
	"step": 1670
	},
	{
	"epoch": 0.33413718519255153,
	"grad_norm": 0.6620826125144958,
	"learning_rate": 4e-05,
	"loss": 0.6314,
	"step": 1680
	},
	{
	"epoch": 0.33612609700917384,
	"grad_norm": 0.6487278938293457,
	"learning_rate": 4e-05,
	"loss": 0.643,
	"step": 1690
	},
	{
	"epoch": 0.3381150088257962,
	"grad_norm": 0.7703284621238708,
	"learning_rate": 4e-05,
	"loss": 0.6298,
	"step": 1700
	},
	{
	"epoch": 0.3381150088257962,
	"eval_loss": 0.08053209632635117,
	"eval_runtime": 30.0784,
	"eval_samples_per_second": 2.693,
	"eval_steps_per_second": 1.363,
	"step": 1700
	}
	],
	"logging_steps": 10,
	"max_steps": 10000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.460398769660756e+18,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}