Upload 10 files

Browse files

Files changed (10) hide show

README.md +7 -1
adapter_config.json +27 -0
adapter_model.bin +3 -0
rng_state.pth +3 -0
sentencepiece.bpe.model +3 -0
special_tokens_map.json +19 -0
tokenizer.json +0 -0
tokenizer_config.json +24 -0
trainer_state.json +1715 -0
training_args.bin +3 -0

README.md CHANGED Viewed

@@ -1,3 +1,9 @@
 ---
-license: apache-2.0
 ---

 ---
+library_name: peft
 ---
+## Training procedure
+### Framework versions
+- PEFT 0.5.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "camembert/camembert-large",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "modules_to_save": [
+    "classifier.bias",
+    "classifier.weight"
+  ],
+  "peft_type": "LORA",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "query",
+    "key",
+    "value",
+    "classifier",
+    "dense"
+  ],
+  "task_type": "TOKEN_CLS"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df52135b85d7f65135e707bb349f9548514867f428dcf9941a22b996d2803e3d
+size 375729701

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e408a20f3df23dccf18d84c7e4be10b4f527919cba600707e432df5600a6168b
+size 14575

sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f98f266fdc548c94216aaadc13ffaaafacf0c8793303e2195322d954549ea261
+size 808767

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{
+  "additional_special_tokens": [
+    "<s>NOTUSED",
+    "</s>NOTUSED"
+  ],
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "additional_special_tokens": [
+    "<s>NOTUSED",
+    "</s>NOTUSED"
+  ],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "__type": "AddedToken",
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "CamembertTokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1715 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.7281407720638384,
+  "eval_steps": 500,
+  "global_step": 140000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00019990256640099773,
+      "loss": 10.7348,
+      "step": 500
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00019980513280199545,
+      "loss": 10.0442,
+      "step": 1000
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00019970769920299317,
+      "loss": 10.0598,
+      "step": 1500
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0001996102656039909,
+      "loss": 9.2892,
+      "step": 2000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0001995128320049886,
+      "loss": 8.9167,
+      "step": 2500
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019941539840598633,
+      "loss": 8.729,
+      "step": 3000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019931796480698405,
+      "loss": 8.2421,
+      "step": 3500
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019922053120798177,
+      "loss": 8.0412,
+      "step": 4000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001991230976089795,
+      "loss": 7.8516,
+      "step": 4500
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0001990256640099772,
+      "loss": 7.7412,
+      "step": 5000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00019892823041097493,
+      "loss": 7.6386,
+      "step": 5500
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019883079681197265,
+      "loss": 7.3945,
+      "step": 6000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019873336321297037,
+      "loss": 7.3603,
+      "step": 6500
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0001986359296139681,
+      "loss": 7.2566,
+      "step": 7000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0001985384960149658,
+      "loss": 7.1683,
+      "step": 7500
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00019844106241596353,
+      "loss": 7.2102,
+      "step": 8000
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00019834362881696125,
+      "loss": 7.0212,
+      "step": 8500
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00019824619521795897,
+      "loss": 6.8432,
+      "step": 9000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0001981487616189567,
+      "loss": 6.953,
+      "step": 9500
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0001980513280199544,
+      "loss": 6.7766,
+      "step": 10000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019795389442095213,
+      "loss": 6.7172,
+      "step": 10500
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019785646082194985,
+      "loss": 6.7396,
+      "step": 11000
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00019775902722294757,
+      "loss": 6.6344,
+      "step": 11500
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001976615936239453,
+      "loss": 6.6273,
+      "step": 12000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.000197564160024943,
+      "loss": 6.5793,
+      "step": 12500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00019746672642594073,
+      "loss": 6.4896,
+      "step": 13000
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00019736929282693845,
+      "loss": 6.4726,
+      "step": 13500
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00019727185922793617,
+      "loss": 6.5595,
+      "step": 14000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0001971744256289339,
+      "loss": 6.5123,
+      "step": 14500
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001970769920299316,
+      "loss": 6.3396,
+      "step": 15000
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019697955843092933,
+      "loss": 6.4869,
+      "step": 15500
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00019688212483192705,
+      "loss": 6.4355,
+      "step": 16000
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00019678469123292477,
+      "loss": 6.4201,
+      "step": 16500
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0001966872576339225,
+      "loss": 6.4001,
+      "step": 17000
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0001965898240349202,
+      "loss": 6.2466,
+      "step": 17500
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00019649239043591793,
+      "loss": 6.2761,
+      "step": 18000
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019639495683691565,
+      "loss": 6.2051,
+      "step": 18500
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00019629752323791337,
+      "loss": 6.3681,
+      "step": 19000
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0001962000896389111,
+      "loss": 6.2386,
+      "step": 19500
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0001961026560399088,
+      "loss": 6.3012,
+      "step": 20000
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019600522244090653,
+      "loss": 6.0894,
+      "step": 20500
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019590778884190425,
+      "loss": 6.2623,
+      "step": 21000
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00019581035524290197,
+      "loss": 6.235,
+      "step": 21500
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0001957129216438997,
+      "loss": 6.2378,
+      "step": 22000
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001956154880448974,
+      "loss": 6.1601,
+      "step": 22500
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00019551805444589513,
+      "loss": 6.0937,
+      "step": 23000
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00019542062084689285,
+      "loss": 6.029,
+      "step": 23500
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00019532318724789057,
+      "loss": 6.125,
+      "step": 24000
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0001952257536488883,
+      "loss": 5.7874,
+      "step": 24500
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00019512832004988601,
+      "loss": 6.0174,
+      "step": 25000
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00019503088645088373,
+      "loss": 5.9269,
+      "step": 25500
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00019493345285188145,
+      "loss": 5.86,
+      "step": 26000
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00019483601925287917,
+      "loss": 5.8543,
+      "step": 26500
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0001947385856538769,
+      "loss": 6.1497,
+      "step": 27000
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00019464115205487461,
+      "loss": 6.0313,
+      "step": 27500
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00019454371845587233,
+      "loss": 5.7905,
+      "step": 28000
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00019444628485687005,
+      "loss": 5.9538,
+      "step": 28500
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00019434885125786777,
+      "loss": 5.8462,
+      "step": 29000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0001942514176588655,
+      "loss": 5.7523,
+      "step": 29500
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00019415398405986321,
+      "loss": 5.9289,
+      "step": 30000
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00019405655046086093,
+      "loss": 5.7549,
+      "step": 30500
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00019395911686185865,
+      "loss": 5.8262,
+      "step": 31000
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019386168326285637,
+      "loss": 5.8171,
+      "step": 31500
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0001937642496638541,
+      "loss": 5.7074,
+      "step": 32000
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00019366681606485181,
+      "loss": 5.6934,
+      "step": 32500
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00019356938246584953,
+      "loss": 5.9484,
+      "step": 33000
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00019347194886684725,
+      "loss": 5.8486,
+      "step": 33500
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00019337451526784498,
+      "loss": 5.8301,
+      "step": 34000
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0001932770816688427,
+      "loss": 5.6384,
+      "step": 34500
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00019317964806984042,
+      "loss": 5.6516,
+      "step": 35000
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00019308221447083814,
+      "loss": 5.6512,
+      "step": 35500
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00019298478087183586,
+      "loss": 5.7729,
+      "step": 36000
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00019288734727283358,
+      "loss": 5.7218,
+      "step": 36500
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0001927899136738313,
+      "loss": 5.5925,
+      "step": 37000
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00019269248007482902,
+      "loss": 5.6245,
+      "step": 37500
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00019259504647582674,
+      "loss": 5.9108,
+      "step": 38000
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00019249761287682446,
+      "loss": 5.6177,
+      "step": 38500
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00019240017927782218,
+      "loss": 5.6779,
+      "step": 39000
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0001923027456788199,
+      "loss": 5.7851,
+      "step": 39500
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00019220531207981762,
+      "loss": 5.8525,
+      "step": 40000
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00019210787848081534,
+      "loss": 5.8028,
+      "step": 40500
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00019201044488181306,
+      "loss": 5.602,
+      "step": 41000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00019191301128281078,
+      "loss": 5.6862,
+      "step": 41500
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0001918155776838085,
+      "loss": 5.7078,
+      "step": 42000
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00019171814408480622,
+      "loss": 5.5917,
+      "step": 42500
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00019162071048580394,
+      "loss": 5.6002,
+      "step": 43000
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.00019152327688680166,
+      "loss": 5.6404,
+      "step": 43500
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00019142584328779938,
+      "loss": 5.5597,
+      "step": 44000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0001913284096887971,
+      "loss": 5.5295,
+      "step": 44500
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00019123097608979482,
+      "loss": 5.534,
+      "step": 45000
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00019113354249079254,
+      "loss": 5.4806,
+      "step": 45500
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00019103610889179026,
+      "loss": 5.4831,
+      "step": 46000
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00019093867529278798,
+      "loss": 5.5356,
+      "step": 46500
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0001908412416937857,
+      "loss": 5.5424,
+      "step": 47000
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00019074380809478342,
+      "loss": 5.5919,
+      "step": 47500
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00019064637449578114,
+      "loss": 5.6057,
+      "step": 48000
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00019054894089677886,
+      "loss": 5.58,
+      "step": 48500
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00019045150729777658,
+      "loss": 5.4195,
+      "step": 49000
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0001903540736987743,
+      "loss": 5.504,
+      "step": 49500
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00019025664009977202,
+      "loss": 5.3429,
+      "step": 50000
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00019015920650076974,
+      "loss": 4.8223,
+      "step": 50500
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.00019006177290176746,
+      "loss": 4.8838,
+      "step": 51000
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": NaN,
+      "eval_runtime": 100.9689,
+      "eval_samples_per_second": 107.003,
+      "eval_steps_per_second": 26.751,
+      "step": 51317
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00018996433930276518,
+      "loss": 4.9267,
+      "step": 51500
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0001898669057037629,
+      "loss": 4.8067,
+      "step": 52000
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00018976947210476062,
+      "loss": 5.0053,
+      "step": 52500
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.00018967203850575834,
+      "loss": 4.915,
+      "step": 53000
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00018957460490675606,
+      "loss": 4.8654,
+      "step": 53500
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00018947717130775378,
+      "loss": 4.956,
+      "step": 54000
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0001893797377087515,
+      "loss": 4.8591,
+      "step": 54500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00018928230410974922,
+      "loss": 4.9786,
+      "step": 55000
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.00018918487051074694,
+      "loss": 5.0094,
+      "step": 55500
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.00018908743691174466,
+      "loss": 4.875,
+      "step": 56000
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00018899000331274238,
+      "loss": 4.9211,
+      "step": 56500
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0001888925697137401,
+      "loss": 4.8525,
+      "step": 57000
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00018879513611473782,
+      "loss": 5.0193,
+      "step": 57500
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00018869770251573554,
+      "loss": 4.9008,
+      "step": 58000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00018860026891673326,
+      "loss": 4.9154,
+      "step": 58500
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.00018850283531773098,
+      "loss": 4.8745,
+      "step": 59000
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.0001884054017187287,
+      "loss": 4.9601,
+      "step": 59500
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.00018830796811972642,
+      "loss": 5.0825,
+      "step": 60000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00018821053452072414,
+      "loss": 4.8671,
+      "step": 60500
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.00018811310092172186,
+      "loss": 4.8136,
+      "step": 61000
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00018801566732271958,
+      "loss": 4.873,
+      "step": 61500
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00018791823372371727,
+      "loss": 4.9451,
+      "step": 62000
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00018782080012471502,
+      "loss": 4.8466,
+      "step": 62500
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00018772336652571274,
+      "loss": 5.0006,
+      "step": 63000
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00018762593292671043,
+      "loss": 4.851,
+      "step": 63500
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00018752849932770818,
+      "loss": 4.8448,
+      "step": 64000
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0001874310657287059,
+      "loss": 4.8875,
+      "step": 64500
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00018733363212970362,
+      "loss": 4.886,
+      "step": 65000
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00018723619853070134,
+      "loss": 4.9218,
+      "step": 65500
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00018713876493169906,
+      "loss": 4.9522,
+      "step": 66000
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00018704133133269678,
+      "loss": 4.9333,
+      "step": 66500
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0001869438977336945,
+      "loss": 5.0649,
+      "step": 67000
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00018684646413469222,
+      "loss": 4.9419,
+      "step": 67500
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00018674903053568994,
+      "loss": 4.7993,
+      "step": 68000
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00018665159693668766,
+      "loss": 5.0308,
+      "step": 68500
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.00018655416333768538,
+      "loss": 4.9422,
+      "step": 69000
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0001864567297386831,
+      "loss": 4.9361,
+      "step": 69500
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00018635929613968082,
+      "loss": 4.9153,
+      "step": 70000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.00018626186254067854,
+      "loss": 5.0743,
+      "step": 70500
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.00018616442894167626,
+      "loss": 4.9832,
+      "step": 71000
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00018606699534267398,
+      "loss": 5.0159,
+      "step": 71500
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0001859695617436717,
+      "loss": 4.9593,
+      "step": 72000
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00018587212814466942,
+      "loss": 4.8693,
+      "step": 72500
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00018577469454566714,
+      "loss": 4.9831,
+      "step": 73000
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.00018567726094666486,
+      "loss": 4.9174,
+      "step": 73500
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00018557982734766258,
+      "loss": 4.9773,
+      "step": 74000
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.0001854823937486603,
+      "loss": 4.7952,
+      "step": 74500
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00018538496014965802,
+      "loss": 4.8761,
+      "step": 75000
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.00018528752655065574,
+      "loss": 4.8896,
+      "step": 75500
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00018519009295165346,
+      "loss": 4.9583,
+      "step": 76000
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.00018509265935265118,
+      "loss": 4.9883,
+      "step": 76500
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.0001849952257536489,
+      "loss": 4.9481,
+      "step": 77000
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00018489779215464662,
+      "loss": 4.8138,
+      "step": 77500
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.00018480035855564431,
+      "loss": 4.9096,
+      "step": 78000
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.00018470292495664206,
+      "loss": 4.8182,
+      "step": 78500
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00018460549135763978,
+      "loss": 4.9083,
+      "step": 79000
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.00018450805775863748,
+      "loss": 4.8329,
+      "step": 79500
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.00018441062415963522,
+      "loss": 4.9745,
+      "step": 80000
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00018431319056063294,
+      "loss": 4.9267,
+      "step": 80500
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00018421575696163064,
+      "loss": 4.9757,
+      "step": 81000
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.00018411832336262838,
+      "loss": 5.006,
+      "step": 81500
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.0001840208897636261,
+      "loss": 4.9695,
+      "step": 82000
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0001839234561646238,
+      "loss": 4.8158,
+      "step": 82500
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.00018382602256562154,
+      "loss": 4.8895,
+      "step": 83000
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00018372858896661926,
+      "loss": 4.7684,
+      "step": 83500
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.00018363115536761696,
+      "loss": 4.9332,
+      "step": 84000
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0001835337217686147,
+      "loss": 4.9102,
+      "step": 84500
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.00018343628816961242,
+      "loss": 4.8562,
+      "step": 85000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.00018333885457061014,
+      "loss": 4.9426,
+      "step": 85500
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.00018324142097160786,
+      "loss": 4.8933,
+      "step": 86000
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.00018314398737260558,
+      "loss": 4.8318,
+      "step": 86500
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.0001830465537736033,
+      "loss": 5.0181,
+      "step": 87000
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00018294912017460102,
+      "loss": 4.7302,
+      "step": 87500
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00018285168657559874,
+      "loss": 4.7773,
+      "step": 88000
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.00018275425297659646,
+      "loss": 4.8193,
+      "step": 88500
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.00018265681937759418,
+      "loss": 4.8496,
+      "step": 89000
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.0001825593857785919,
+      "loss": 4.8675,
+      "step": 89500
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.00018246195217958962,
+      "loss": 4.9618,
+      "step": 90000
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.00018236451858058734,
+      "loss": 4.9113,
+      "step": 90500
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.00018226708498158506,
+      "loss": 4.8562,
+      "step": 91000
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.00018216965138258278,
+      "loss": 5.005,
+      "step": 91500
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0001820722177835805,
+      "loss": 4.8576,
+      "step": 92000
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.00018197478418457822,
+      "loss": 4.7188,
+      "step": 92500
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.00018187735058557594,
+      "loss": 4.8092,
+      "step": 93000
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.00018177991698657366,
+      "loss": 4.9834,
+      "step": 93500
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00018168248338757138,
+      "loss": 4.8963,
+      "step": 94000
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.0001815850497885691,
+      "loss": 4.7444,
+      "step": 94500
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.00018148761618956682,
+      "loss": 4.828,
+      "step": 95000
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00018139018259056452,
+      "loss": 4.8383,
+      "step": 95500
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.00018129274899156226,
+      "loss": 4.7615,
+      "step": 96000
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.00018119531539255998,
+      "loss": 4.6644,
+      "step": 96500
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.00018109788179355768,
+      "loss": 4.8193,
+      "step": 97000
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00018100044819455543,
+      "loss": 4.8072,
+      "step": 97500
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00018090301459555315,
+      "loss": 4.7972,
+      "step": 98000
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00018080558099655084,
+      "loss": 4.664,
+      "step": 98500
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00018070814739754859,
+      "loss": 4.8712,
+      "step": 99000
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0001806107137985463,
+      "loss": 4.7384,
+      "step": 99500
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.000180513280199544,
+      "loss": 4.7301,
+      "step": 100000
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.00018041584660054175,
+      "loss": 4.8008,
+      "step": 100500
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.00018031841300153947,
+      "loss": 4.8099,
+      "step": 101000
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.00018022097940253716,
+      "loss": 4.8785,
+      "step": 101500
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.0001801235458035349,
+      "loss": 4.7745,
+      "step": 102000
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.00018002611220453263,
+      "loss": 4.7647,
+      "step": 102500
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": NaN,
+      "eval_runtime": 94.7084,
+      "eval_samples_per_second": 114.076,
+      "eval_steps_per_second": 28.519,
+      "step": 102634
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.00017992867860553032,
+      "loss": 4.2353,
+      "step": 103000
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.00017983124500652807,
+      "loss": 4.0835,
+      "step": 103500
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 0.00017973381140752579,
+      "loss": 4.2036,
+      "step": 104000
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.0001796363778085235,
+      "loss": 4.1912,
+      "step": 104500
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 0.00017953894420952123,
+      "loss": 4.2719,
+      "step": 105000
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.00017944151061051895,
+      "loss": 4.2127,
+      "step": 105500
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 0.00017934407701151667,
+      "loss": 4.1222,
+      "step": 106000
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 0.0001792466434125144,
+      "loss": 4.2048,
+      "step": 106500
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.0001791492098135121,
+      "loss": 4.2909,
+      "step": 107000
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.00017905177621450983,
+      "loss": 4.2647,
+      "step": 107500
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.00017895434261550755,
+      "loss": 4.1242,
+      "step": 108000
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.00017885690901650527,
+      "loss": 4.2768,
+      "step": 108500
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.000178759475417503,
+      "loss": 4.2487,
+      "step": 109000
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 0.0001786620418185007,
+      "loss": 4.2559,
+      "step": 109500
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.00017856460821949843,
+      "loss": 4.2376,
+      "step": 110000
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.00017846717462049615,
+      "loss": 4.2532,
+      "step": 110500
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 0.00017836974102149387,
+      "loss": 4.2099,
+      "step": 111000
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 0.0001782723074224916,
+      "loss": 4.3344,
+      "step": 111500
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 0.0001781748738234893,
+      "loss": 4.4025,
+      "step": 112000
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.00017807744022448703,
+      "loss": 4.2625,
+      "step": 112500
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.00017798000662548472,
+      "loss": 4.3669,
+      "step": 113000
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 0.00017788257302648247,
+      "loss": 4.2375,
+      "step": 113500
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.0001777851394274802,
+      "loss": 4.371,
+      "step": 114000
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.00017768770582847788,
+      "loss": 4.3066,
+      "step": 114500
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.00017759027222947563,
+      "loss": 4.3093,
+      "step": 115000
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.00017749283863047335,
+      "loss": 4.2906,
+      "step": 115500
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 0.00017739540503147104,
+      "loss": 4.2648,
+      "step": 116000
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.0001772979714324688,
+      "loss": 4.2962,
+      "step": 116500
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 0.0001772005378334665,
+      "loss": 4.3185,
+      "step": 117000
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 0.0001771031042344642,
+      "loss": 4.4272,
+      "step": 117500
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.00017700567063546195,
+      "loss": 4.1901,
+      "step": 118000
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 0.00017690823703645967,
+      "loss": 4.3336,
+      "step": 118500
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 0.00017681080343745736,
+      "loss": 4.3907,
+      "step": 119000
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.0001767133698384551,
+      "loss": 4.2428,
+      "step": 119500
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 0.00017661593623945283,
+      "loss": 4.3642,
+      "step": 120000
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.00017651850264045052,
+      "loss": 4.5122,
+      "step": 120500
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 0.00017642106904144827,
+      "loss": 4.4451,
+      "step": 121000
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.000176323635442446,
+      "loss": 4.3224,
+      "step": 121500
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.00017622620184344368,
+      "loss": 4.5421,
+      "step": 122000
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.00017612876824444143,
+      "loss": 4.2269,
+      "step": 122500
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.00017603133464543915,
+      "loss": 4.3516,
+      "step": 123000
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.00017593390104643684,
+      "loss": 4.4311,
+      "step": 123500
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.0001758364674474346,
+      "loss": 4.3252,
+      "step": 124000
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.0001757390338484323,
+      "loss": 4.4358,
+      "step": 124500
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.00017564160024943003,
+      "loss": 4.372,
+      "step": 125000
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.00017554416665042775,
+      "loss": 4.4212,
+      "step": 125500
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 0.00017544673305142547,
+      "loss": 4.4639,
+      "step": 126000
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 0.0001753492994524232,
+      "loss": 4.6386,
+      "step": 126500
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 0.0001752518658534209,
+      "loss": 4.4389,
+      "step": 127000
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 0.00017515443225441863,
+      "loss": 4.4092,
+      "step": 127500
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 0.00017505699865541635,
+      "loss": 4.5862,
+      "step": 128000
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 0.00017495956505641407,
+      "loss": 4.4392,
+      "step": 128500
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.0001748621314574118,
+      "loss": 4.4887,
+      "step": 129000
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 0.0001747646978584095,
+      "loss": 4.3002,
+      "step": 129500
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.00017466726425940723,
+      "loss": 4.5032,
+      "step": 130000
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 0.00017456983066040492,
+      "loss": 4.2836,
+      "step": 130500
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 0.00017447239706140267,
+      "loss": 4.3747,
+      "step": 131000
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 0.0001743749634624004,
+      "loss": 4.4246,
+      "step": 131500
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.00017427752986339808,
+      "loss": 4.379,
+      "step": 132000
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 0.00017418009626439583,
+      "loss": 4.2643,
+      "step": 132500
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.00017408266266539355,
+      "loss": 4.4457,
+      "step": 133000
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 0.00017398522906639124,
+      "loss": 4.5231,
+      "step": 133500
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 0.000173887795467389,
+      "loss": 4.4722,
+      "step": 134000
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 0.0001737903618683867,
+      "loss": 4.4255,
+      "step": 134500
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.0001736929282693844,
+      "loss": 4.4204,
+      "step": 135000
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.00017359549467038215,
+      "loss": 4.4746,
+      "step": 135500
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 0.00017349806107137987,
+      "loss": 4.4727,
+      "step": 136000
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 0.00017340062747237756,
+      "loss": 4.3316,
+      "step": 136500
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.0001733031938733753,
+      "loss": 4.4309,
+      "step": 137000
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 0.00017320576027437303,
+      "loss": 4.4029,
+      "step": 137500
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.00017310832667537072,
+      "loss": 4.467,
+      "step": 138000
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 0.00017301089307636847,
+      "loss": 4.4315,
+      "step": 138500
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.0001729134594773662,
+      "loss": 4.4671,
+      "step": 139000
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 0.00017281602587836388,
+      "loss": 4.4144,
+      "step": 139500
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.00017271859227936163,
+      "loss": 4.333,
+      "step": 140000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1026340,
+  "num_train_epochs": 20,
+  "save_steps": 10000,
+  "total_flos": 1.1794099241011869e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:91dd07bd62aeec77f1b9d32d9b07a05beea0ea282dec5b4097920b82fb2b9ad7
+size 4027