Upload 14 files

Browse files

Files changed (14) hide show

README.md +100 -3
added_tokens.json +4 -0
all_results.json +16 -0
config.json +62 -0
eval_results.json +9 -0
generation_config.json +7 -0
model.safetensors +3 -0
special_tokens_map.json +125 -0
spiece.model +3 -0
tokenizer.json +0 -0
tokenizer_config.json +956 -0
train_results.json +11 -0
trainer_state.json +1681 -0
training_args.bin +3 -0

README.md CHANGED Viewed

@@ -1,3 +1,100 @@
----
-license: apache-2.0
----

+---
+library_name: transformers
+license: apache-2.0
+datasets:
+- Universal-NER/Pile-NER-type
+- Universal-NER/Pile-NER-definition
+language:
+- en
+base_model:
+- google/flan-t5-small
+pipeline_tag: text2text-generation
+tags:
+- named-entity-recognition
+- generated_from_trainer
+---
+# flan-t5-small-ner
+This model is a fine-tuned version of [google/flan-t5-small](https://huggingface.co/google/flan-t5-small)
+on 200&thinsp;000 random (text, entity) combinations from the
+[Universal-NER/Pile-NER-type](https://huggingface.co/datasets/Universal-NER/Pile-NER-type) and
+[Universal-NER/Pile-NER-definition](https://huggingface.co/datasets/Universal-NER/Pile-NER-definition) datasets.
+- Loss: 0.5393
+- Num Input Tokens Seen: 332318598
+## Model Description
+flan-t5-small-ner can extract entities of specific types or definitions from text such as person, company, school, technology, and many more.
+It builds upon the FLAN-T5 architecture, which has strong performance across natural language processing tasks.
+Example:
+```python
+from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
+import torch
+model_path = "agentlans/flan-t5-small-ner"
+model = AutoModelForSeq2SeqLM.from_pretrained(model_path).to("cuda" if torch.cuda.is_available() else "cpu")
+tokenizer = AutoTokenizer.from_pretrained(model_path)
+def custom_split(s): # Processes the output from the model
+    parts = s.split("<|sep|>")
+    if not s.endswith("<|end|>"):
+        parts = parts[:-1] # If output is truncated, then don't include last item
+    else:
+        parts[-1] = parts[-1].replace("<|end|>", "") # Remove the marker tokens
+    return [p.strip() for p in parts if p.strip()]
+def find_entities(input_text, entity_type):
+    txt = entity_type + "<|sep|>" + input_text + "<|end|>" # Important: need exact input format
+    inputs = tokenizer(txt, return_tensors="pt").to(model.device)
+    outputs = model.generate(**inputs, max_new_tokens=100)
+    decoded = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    return custom_split(decoded)
+# Example usage
+input_text = "In the bustling metropolis of New York City, Apple Inc. sponsored a conference where Dr. Elena Rodriguez presented groundbreaking research about neuroscience and AI."
+print(find_entities(input_text, "person")) # ['Elena Rodriguez']
+print(find_entities(input_text, "company")) # ['Apple Inc.']
+print(find_entities(input_text, "fruit")) # []
+print(find_entities(input_text, "subject")) # ['neuroscience', 'AI']
+```
+## Limitations
+- False positives and negatives are possible.
+- May struggle with specialized knowledge or fine distinctions.
+- Performance may vary for very short or long texts.
+- English language only.
+- Consider privacy when processing sensitive text.
+## Training Procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: linear
+- num_epochs: 5.0
+### Training results
+| Training Loss | Epoch | Step  | Validation Loss | Input Tokens Seen |
+|:-------------:|:-----:|:-----:|:---------------:|:-----------------:|
+| 0.8398        | 1.0   | 19991 | 0.6227          | 66451084          |
+| 0.7203        | 2.0   | 39982 | 0.5679          | 132976438         |
+| 0.6479        | 3.0   | 59973 | 0.5605          | 199402582         |
+| 0.6023        | 4.0   | 79964 | 0.5427          | 265875340         |
+| 0.5879        | 5.0   | 99955 | 0.5393          | 332318598         |
+## Framework Versions
+- Transformers: 4.46.3
+- PyTorch: 2.5.1+cu124
+- Datasets: 3.2.0
+- Tokenizers: 0.20.3

added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "<|end|>": 32101,
+  "<|sep|>": 32100
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 5.0,
+    "eval_loss": 0.5393198132514954,
+    "eval_runtime": 96.9251,
+    "eval_samples": 39981,
+    "eval_samples_per_second": 412.494,
+    "eval_steps_per_second": 51.566,
+    "num_input_tokens_seen": 332318598,
+    "total_flos": 1.2062750373789696e+17,
+    "train_loss": 0.7601320325591829,
+    "train_runtime": 7988.2275,
+    "train_samples": 159922,
+    "train_samples_per_second": 100.099,
+    "train_steps_per_second": 12.513,
+    "train_tokens_per_second": 41593.134
+}

config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "_name_or_path": "flan-t5-small-with-list-tokens",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 1024,
+  "d_kv": 64,
+  "d_model": 512,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 8,
+  "num_heads": 6,
+  "num_layers": 8,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.46.3",
+  "use_cache": true,
+  "vocab_size": 32102
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 5.0,
+    "eval_loss": 0.5393198132514954,
+    "eval_runtime": 96.9251,
+    "eval_samples": 39981,
+    "eval_samples_per_second": 412.494,
+    "eval_steps_per_second": 51.566,
+    "num_input_tokens_seen": 332318598
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.46.3"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:573c84dccd8e73c9f70e0c012c482bcc591e45ca79645251fb6487bbfc0d8456
+size 307760552

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,125 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d60acb128cf7b7f2536e8f38a5b18a05535c9e14c7a355904270e15b0945ea86
+size 791656

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,956 @@

+{
+  "add_prefix_space": true,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<extra_id_99>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "<extra_id_98>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32002": {
+      "content": "<extra_id_97>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32003": {
+      "content": "<extra_id_96>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32004": {
+      "content": "<extra_id_95>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32005": {
+      "content": "<extra_id_94>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32006": {
+      "content": "<extra_id_93>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32007": {
+      "content": "<extra_id_92>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32008": {
+      "content": "<extra_id_91>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32009": {
+      "content": "<extra_id_90>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32010": {
+      "content": "<extra_id_89>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32011": {
+      "content": "<extra_id_88>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32012": {
+      "content": "<extra_id_87>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32013": {
+      "content": "<extra_id_86>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32014": {
+      "content": "<extra_id_85>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32015": {
+      "content": "<extra_id_84>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32016": {
+      "content": "<extra_id_83>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32017": {
+      "content": "<extra_id_82>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32018": {
+      "content": "<extra_id_81>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32019": {
+      "content": "<extra_id_80>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32020": {
+      "content": "<extra_id_79>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32021": {
+      "content": "<extra_id_78>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32022": {
+      "content": "<extra_id_77>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32023": {
+      "content": "<extra_id_76>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32024": {
+      "content": "<extra_id_75>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32025": {
+      "content": "<extra_id_74>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32026": {
+      "content": "<extra_id_73>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32027": {
+      "content": "<extra_id_72>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32028": {
+      "content": "<extra_id_71>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32029": {
+      "content": "<extra_id_70>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32030": {
+      "content": "<extra_id_69>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32031": {
+      "content": "<extra_id_68>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32032": {
+      "content": "<extra_id_67>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32033": {
+      "content": "<extra_id_66>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32034": {
+      "content": "<extra_id_65>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32035": {
+      "content": "<extra_id_64>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32036": {
+      "content": "<extra_id_63>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32037": {
+      "content": "<extra_id_62>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32038": {
+      "content": "<extra_id_61>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32039": {
+      "content": "<extra_id_60>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32040": {
+      "content": "<extra_id_59>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32041": {
+      "content": "<extra_id_58>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32042": {
+      "content": "<extra_id_57>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32043": {
+      "content": "<extra_id_56>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32044": {
+      "content": "<extra_id_55>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32045": {
+      "content": "<extra_id_54>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32046": {
+      "content": "<extra_id_53>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32047": {
+      "content": "<extra_id_52>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32048": {
+      "content": "<extra_id_51>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32049": {
+      "content": "<extra_id_50>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32050": {
+      "content": "<extra_id_49>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32051": {
+      "content": "<extra_id_48>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32052": {
+      "content": "<extra_id_47>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32053": {
+      "content": "<extra_id_46>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32054": {
+      "content": "<extra_id_45>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32055": {
+      "content": "<extra_id_44>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32056": {
+      "content": "<extra_id_43>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32057": {
+      "content": "<extra_id_42>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32058": {
+      "content": "<extra_id_41>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32059": {
+      "content": "<extra_id_40>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32060": {
+      "content": "<extra_id_39>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32061": {
+      "content": "<extra_id_38>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32062": {
+      "content": "<extra_id_37>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32063": {
+      "content": "<extra_id_36>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32064": {
+      "content": "<extra_id_35>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32065": {
+      "content": "<extra_id_34>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32066": {
+      "content": "<extra_id_33>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32067": {
+      "content": "<extra_id_32>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32068": {
+      "content": "<extra_id_31>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32069": {
+      "content": "<extra_id_30>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32070": {
+      "content": "<extra_id_29>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32071": {
+      "content": "<extra_id_28>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32072": {
+      "content": "<extra_id_27>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32073": {
+      "content": "<extra_id_26>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32074": {
+      "content": "<extra_id_25>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32075": {
+      "content": "<extra_id_24>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32076": {
+      "content": "<extra_id_23>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32077": {
+      "content": "<extra_id_22>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32078": {
+      "content": "<extra_id_21>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32079": {
+      "content": "<extra_id_20>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32080": {
+      "content": "<extra_id_19>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32081": {
+      "content": "<extra_id_18>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32082": {
+      "content": "<extra_id_17>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32083": {
+      "content": "<extra_id_16>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32084": {
+      "content": "<extra_id_15>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32085": {
+      "content": "<extra_id_14>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32086": {
+      "content": "<extra_id_13>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32087": {
+      "content": "<extra_id_12>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32088": {
+      "content": "<extra_id_11>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32089": {
+      "content": "<extra_id_10>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32090": {
+      "content": "<extra_id_9>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32091": {
+      "content": "<extra_id_8>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32092": {
+      "content": "<extra_id_7>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32093": {
+      "content": "<extra_id_6>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32094": {
+      "content": "<extra_id_5>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32095": {
+      "content": "<extra_id_4>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32096": {
+      "content": "<extra_id_3>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32097": {
+      "content": "<extra_id_2>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32098": {
+      "content": "<extra_id_1>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32099": {
+      "content": "<extra_id_0>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32100": {
+      "content": "<|sep|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32101": {
+      "content": "<|end|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "legacy": true,
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 5.0,
+    "num_input_tokens_seen": 332318598,
+    "total_flos": 1.2062750373789696e+17,
+    "train_loss": 0.7601320325591829,
+    "train_runtime": 7988.2275,
+    "train_samples": 159922,
+    "train_samples_per_second": 100.099,
+    "train_steps_per_second": 12.513,
+    "train_tokens_per_second": 41593.134
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1681 @@

+{
+  "best_metric": 0.5393198132514954,
+  "best_model_checkpoint": "/media/user/Expansion/flan-t5-small-ner/checkpoint-99955",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 99955,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02501125506477915,
+      "grad_norm": 27.66358757019043,
+      "learning_rate": 4.974988744935221e-05,
+      "loss": 4.6267,
+      "num_input_tokens_seen": 1673336,
+      "step": 500
+    },
+    {
+      "epoch": 0.0500225101295583,
+      "grad_norm": 9.223219871520996,
+      "learning_rate": 4.949977489870442e-05,
+      "loss": 2.1909,
+      "num_input_tokens_seen": 3361736,
+      "step": 1000
+    },
+    {
+      "epoch": 0.07503376519433745,
+      "grad_norm": 15.481683731079102,
+      "learning_rate": 4.924966234805663e-05,
+      "loss": 1.8355,
+      "num_input_tokens_seen": 5013800,
+      "step": 1500
+    },
+    {
+      "epoch": 0.1000450202591166,
+      "grad_norm": 14.396512985229492,
+      "learning_rate": 4.8999549797408836e-05,
+      "loss": 1.5648,
+      "num_input_tokens_seen": 6667312,
+      "step": 2000
+    },
+    {
+      "epoch": 0.12505627532389577,
+      "grad_norm": 7.068989276885986,
+      "learning_rate": 4.8749437246761046e-05,
+      "loss": 1.4252,
+      "num_input_tokens_seen": 8347016,
+      "step": 2500
+    },
+    {
+      "epoch": 0.1500675303886749,
+      "grad_norm": 11.330971717834473,
+      "learning_rate": 4.849932469611325e-05,
+      "loss": 1.3972,
+      "num_input_tokens_seen": 10008296,
+      "step": 3000
+    },
+    {
+      "epoch": 0.17507878545345407,
+      "grad_norm": 9.403321266174316,
+      "learning_rate": 4.824921214546546e-05,
+      "loss": 1.3001,
+      "num_input_tokens_seen": 11658808,
+      "step": 3500
+    },
+    {
+      "epoch": 0.2000900405182332,
+      "grad_norm": 8.147115707397461,
+      "learning_rate": 4.799909959481767e-05,
+      "loss": 1.2625,
+      "num_input_tokens_seen": 13331648,
+      "step": 4000
+    },
+    {
+      "epoch": 0.22510129558301237,
+      "grad_norm": 13.405184745788574,
+      "learning_rate": 4.774898704416988e-05,
+      "loss": 1.1839,
+      "num_input_tokens_seen": 14982440,
+      "step": 4500
+    },
+    {
+      "epoch": 0.25011255064779153,
+      "grad_norm": 20.70949363708496,
+      "learning_rate": 4.749887449352209e-05,
+      "loss": 1.1598,
+      "num_input_tokens_seen": 16633632,
+      "step": 5000
+    },
+    {
+      "epoch": 0.27512380571257067,
+      "grad_norm": 16.94267463684082,
+      "learning_rate": 4.72487619428743e-05,
+      "loss": 1.1473,
+      "num_input_tokens_seen": 18311672,
+      "step": 5500
+    },
+    {
+      "epoch": 0.3001350607773498,
+      "grad_norm": 8.609989166259766,
+      "learning_rate": 4.69986493922265e-05,
+      "loss": 1.1098,
+      "num_input_tokens_seen": 19980456,
+      "step": 6000
+    },
+    {
+      "epoch": 0.32514631584212894,
+      "grad_norm": 9.003643989562988,
+      "learning_rate": 4.674853684157871e-05,
+      "loss": 1.0973,
+      "num_input_tokens_seen": 21646328,
+      "step": 6500
+    },
+    {
+      "epoch": 0.35015757090690813,
+      "grad_norm": 18.364194869995117,
+      "learning_rate": 4.649842429093092e-05,
+      "loss": 1.0987,
+      "num_input_tokens_seen": 23277400,
+      "step": 7000
+    },
+    {
+      "epoch": 0.37516882597168727,
+      "grad_norm": 13.544733047485352,
+      "learning_rate": 4.624831174028313e-05,
+      "loss": 1.0642,
+      "num_input_tokens_seen": 24915304,
+      "step": 7500
+    },
+    {
+      "epoch": 0.4001800810364664,
+      "grad_norm": 14.257452011108398,
+      "learning_rate": 4.5998199189635336e-05,
+      "loss": 1.0414,
+      "num_input_tokens_seen": 26590576,
+      "step": 8000
+    },
+    {
+      "epoch": 0.42519133610124554,
+      "grad_norm": 10.29515266418457,
+      "learning_rate": 4.5748086638987546e-05,
+      "loss": 1.0634,
+      "num_input_tokens_seen": 28236280,
+      "step": 8500
+    },
+    {
+      "epoch": 0.45020259116602473,
+      "grad_norm": 13.840631484985352,
+      "learning_rate": 4.5497974088339756e-05,
+      "loss": 0.9817,
+      "num_input_tokens_seen": 29891480,
+      "step": 9000
+    },
+    {
+      "epoch": 0.47521384623080387,
+      "grad_norm": 12.118327140808105,
+      "learning_rate": 4.5247861537691966e-05,
+      "loss": 1.0122,
+      "num_input_tokens_seen": 31551000,
+      "step": 9500
+    },
+    {
+      "epoch": 0.5002251012955831,
+      "grad_norm": 8.115203857421875,
+      "learning_rate": 4.499774898704417e-05,
+      "loss": 0.9802,
+      "num_input_tokens_seen": 33221384,
+      "step": 10000
+    },
+    {
+      "epoch": 0.5252363563603621,
+      "grad_norm": 8.905954360961914,
+      "learning_rate": 4.474763643639638e-05,
+      "loss": 0.9796,
+      "num_input_tokens_seen": 34891392,
+      "step": 10500
+    },
+    {
+      "epoch": 0.5502476114251413,
+      "grad_norm": 10.70656681060791,
+      "learning_rate": 4.449752388574859e-05,
+      "loss": 1.0031,
+      "num_input_tokens_seen": 36518768,
+      "step": 11000
+    },
+    {
+      "epoch": 0.5752588664899204,
+      "grad_norm": 12.424896240234375,
+      "learning_rate": 4.42474113351008e-05,
+      "loss": 0.9591,
+      "num_input_tokens_seen": 38147456,
+      "step": 11500
+    },
+    {
+      "epoch": 0.6002701215546996,
+      "grad_norm": 10.77695083618164,
+      "learning_rate": 4.399729878445301e-05,
+      "loss": 0.9338,
+      "num_input_tokens_seen": 39823976,
+      "step": 12000
+    },
+    {
+      "epoch": 0.6252813766194788,
+      "grad_norm": 12.77743911743164,
+      "learning_rate": 4.374718623380521e-05,
+      "loss": 0.9112,
+      "num_input_tokens_seen": 41493480,
+      "step": 12500
+    },
+    {
+      "epoch": 0.6502926316842579,
+      "grad_norm": 16.060897827148438,
+      "learning_rate": 4.349707368315742e-05,
+      "loss": 0.915,
+      "num_input_tokens_seen": 43130832,
+      "step": 13000
+    },
+    {
+      "epoch": 0.6753038867490371,
+      "grad_norm": 17.562183380126953,
+      "learning_rate": 4.324696113250963e-05,
+      "loss": 0.9096,
+      "num_input_tokens_seen": 44779392,
+      "step": 13500
+    },
+    {
+      "epoch": 0.7003151418138163,
+      "grad_norm": 12.406323432922363,
+      "learning_rate": 4.2996848581861835e-05,
+      "loss": 0.9499,
+      "num_input_tokens_seen": 46433856,
+      "step": 14000
+    },
+    {
+      "epoch": 0.7253263968785953,
+      "grad_norm": 15.567843437194824,
+      "learning_rate": 4.2746736031214045e-05,
+      "loss": 0.923,
+      "num_input_tokens_seen": 48102016,
+      "step": 14500
+    },
+    {
+      "epoch": 0.7503376519433745,
+      "grad_norm": 9.45335578918457,
+      "learning_rate": 4.2496623480566255e-05,
+      "loss": 0.9285,
+      "num_input_tokens_seen": 49796432,
+      "step": 15000
+    },
+    {
+      "epoch": 0.7753489070081536,
+      "grad_norm": 7.158623695373535,
+      "learning_rate": 4.2246510929918465e-05,
+      "loss": 0.9023,
+      "num_input_tokens_seen": 51432848,
+      "step": 15500
+    },
+    {
+      "epoch": 0.8003601620729328,
+      "grad_norm": 9.542813301086426,
+      "learning_rate": 4.1996398379270675e-05,
+      "loss": 0.9237,
+      "num_input_tokens_seen": 53083496,
+      "step": 16000
+    },
+    {
+      "epoch": 0.825371417137712,
+      "grad_norm": 10.027923583984375,
+      "learning_rate": 4.1746285828622885e-05,
+      "loss": 0.8813,
+      "num_input_tokens_seen": 54755032,
+      "step": 16500
+    },
+    {
+      "epoch": 0.8503826722024911,
+      "grad_norm": 18.8748722076416,
+      "learning_rate": 4.1496173277975095e-05,
+      "loss": 0.9036,
+      "num_input_tokens_seen": 56411184,
+      "step": 17000
+    },
+    {
+      "epoch": 0.8753939272672703,
+      "grad_norm": 12.792276382446289,
+      "learning_rate": 4.12460607273273e-05,
+      "loss": 0.8589,
+      "num_input_tokens_seen": 58070520,
+      "step": 17500
+    },
+    {
+      "epoch": 0.9004051823320495,
+      "grad_norm": 6.8420491218566895,
+      "learning_rate": 4.09959481766795e-05,
+      "loss": 0.8855,
+      "num_input_tokens_seen": 59745800,
+      "step": 18000
+    },
+    {
+      "epoch": 0.9254164373968286,
+      "grad_norm": 9.066823959350586,
+      "learning_rate": 4.074583562603171e-05,
+      "loss": 0.8773,
+      "num_input_tokens_seen": 61457288,
+      "step": 18500
+    },
+    {
+      "epoch": 0.9504276924616077,
+      "grad_norm": 7.002307415008545,
+      "learning_rate": 4.049572307538392e-05,
+      "loss": 0.8747,
+      "num_input_tokens_seen": 63139928,
+      "step": 19000
+    },
+    {
+      "epoch": 0.9754389475263868,
+      "grad_norm": 14.685755729675293,
+      "learning_rate": 4.024561052473613e-05,
+      "loss": 0.8398,
+      "num_input_tokens_seen": 64811920,
+      "step": 19500
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.6227446794509888,
+      "eval_runtime": 96.3481,
+      "eval_samples_per_second": 414.964,
+      "eval_steps_per_second": 51.874,
+      "num_input_tokens_seen": 66451084,
+      "step": 19991
+    },
+    {
+      "epoch": 1.0004502025911661,
+      "grad_norm": 13.560747146606445,
+      "learning_rate": 3.999549797408834e-05,
+      "loss": 0.852,
+      "num_input_tokens_seen": 66482076,
+      "step": 20000
+    },
+    {
+      "epoch": 1.025461457655945,
+      "grad_norm": 4.446373462677002,
+      "learning_rate": 3.974538542344055e-05,
+      "loss": 0.7973,
+      "num_input_tokens_seen": 68132180,
+      "step": 20500
+    },
+    {
+      "epoch": 1.0504727127207243,
+      "grad_norm": 3.456674098968506,
+      "learning_rate": 3.949527287279276e-05,
+      "loss": 0.8215,
+      "num_input_tokens_seen": 69804380,
+      "step": 21000
+    },
+    {
+      "epoch": 1.0754839677855035,
+      "grad_norm": 8.283075332641602,
+      "learning_rate": 3.924516032214497e-05,
+      "loss": 0.8081,
+      "num_input_tokens_seen": 71452668,
+      "step": 21500
+    },
+    {
+      "epoch": 1.1004952228502827,
+      "grad_norm": 9.358149528503418,
+      "learning_rate": 3.8995047771497175e-05,
+      "loss": 0.7991,
+      "num_input_tokens_seen": 73104948,
+      "step": 22000
+    },
+    {
+      "epoch": 1.1255064779150619,
+      "grad_norm": 9.011244773864746,
+      "learning_rate": 3.8744935220849385e-05,
+      "loss": 0.7839,
+      "num_input_tokens_seen": 74751164,
+      "step": 22500
+    },
+    {
+      "epoch": 1.1505177329798408,
+      "grad_norm": 5.775268077850342,
+      "learning_rate": 3.849482267020159e-05,
+      "loss": 0.7515,
+      "num_input_tokens_seen": 76431460,
+      "step": 23000
+    },
+    {
+      "epoch": 1.17552898804462,
+      "grad_norm": 13.273436546325684,
+      "learning_rate": 3.82447101195538e-05,
+      "loss": 0.7821,
+      "num_input_tokens_seen": 78092124,
+      "step": 23500
+    },
+    {
+      "epoch": 1.2005402431093992,
+      "grad_norm": 10.351176261901855,
+      "learning_rate": 3.799459756890601e-05,
+      "loss": 0.772,
+      "num_input_tokens_seen": 79736012,
+      "step": 24000
+    },
+    {
+      "epoch": 1.2255514981741784,
+      "grad_norm": 14.834792137145996,
+      "learning_rate": 3.774448501825822e-05,
+      "loss": 0.78,
+      "num_input_tokens_seen": 81414220,
+      "step": 24500
+    },
+    {
+      "epoch": 1.2505627532389576,
+      "grad_norm": 14.160717964172363,
+      "learning_rate": 3.749437246761043e-05,
+      "loss": 0.7767,
+      "num_input_tokens_seen": 83081932,
+      "step": 25000
+    },
+    {
+      "epoch": 1.2755740083037366,
+      "grad_norm": 8.410615921020508,
+      "learning_rate": 3.724425991696264e-05,
+      "loss": 0.7665,
+      "num_input_tokens_seen": 84745948,
+      "step": 25500
+    },
+    {
+      "epoch": 1.3005852633685158,
+      "grad_norm": 7.881125450134277,
+      "learning_rate": 3.699414736631484e-05,
+      "loss": 0.7626,
+      "num_input_tokens_seen": 86421180,
+      "step": 26000
+    },
+    {
+      "epoch": 1.325596518433295,
+      "grad_norm": 21.633901596069336,
+      "learning_rate": 3.674403481566705e-05,
+      "loss": 0.7645,
+      "num_input_tokens_seen": 88075204,
+      "step": 26500
+    },
+    {
+      "epoch": 1.3506077734980741,
+      "grad_norm": 14.725602149963379,
+      "learning_rate": 3.649392226501926e-05,
+      "loss": 0.751,
+      "num_input_tokens_seen": 89740116,
+      "step": 27000
+    },
+    {
+      "epoch": 1.3756190285628533,
+      "grad_norm": 6.119060039520264,
+      "learning_rate": 3.6243809714371465e-05,
+      "loss": 0.756,
+      "num_input_tokens_seen": 91410556,
+      "step": 27500
+    },
+    {
+      "epoch": 1.4006302836276325,
+      "grad_norm": 6.520070552825928,
+      "learning_rate": 3.5993697163723675e-05,
+      "loss": 0.7526,
+      "num_input_tokens_seen": 93116396,
+      "step": 28000
+    },
+    {
+      "epoch": 1.4256415386924115,
+      "grad_norm": 7.963521480560303,
+      "learning_rate": 3.5743584613075885e-05,
+      "loss": 0.7645,
+      "num_input_tokens_seen": 94761716,
+      "step": 28500
+    },
+    {
+      "epoch": 1.4506527937571907,
+      "grad_norm": 11.38167953491211,
+      "learning_rate": 3.5493472062428095e-05,
+      "loss": 0.7624,
+      "num_input_tokens_seen": 96449700,
+      "step": 29000
+    },
+    {
+      "epoch": 1.4756640488219699,
+      "grad_norm": 15.715912818908691,
+      "learning_rate": 3.5243359511780305e-05,
+      "loss": 0.7509,
+      "num_input_tokens_seen": 98102252,
+      "step": 29500
+    },
+    {
+      "epoch": 1.500675303886749,
+      "grad_norm": 7.735713005065918,
+      "learning_rate": 3.499324696113251e-05,
+      "loss": 0.7738,
+      "num_input_tokens_seen": 99780396,
+      "step": 30000
+    },
+    {
+      "epoch": 1.525686558951528,
+      "grad_norm": 8.079352378845215,
+      "learning_rate": 3.474313441048472e-05,
+      "loss": 0.7522,
+      "num_input_tokens_seen": 101479956,
+      "step": 30500
+    },
+    {
+      "epoch": 1.5506978140163072,
+      "grad_norm": 8.290655136108398,
+      "learning_rate": 3.449302185983693e-05,
+      "loss": 0.7381,
+      "num_input_tokens_seen": 103149500,
+      "step": 31000
+    },
+    {
+      "epoch": 1.5757090690810864,
+      "grad_norm": 8.904264450073242,
+      "learning_rate": 3.424290930918914e-05,
+      "loss": 0.7467,
+      "num_input_tokens_seen": 104812996,
+      "step": 31500
+    },
+    {
+      "epoch": 1.6007203241458656,
+      "grad_norm": 7.439008712768555,
+      "learning_rate": 3.399279675854135e-05,
+      "loss": 0.7507,
+      "num_input_tokens_seen": 106479036,
+      "step": 32000
+    },
+    {
+      "epoch": 1.6257315792106448,
+      "grad_norm": 7.584664344787598,
+      "learning_rate": 3.374268420789355e-05,
+      "loss": 0.7168,
+      "num_input_tokens_seen": 108141364,
+      "step": 32500
+    },
+    {
+      "epoch": 1.650742834275424,
+      "grad_norm": 8.953302383422852,
+      "learning_rate": 3.349257165724576e-05,
+      "loss": 0.7469,
+      "num_input_tokens_seen": 109799916,
+      "step": 33000
+    },
+    {
+      "epoch": 1.6757540893402032,
+      "grad_norm": 10.678362846374512,
+      "learning_rate": 3.324245910659797e-05,
+      "loss": 0.7468,
+      "num_input_tokens_seen": 111436748,
+      "step": 33500
+    },
+    {
+      "epoch": 1.7007653444049824,
+      "grad_norm": 11.628217697143555,
+      "learning_rate": 3.2992346555950175e-05,
+      "loss": 0.7358,
+      "num_input_tokens_seen": 113068476,
+      "step": 34000
+    },
+    {
+      "epoch": 1.7257765994697614,
+      "grad_norm": 12.741203308105469,
+      "learning_rate": 3.2742234005302385e-05,
+      "loss": 0.7402,
+      "num_input_tokens_seen": 114748860,
+      "step": 34500
+    },
+    {
+      "epoch": 1.7507878545345406,
+      "grad_norm": 9.066828727722168,
+      "learning_rate": 3.2492121454654595e-05,
+      "loss": 0.7728,
+      "num_input_tokens_seen": 116441684,
+      "step": 35000
+    },
+    {
+      "epoch": 1.7757991095993197,
+      "grad_norm": 7.780086517333984,
+      "learning_rate": 3.2242008904006805e-05,
+      "loss": 0.7424,
+      "num_input_tokens_seen": 118093652,
+      "step": 35500
+    },
+    {
+      "epoch": 1.8008103646640987,
+      "grad_norm": 5.290003299713135,
+      "learning_rate": 3.1991896353359015e-05,
+      "loss": 0.7121,
+      "num_input_tokens_seen": 119756772,
+      "step": 36000
+    },
+    {
+      "epoch": 1.825821619728878,
+      "grad_norm": 13.356730461120605,
+      "learning_rate": 3.1741783802711225e-05,
+      "loss": 0.789,
+      "num_input_tokens_seen": 121419852,
+      "step": 36500
+    },
+    {
+      "epoch": 1.850832874793657,
+      "grad_norm": 4.2140727043151855,
+      "learning_rate": 3.149167125206343e-05,
+      "loss": 0.7501,
+      "num_input_tokens_seen": 123080420,
+      "step": 37000
+    },
+    {
+      "epoch": 1.8758441298584363,
+      "grad_norm": 15.408193588256836,
+      "learning_rate": 3.124155870141564e-05,
+      "loss": 0.7576,
+      "num_input_tokens_seen": 124733724,
+      "step": 37500
+    },
+    {
+      "epoch": 1.9008553849232155,
+      "grad_norm": 8.88025951385498,
+      "learning_rate": 3.099144615076784e-05,
+      "loss": 0.7315,
+      "num_input_tokens_seen": 126386636,
+      "step": 38000
+    },
+    {
+      "epoch": 1.9258666399879947,
+      "grad_norm": 15.850674629211426,
+      "learning_rate": 3.074133360012005e-05,
+      "loss": 0.7289,
+      "num_input_tokens_seen": 128054932,
+      "step": 38500
+    },
+    {
+      "epoch": 1.9508778950527739,
+      "grad_norm": 10.460667610168457,
+      "learning_rate": 3.049122104947226e-05,
+      "loss": 0.7375,
+      "num_input_tokens_seen": 129731780,
+      "step": 39000
+    },
+    {
+      "epoch": 1.975889150117553,
+      "grad_norm": 4.816532135009766,
+      "learning_rate": 3.024110849882447e-05,
+      "loss": 0.7203,
+      "num_input_tokens_seen": 131377564,
+      "step": 39500
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.5678554773330688,
+      "eval_runtime": 97.2769,
+      "eval_samples_per_second": 411.002,
+      "eval_steps_per_second": 51.379,
+      "num_input_tokens_seen": 132976438,
+      "step": 39982
+    },
+    {
+      "epoch": 2.0009004051823323,
+      "grad_norm": 8.531465530395508,
+      "learning_rate": 2.999099594817668e-05,
+      "loss": 0.7337,
+      "num_input_tokens_seen": 133038726,
+      "step": 40000
+    },
+    {
+      "epoch": 2.025911660247111,
+      "grad_norm": 17.74102783203125,
+      "learning_rate": 2.974088339752889e-05,
+      "loss": 0.6798,
+      "num_input_tokens_seen": 134681590,
+      "step": 40500
+    },
+    {
+      "epoch": 2.05092291531189,
+      "grad_norm": 16.203670501708984,
+      "learning_rate": 2.9490770846881098e-05,
+      "loss": 0.692,
+      "num_input_tokens_seen": 136354910,
+      "step": 41000
+    },
+    {
+      "epoch": 2.0759341703766694,
+      "grad_norm": 11.238871574401855,
+      "learning_rate": 2.9240658296233308e-05,
+      "loss": 0.653,
+      "num_input_tokens_seen": 138014246,
+      "step": 41500
+    },
+    {
+      "epoch": 2.1009454254414486,
+      "grad_norm": 8.781373023986816,
+      "learning_rate": 2.899054574558551e-05,
+      "loss": 0.6742,
+      "num_input_tokens_seen": 139676526,
+      "step": 42000
+    },
+    {
+      "epoch": 2.1259566805062278,
+      "grad_norm": 7.73007869720459,
+      "learning_rate": 2.874043319493772e-05,
+      "loss": 0.6739,
+      "num_input_tokens_seen": 141326846,
+      "step": 42500
+    },
+    {
+      "epoch": 2.150967935571007,
+      "grad_norm": 6.6758904457092285,
+      "learning_rate": 2.849032064428993e-05,
+      "loss": 0.6767,
+      "num_input_tokens_seen": 142999126,
+      "step": 43000
+    },
+    {
+      "epoch": 2.175979190635786,
+      "grad_norm": 9.964508056640625,
+      "learning_rate": 2.824020809364214e-05,
+      "loss": 0.6649,
+      "num_input_tokens_seen": 144643454,
+      "step": 43500
+    },
+    {
+      "epoch": 2.2009904457005653,
+      "grad_norm": 7.9148664474487305,
+      "learning_rate": 2.7990095542994348e-05,
+      "loss": 0.678,
+      "num_input_tokens_seen": 146327686,
+      "step": 44000
+    },
+    {
+      "epoch": 2.2260017007653445,
+      "grad_norm": 5.838576316833496,
+      "learning_rate": 2.7739982992346558e-05,
+      "loss": 0.6629,
+      "num_input_tokens_seen": 147996750,
+      "step": 44500
+    },
+    {
+      "epoch": 2.2510129558301237,
+      "grad_norm": 9.018148422241211,
+      "learning_rate": 2.7489870441698768e-05,
+      "loss": 0.6673,
+      "num_input_tokens_seen": 149658382,
+      "step": 45000
+    },
+    {
+      "epoch": 2.276024210894903,
+      "grad_norm": 5.56981897354126,
+      "learning_rate": 2.7239757891050978e-05,
+      "loss": 0.658,
+      "num_input_tokens_seen": 151279470,
+      "step": 45500
+    },
+    {
+      "epoch": 2.3010354659596817,
+      "grad_norm": 3.9373059272766113,
+      "learning_rate": 2.698964534040318e-05,
+      "loss": 0.6747,
+      "num_input_tokens_seen": 152950878,
+      "step": 46000
+    },
+    {
+      "epoch": 2.326046721024461,
+      "grad_norm": 7.596631050109863,
+      "learning_rate": 2.6739532789755388e-05,
+      "loss": 0.6824,
+      "num_input_tokens_seen": 154603110,
+      "step": 46500
+    },
+    {
+      "epoch": 2.35105797608924,
+      "grad_norm": 7.714618682861328,
+      "learning_rate": 2.6489420239107598e-05,
+      "loss": 0.6662,
+      "num_input_tokens_seen": 156262254,
+      "step": 47000
+    },
+    {
+      "epoch": 2.3760692311540192,
+      "grad_norm": 11.400321006774902,
+      "learning_rate": 2.6239307688459808e-05,
+      "loss": 0.6478,
+      "num_input_tokens_seen": 157940526,
+      "step": 47500
+    },
+    {
+      "epoch": 2.4010804862187984,
+      "grad_norm": 5.944780349731445,
+      "learning_rate": 2.5989195137812018e-05,
+      "loss": 0.6701,
+      "num_input_tokens_seen": 159597926,
+      "step": 48000
+    },
+    {
+      "epoch": 2.4260917412835776,
+      "grad_norm": 7.971735954284668,
+      "learning_rate": 2.5739082587164225e-05,
+      "loss": 0.6815,
+      "num_input_tokens_seen": 161249054,
+      "step": 48500
+    },
+    {
+      "epoch": 2.451102996348357,
+      "grad_norm": 8.019645690917969,
+      "learning_rate": 2.5488970036516435e-05,
+      "loss": 0.6823,
+      "num_input_tokens_seen": 162937710,
+      "step": 49000
+    },
+    {
+      "epoch": 2.476114251413136,
+      "grad_norm": 14.52238655090332,
+      "learning_rate": 2.5238857485868645e-05,
+      "loss": 0.6662,
+      "num_input_tokens_seen": 164579550,
+      "step": 49500
+    },
+    {
+      "epoch": 2.501125506477915,
+      "grad_norm": 8.065009117126465,
+      "learning_rate": 2.498874493522085e-05,
+      "loss": 0.6855,
+      "num_input_tokens_seen": 166259486,
+      "step": 50000
+    },
+    {
+      "epoch": 2.526136761542694,
+      "grad_norm": 3.0121171474456787,
+      "learning_rate": 2.473863238457306e-05,
+      "loss": 0.6597,
+      "num_input_tokens_seen": 167925014,
+      "step": 50500
+    },
+    {
+      "epoch": 2.551148016607473,
+      "grad_norm": 9.93840217590332,
+      "learning_rate": 2.4488519833925268e-05,
+      "loss": 0.6672,
+      "num_input_tokens_seen": 169584230,
+      "step": 51000
+    },
+    {
+      "epoch": 2.5761592716722523,
+      "grad_norm": 7.8001627922058105,
+      "learning_rate": 2.4238407283277475e-05,
+      "loss": 0.6419,
+      "num_input_tokens_seen": 171205846,
+      "step": 51500
+    },
+    {
+      "epoch": 2.6011705267370315,
+      "grad_norm": 5.621837139129639,
+      "learning_rate": 2.3988294732629685e-05,
+      "loss": 0.6679,
+      "num_input_tokens_seen": 172867766,
+      "step": 52000
+    },
+    {
+      "epoch": 2.6261817818018107,
+      "grad_norm": 18.287431716918945,
+      "learning_rate": 2.3738182181981895e-05,
+      "loss": 0.6601,
+      "num_input_tokens_seen": 174508502,
+      "step": 52500
+    },
+    {
+      "epoch": 2.65119303686659,
+      "grad_norm": 7.687650203704834,
+      "learning_rate": 2.34880696313341e-05,
+      "loss": 0.6722,
+      "num_input_tokens_seen": 176179174,
+      "step": 53000
+    },
+    {
+      "epoch": 2.676204291931369,
+      "grad_norm": 9.807682037353516,
+      "learning_rate": 2.3237957080686308e-05,
+      "loss": 0.666,
+      "num_input_tokens_seen": 177874198,
+      "step": 53500
+    },
+    {
+      "epoch": 2.7012155469961483,
+      "grad_norm": 9.2701416015625,
+      "learning_rate": 2.2987844530038518e-05,
+      "loss": 0.6811,
+      "num_input_tokens_seen": 179531678,
+      "step": 54000
+    },
+    {
+      "epoch": 2.7262268020609275,
+      "grad_norm": 8.37064266204834,
+      "learning_rate": 2.2737731979390728e-05,
+      "loss": 0.6505,
+      "num_input_tokens_seen": 181197542,
+      "step": 54500
+    },
+    {
+      "epoch": 2.7512380571257067,
+      "grad_norm": 5.556591033935547,
+      "learning_rate": 2.2487619428742935e-05,
+      "loss": 0.6711,
+      "num_input_tokens_seen": 182849270,
+      "step": 55000
+    },
+    {
+      "epoch": 2.776249312190486,
+      "grad_norm": 7.93866491317749,
+      "learning_rate": 2.2237506878095145e-05,
+      "loss": 0.6664,
+      "num_input_tokens_seen": 184520526,
+      "step": 55500
+    },
+    {
+      "epoch": 2.801260567255265,
+      "grad_norm": 6.768641471862793,
+      "learning_rate": 2.198739432744735e-05,
+      "loss": 0.6699,
+      "num_input_tokens_seen": 186239974,
+      "step": 56000
+    },
+    {
+      "epoch": 2.8262718223200443,
+      "grad_norm": 5.911066055297852,
+      "learning_rate": 2.173728177679956e-05,
+      "loss": 0.6649,
+      "num_input_tokens_seen": 187875982,
+      "step": 56500
+    },
+    {
+      "epoch": 2.851283077384823,
+      "grad_norm": 9.964897155761719,
+      "learning_rate": 2.1487169226151768e-05,
+      "loss": 0.6874,
+      "num_input_tokens_seen": 189505118,
+      "step": 57000
+    },
+    {
+      "epoch": 2.876294332449602,
+      "grad_norm": 8.109452247619629,
+      "learning_rate": 2.1237056675503978e-05,
+      "loss": 0.6762,
+      "num_input_tokens_seen": 191184886,
+      "step": 57500
+    },
+    {
+      "epoch": 2.9013055875143814,
+      "grad_norm": 8.556594848632812,
+      "learning_rate": 2.0986944124856188e-05,
+      "loss": 0.6491,
+      "num_input_tokens_seen": 192859070,
+      "step": 58000
+    },
+    {
+      "epoch": 2.9263168425791606,
+      "grad_norm": 5.430099010467529,
+      "learning_rate": 2.0736831574208394e-05,
+      "loss": 0.661,
+      "num_input_tokens_seen": 194533102,
+      "step": 58500
+    },
+    {
+      "epoch": 2.9513280976439398,
+      "grad_norm": 9.806259155273438,
+      "learning_rate": 2.04867190235606e-05,
+      "loss": 0.645,
+      "num_input_tokens_seen": 196171870,
+      "step": 59000
+    },
+    {
+      "epoch": 2.976339352708719,
+      "grad_norm": 8.950848579406738,
+      "learning_rate": 2.023660647291281e-05,
+      "loss": 0.6479,
+      "num_input_tokens_seen": 197877830,
+      "step": 59500
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.560497522354126,
+      "eval_runtime": 98.7193,
+      "eval_samples_per_second": 404.997,
+      "eval_steps_per_second": 50.628,
+      "num_input_tokens_seen": 199402582,
+      "step": 59973
+    },
+    {
+      "epoch": 3.001350607773498,
+      "grad_norm": 6.855441093444824,
+      "learning_rate": 1.998649392226502e-05,
+      "loss": 0.6187,
+      "num_input_tokens_seen": 199490934,
+      "step": 60000
+    },
+    {
+      "epoch": 3.0263618628382774,
+      "grad_norm": 8.57907772064209,
+      "learning_rate": 1.973638137161723e-05,
+      "loss": 0.652,
+      "num_input_tokens_seen": 201164870,
+      "step": 60500
+    },
+    {
+      "epoch": 3.0513731179030565,
+      "grad_norm": 15.578742027282715,
+      "learning_rate": 1.9486268820969438e-05,
+      "loss": 0.6127,
+      "num_input_tokens_seen": 202824222,
+      "step": 61000
+    },
+    {
+      "epoch": 3.0763843729678357,
+      "grad_norm": 9.083669662475586,
+      "learning_rate": 1.9236156270321644e-05,
+      "loss": 0.6146,
+      "num_input_tokens_seen": 204495334,
+      "step": 61500
+    },
+    {
+      "epoch": 3.1013956280326145,
+      "grad_norm": 10.12027359008789,
+      "learning_rate": 1.8986043719673854e-05,
+      "loss": 0.6341,
+      "num_input_tokens_seen": 206136214,
+      "step": 62000
+    },
+    {
+      "epoch": 3.1264068830973937,
+      "grad_norm": 10.482580184936523,
+      "learning_rate": 1.8735931169026064e-05,
+      "loss": 0.603,
+      "num_input_tokens_seen": 207809294,
+      "step": 62500
+    },
+    {
+      "epoch": 3.151418138162173,
+      "grad_norm": 7.722796440124512,
+      "learning_rate": 1.848581861837827e-05,
+      "loss": 0.6184,
+      "num_input_tokens_seen": 209485534,
+      "step": 63000
+    },
+    {
+      "epoch": 3.176429393226952,
+      "grad_norm": 7.449066162109375,
+      "learning_rate": 1.8235706067730478e-05,
+      "loss": 0.621,
+      "num_input_tokens_seen": 211143158,
+      "step": 63500
+    },
+    {
+      "epoch": 3.2014406482917313,
+      "grad_norm": 8.766199111938477,
+      "learning_rate": 1.7985593517082688e-05,
+      "loss": 0.6165,
+      "num_input_tokens_seen": 212777414,
+      "step": 64000
+    },
+    {
+      "epoch": 3.2264519033565104,
+      "grad_norm": 4.193557262420654,
+      "learning_rate": 1.7735480966434898e-05,
+      "loss": 0.6188,
+      "num_input_tokens_seen": 214420798,
+      "step": 64500
+    },
+    {
+      "epoch": 3.2514631584212896,
+      "grad_norm": 6.699706554412842,
+      "learning_rate": 1.7485368415787104e-05,
+      "loss": 0.6095,
+      "num_input_tokens_seen": 216073590,
+      "step": 65000
+    },
+    {
+      "epoch": 3.276474413486069,
+      "grad_norm": 8.79476547241211,
+      "learning_rate": 1.7235255865139314e-05,
+      "loss": 0.6208,
+      "num_input_tokens_seen": 217746214,
+      "step": 65500
+    },
+    {
+      "epoch": 3.301485668550848,
+      "grad_norm": 6.685282230377197,
+      "learning_rate": 1.698514331449152e-05,
+      "loss": 0.6058,
+      "num_input_tokens_seen": 219433446,
+      "step": 66000
+    },
+    {
+      "epoch": 3.326496923615627,
+      "grad_norm": 10.743680953979492,
+      "learning_rate": 1.673503076384373e-05,
+      "loss": 0.6318,
+      "num_input_tokens_seen": 221089694,
+      "step": 66500
+    },
+    {
+      "epoch": 3.3515081786804064,
+      "grad_norm": 8.36410903930664,
+      "learning_rate": 1.6484918213195938e-05,
+      "loss": 0.6236,
+      "num_input_tokens_seen": 222760502,
+      "step": 67000
+    },
+    {
+      "epoch": 3.376519433745185,
+      "grad_norm": 7.1238274574279785,
+      "learning_rate": 1.6234805662548148e-05,
+      "loss": 0.6103,
+      "num_input_tokens_seen": 224417582,
+      "step": 67500
+    },
+    {
+      "epoch": 3.4015306888099643,
+      "grad_norm": 7.042121887207031,
+      "learning_rate": 1.5984693111900358e-05,
+      "loss": 0.6157,
+      "num_input_tokens_seen": 226068982,
+      "step": 68000
+    },
+    {
+      "epoch": 3.4265419438747435,
+      "grad_norm": 9.31881332397461,
+      "learning_rate": 1.5734580561252564e-05,
+      "loss": 0.6263,
+      "num_input_tokens_seen": 227701038,
+      "step": 68500
+    },
+    {
+      "epoch": 3.4515531989395227,
+      "grad_norm": 7.049442768096924,
+      "learning_rate": 1.548446801060477e-05,
+      "loss": 0.6237,
+      "num_input_tokens_seen": 229359710,
+      "step": 69000
+    },
+    {
+      "epoch": 3.476564454004302,
+      "grad_norm": 7.746445178985596,
+      "learning_rate": 1.5234355459956981e-05,
+      "loss": 0.6376,
+      "num_input_tokens_seen": 231028950,
+      "step": 69500
+    },
+    {
+      "epoch": 3.501575709069081,
+      "grad_norm": 4.588512420654297,
+      "learning_rate": 1.4984242909309191e-05,
+      "loss": 0.6189,
+      "num_input_tokens_seen": 232663446,
+      "step": 70000
+    },
+    {
+      "epoch": 3.5265869641338603,
+      "grad_norm": 9.873016357421875,
+      "learning_rate": 1.47341303586614e-05,
+      "loss": 0.5935,
+      "num_input_tokens_seen": 234333558,
+      "step": 70500
+    },
+    {
+      "epoch": 3.5515982191986395,
+      "grad_norm": 8.153191566467285,
+      "learning_rate": 1.4484017808013606e-05,
+      "loss": 0.6403,
+      "num_input_tokens_seen": 236006758,
+      "step": 71000
+    },
+    {
+      "epoch": 3.5766094742634187,
+      "grad_norm": 5.909561634063721,
+      "learning_rate": 1.4233905257365814e-05,
+      "loss": 0.6152,
+      "num_input_tokens_seen": 237655630,
+      "step": 71500
+    },
+    {
+      "epoch": 3.6016207293281974,
+      "grad_norm": 9.481532096862793,
+      "learning_rate": 1.3983792706718024e-05,
+      "loss": 0.5916,
+      "num_input_tokens_seen": 239300238,
+      "step": 72000
+    },
+    {
+      "epoch": 3.6266319843929766,
+      "grad_norm": 4.988440990447998,
+      "learning_rate": 1.3733680156070232e-05,
+      "loss": 0.6275,
+      "num_input_tokens_seen": 240971214,
+      "step": 72500
+    },
+    {
+      "epoch": 3.651643239457756,
+      "grad_norm": 6.159299850463867,
+      "learning_rate": 1.3483567605422439e-05,
+      "loss": 0.6101,
+      "num_input_tokens_seen": 242634286,
+      "step": 73000
+    },
+    {
+      "epoch": 3.676654494522535,
+      "grad_norm": 4.264859199523926,
+      "learning_rate": 1.3233455054774649e-05,
+      "loss": 0.6045,
+      "num_input_tokens_seen": 244293870,
+      "step": 73500
+    },
+    {
+      "epoch": 3.701665749587314,
+      "grad_norm": 5.82095193862915,
+      "learning_rate": 1.2983342504126857e-05,
+      "loss": 0.624,
+      "num_input_tokens_seen": 245956374,
+      "step": 74000
+    },
+    {
+      "epoch": 3.7266770046520934,
+      "grad_norm": 10.4242525100708,
+      "learning_rate": 1.2733229953479067e-05,
+      "loss": 0.6231,
+      "num_input_tokens_seen": 247566166,
+      "step": 74500
+    },
+    {
+      "epoch": 3.7516882597168726,
+      "grad_norm": 6.536423206329346,
+      "learning_rate": 1.2483117402831276e-05,
+      "loss": 0.6159,
+      "num_input_tokens_seen": 249233118,
+      "step": 75000
+    },
+    {
+      "epoch": 3.776699514781652,
+      "grad_norm": 10.467476844787598,
+      "learning_rate": 1.2233004852183482e-05,
+      "loss": 0.6252,
+      "num_input_tokens_seen": 250919822,
+      "step": 75500
+    },
+    {
+      "epoch": 3.801710769846431,
+      "grad_norm": 13.297423362731934,
+      "learning_rate": 1.1982892301535692e-05,
+      "loss": 0.6133,
+      "num_input_tokens_seen": 252600838,
+      "step": 76000
+    },
+    {
+      "epoch": 3.82672202491121,
+      "grad_norm": 6.729821681976318,
+      "learning_rate": 1.1732779750887899e-05,
+      "loss": 0.6201,
+      "num_input_tokens_seen": 254292558,
+      "step": 76500
+    },
+    {
+      "epoch": 3.8517332799759894,
+      "grad_norm": 5.975412845611572,
+      "learning_rate": 1.1482667200240109e-05,
+      "loss": 0.5976,
+      "num_input_tokens_seen": 255961510,
+      "step": 77000
+    },
+    {
+      "epoch": 3.8767445350407685,
+      "grad_norm": 16.30948257446289,
+      "learning_rate": 1.1232554649592317e-05,
+      "loss": 0.6023,
+      "num_input_tokens_seen": 257630246,
+      "step": 77500
+    },
+    {
+      "epoch": 3.9017557901055477,
+      "grad_norm": 7.327265739440918,
+      "learning_rate": 1.0982442098944526e-05,
+      "loss": 0.6145,
+      "num_input_tokens_seen": 259305118,
+      "step": 78000
+    },
+    {
+      "epoch": 3.9267670451703265,
+      "grad_norm": 12.45727825164795,
+      "learning_rate": 1.0732329548296734e-05,
+      "loss": 0.6311,
+      "num_input_tokens_seen": 260978934,
+      "step": 78500
+    },
+    {
+      "epoch": 3.9517783002351057,
+      "grad_norm": 10.317325592041016,
+      "learning_rate": 1.0482216997648942e-05,
+      "loss": 0.6346,
+      "num_input_tokens_seen": 262670814,
+      "step": 79000
+    },
+    {
+      "epoch": 3.976789555299885,
+      "grad_norm": 7.8411149978637695,
+      "learning_rate": 1.023210444700115e-05,
+      "loss": 0.6023,
+      "num_input_tokens_seen": 264314614,
+      "step": 79500
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.54269939661026,
+      "eval_runtime": 96.9182,
+      "eval_samples_per_second": 412.523,
+      "eval_steps_per_second": 51.569,
+      "num_input_tokens_seen": 265875340,
+      "step": 79964
+    },
+    {
+      "epoch": 4.0018008103646645,
+      "grad_norm": 6.620047569274902,
+      "learning_rate": 9.98199189635336e-06,
+      "loss": 0.6268,
+      "num_input_tokens_seen": 266010940,
+      "step": 80000
+    },
+    {
+      "epoch": 4.026812065429443,
+      "grad_norm": 10.007366180419922,
+      "learning_rate": 9.731879345705567e-06,
+      "loss": 0.5924,
+      "num_input_tokens_seen": 267660364,
+      "step": 80500
+    },
+    {
+      "epoch": 4.051823320494222,
+      "grad_norm": 6.680395603179932,
+      "learning_rate": 9.481766795057777e-06,
+      "loss": 0.5786,
+      "num_input_tokens_seen": 269338492,
+      "step": 81000
+    },
+    {
+      "epoch": 4.076834575559001,
+      "grad_norm": 4.809377670288086,
+      "learning_rate": 9.231654244409984e-06,
+      "loss": 0.5942,
+      "num_input_tokens_seen": 271024236,
+      "step": 81500
+    },
+    {
+      "epoch": 4.10184583062378,
+      "grad_norm": 8.463695526123047,
+      "learning_rate": 8.981541693762194e-06,
+      "loss": 0.5796,
+      "num_input_tokens_seen": 272672620,
+      "step": 82000
+    },
+    {
+      "epoch": 4.12685708568856,
+      "grad_norm": 10.12741470336914,
+      "learning_rate": 8.731429143114402e-06,
+      "loss": 0.5879,
+      "num_input_tokens_seen": 274353676,
+      "step": 82500
+    },
+    {
+      "epoch": 4.151868340753339,
+      "grad_norm": 15.428593635559082,
+      "learning_rate": 8.48131659246661e-06,
+      "loss": 0.5977,
+      "num_input_tokens_seen": 275998164,
+      "step": 83000
+    },
+    {
+      "epoch": 4.176879595818118,
+      "grad_norm": 10.350814819335938,
+      "learning_rate": 8.231204041818819e-06,
+      "loss": 0.566,
+      "num_input_tokens_seen": 277685356,
+      "step": 83500
+    },
+    {
+      "epoch": 4.201890850882897,
+      "grad_norm": 11.962939262390137,
+      "learning_rate": 7.981091491171027e-06,
+      "loss": 0.5671,
+      "num_input_tokens_seen": 279358548,
+      "step": 84000
+    },
+    {
+      "epoch": 4.226902105947676,
+      "grad_norm": 10.32712459564209,
+      "learning_rate": 7.730978940523236e-06,
+      "loss": 0.5785,
+      "num_input_tokens_seen": 280991044,
+      "step": 84500
+    },
+    {
+      "epoch": 4.2519133610124555,
+      "grad_norm": 5.896986484527588,
+      "learning_rate": 7.480866389875445e-06,
+      "loss": 0.6051,
+      "num_input_tokens_seen": 282646764,
+      "step": 85000
+    },
+    {
+      "epoch": 4.276924616077235,
+      "grad_norm": 7.187685966491699,
+      "learning_rate": 7.230753839227652e-06,
+      "loss": 0.5943,
+      "num_input_tokens_seen": 284342508,
+      "step": 85500
+    },
+    {
+      "epoch": 4.301935871142014,
+      "grad_norm": 6.680044174194336,
+      "learning_rate": 6.980641288579861e-06,
+      "loss": 0.5765,
+      "num_input_tokens_seen": 286036340,
+      "step": 86000
+    },
+    {
+      "epoch": 4.326947126206793,
+      "grad_norm": 4.963362693786621,
+      "learning_rate": 6.73052873793207e-06,
+      "loss": 0.6137,
+      "num_input_tokens_seen": 287681564,
+      "step": 86500
+    },
+    {
+      "epoch": 4.351958381271572,
+      "grad_norm": 12.112903594970703,
+      "learning_rate": 6.480416187284279e-06,
+      "loss": 0.5983,
+      "num_input_tokens_seen": 289353828,
+      "step": 87000
+    },
+    {
+      "epoch": 4.3769696363363515,
+      "grad_norm": 5.938944339752197,
+      "learning_rate": 6.230303636636486e-06,
+      "loss": 0.6017,
+      "num_input_tokens_seen": 291011668,
+      "step": 87500
+    },
+    {
+      "epoch": 4.401980891401131,
+      "grad_norm": 4.485511302947998,
+      "learning_rate": 5.980191085988695e-06,
+      "loss": 0.5898,
+      "num_input_tokens_seen": 292675092,
+      "step": 88000
+    },
+    {
+      "epoch": 4.42699214646591,
+      "grad_norm": 9.15986442565918,
+      "learning_rate": 5.730078535340903e-06,
+      "loss": 0.5744,
+      "num_input_tokens_seen": 294338212,
+      "step": 88500
+    },
+    {
+      "epoch": 4.452003401530689,
+      "grad_norm": 3.6591997146606445,
+      "learning_rate": 5.479965984693112e-06,
+      "loss": 0.5948,
+      "num_input_tokens_seen": 296004820,
+      "step": 89000
+    },
+    {
+      "epoch": 4.477014656595468,
+      "grad_norm": 9.19853401184082,
+      "learning_rate": 5.2298534340453205e-06,
+      "loss": 0.5838,
+      "num_input_tokens_seen": 297661964,
+      "step": 89500
+    },
+    {
+      "epoch": 4.5020259116602475,
+      "grad_norm": 13.491796493530273,
+      "learning_rate": 4.979740883397529e-06,
+      "loss": 0.5726,
+      "num_input_tokens_seen": 299312356,
+      "step": 90000
+    },
+    {
+      "epoch": 4.527037166725027,
+      "grad_norm": 6.374147415161133,
+      "learning_rate": 4.729628332749737e-06,
+      "loss": 0.5728,
+      "num_input_tokens_seen": 300978468,
+      "step": 90500
+    },
+    {
+      "epoch": 4.552048421789806,
+      "grad_norm": 7.507421970367432,
+      "learning_rate": 4.479515782101945e-06,
+      "loss": 0.5903,
+      "num_input_tokens_seen": 302639252,
+      "step": 91000
+    },
+    {
+      "epoch": 4.577059676854585,
+      "grad_norm": 12.31728744506836,
+      "learning_rate": 4.229403231454155e-06,
+      "loss": 0.5916,
+      "num_input_tokens_seen": 304289124,
+      "step": 91500
+    },
+    {
+      "epoch": 4.602070931919363,
+      "grad_norm": 11.238248825073242,
+      "learning_rate": 3.979290680806363e-06,
+      "loss": 0.5617,
+      "num_input_tokens_seen": 305968436,
+      "step": 92000
+    },
+    {
+      "epoch": 4.6270821869841425,
+      "grad_norm": 6.74647331237793,
+      "learning_rate": 3.7291781301585712e-06,
+      "loss": 0.6249,
+      "num_input_tokens_seen": 307616156,
+      "step": 92500
+    },
+    {
+      "epoch": 4.652093442048922,
+      "grad_norm": 7.845546722412109,
+      "learning_rate": 3.4790655795107795e-06,
+      "loss": 0.6015,
+      "num_input_tokens_seen": 309294188,
+      "step": 93000
+    },
+    {
+      "epoch": 4.677104697113701,
+      "grad_norm": 5.631568431854248,
+      "learning_rate": 3.2289530288629883e-06,
+      "loss": 0.5747,
+      "num_input_tokens_seen": 310930388,
+      "step": 93500
+    },
+    {
+      "epoch": 4.70211595217848,
+      "grad_norm": 4.305506229400635,
+      "learning_rate": 2.978840478215197e-06,
+      "loss": 0.5957,
+      "num_input_tokens_seen": 312600876,
+      "step": 94000
+    },
+    {
+      "epoch": 4.727127207243259,
+      "grad_norm": 12.092133522033691,
+      "learning_rate": 2.7287279275674053e-06,
+      "loss": 0.5952,
+      "num_input_tokens_seen": 314275796,
+      "step": 94500
+    },
+    {
+      "epoch": 4.7521384623080385,
+      "grad_norm": 7.043518543243408,
+      "learning_rate": 2.478615376919614e-06,
+      "loss": 0.6013,
+      "num_input_tokens_seen": 315945468,
+      "step": 95000
+    },
+    {
+      "epoch": 4.777149717372818,
+      "grad_norm": 6.208098888397217,
+      "learning_rate": 2.2285028262718224e-06,
+      "loss": 0.591,
+      "num_input_tokens_seen": 317595388,
+      "step": 95500
+    },
+    {
+      "epoch": 4.802160972437597,
+      "grad_norm": 3.588547706604004,
+      "learning_rate": 1.978390275624031e-06,
+      "loss": 0.5846,
+      "num_input_tokens_seen": 319229212,
+      "step": 96000
+    },
+    {
+      "epoch": 4.827172227502376,
+      "grad_norm": 10.502739906311035,
+      "learning_rate": 1.7282777249762395e-06,
+      "loss": 0.5904,
+      "num_input_tokens_seen": 320908604,
+      "step": 96500
+    },
+    {
+      "epoch": 4.852183482567155,
+      "grad_norm": 8.170723915100098,
+      "learning_rate": 1.4781651743284478e-06,
+      "loss": 0.5925,
+      "num_input_tokens_seen": 322558268,
+      "step": 97000
+    },
+    {
+      "epoch": 4.8771947376319345,
+      "grad_norm": 10.083109855651855,
+      "learning_rate": 1.2280526236806563e-06,
+      "loss": 0.5977,
+      "num_input_tokens_seen": 324205708,
+      "step": 97500
+    },
+    {
+      "epoch": 4.902205992696714,
+      "grad_norm": 6.591386795043945,
+      "learning_rate": 9.779400730328649e-07,
+      "loss": 0.5633,
+      "num_input_tokens_seen": 325850036,
+      "step": 98000
+    },
+    {
+      "epoch": 4.927217247761493,
+      "grad_norm": 7.133991241455078,
+      "learning_rate": 7.278275223850733e-07,
+      "loss": 0.5786,
+      "num_input_tokens_seen": 327509276,
+      "step": 98500
+    },
+    {
+      "epoch": 4.952228502826272,
+      "grad_norm": 5.090227127075195,
+      "learning_rate": 4.777149717372818e-07,
+      "loss": 0.5886,
+      "num_input_tokens_seen": 329175052,
+      "step": 99000
+    },
+    {
+      "epoch": 4.977239757891051,
+      "grad_norm": 7.157599925994873,
+      "learning_rate": 2.276024210894903e-07,
+      "loss": 0.5879,
+      "num_input_tokens_seen": 330819060,
+      "step": 99500
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.5393198132514954,
+      "eval_runtime": 97.8527,
+      "eval_samples_per_second": 408.584,
+      "eval_steps_per_second": 51.077,
+      "num_input_tokens_seen": 332318598,
+      "step": 99955
+    },
+    {
+      "epoch": 5.0,
+      "num_input_tokens_seen": 332318598,
+      "step": 99955,
+      "total_flos": 1.2062750373789696e+17,
+      "train_loss": 0.7601320325591829,
+      "train_runtime": 7988.2275,
+      "train_samples_per_second": 100.099,
+      "train_steps_per_second": 12.513,
+      "train_tokens_per_second": 41593.134
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 99955,
+  "num_input_tokens_seen": 332318598,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.2062750373789696e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6782a5ce63f15c3fe5f3758e612a2db9264d743242151ecb54c0e5cd4b930c9e
+size 5496