Upload 16 files

Browse files

Files changed (16) hide show

README.md +62 -0
adapter_config.json +34 -0
adapter_model.safetensors +3 -0
added_tokens.json +6 -0
all_results.json +12 -0
eval_results.json +7 -0
merges.txt +0 -0
special_tokens_map.json +20 -0
tokenizer.json +0 -0
tokenizer_config.json +52 -0
train_results.json +8 -0
trainer_log.jsonl +37 -0
trainer_state.json +294 -0
training_args.bin +3 -0
training_loss.png +0 -0
vocab.json +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,62 @@

+---
+base_model: Qwen/Qwen2-7B-Instruct
+library_name: peft
+license: other
+tags:
+- llama-factory
+- lora
+- generated_from_trainer
+model-index:
+- name: sft3
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# sft3
+This model is a fine-tuned version of [Qwen/Qwen2-7B-Instruct](https://huggingface.co/Qwen/Qwen2-7B-Instruct) on the identity and the alpaca_en_demo datasets.
+It achieves the following results on the evaluation set:
+- Loss: 1.2586
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0001
+- train_batch_size: 1
+- eval_batch_size: 1
+- seed: 42
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 8
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 3.0
+- mixed_precision_training: Native AMP
+### Training results
+### Framework versions
+- PEFT 0.11.1
+- Transformers 4.41.2
+- Pytorch 2.2.2+cu121
+- Datasets 2.18.0
+- Tokenizers 0.19.1

adapter_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "Qwen/Qwen2-7B-Instruct",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "o_proj",
+    "v_proj",
+    "q_proj",
+    "up_proj",
+    "down_proj",
+    "gate_proj",
+    "k_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50341d47ea497ad790c540bbc124dc9380c213741deef962611f526af3d571a3
+size 80792096

added_tokens.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "<|endoftext|>": 151643,
+  "<|eot_id|>": 151646,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 2.984709480122324,
+    "eval_loss": 1.258605718612671,
+    "eval_runtime": 8.3287,
+    "eval_samples_per_second": 13.207,
+    "eval_steps_per_second": 13.207,
+    "total_flos": 2.6312102502948864e+16,
+    "train_loss": 1.1005799705213537,
+    "train_runtime": 684.9766,
+    "train_samples_per_second": 4.296,
+    "train_steps_per_second": 0.534
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.984709480122324,
+    "eval_loss": 1.258605718612671,
+    "eval_runtime": 8.3287,
+    "eval_samples_per_second": 13.207,
+    "eval_steps_per_second": 13.207
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "eos_token": {
+    "content": "<|eot_id|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,52 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|eot_id|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{% set system_message = 'You are a helpful assistant.' %}{% if messages[0]['role'] == 'system' %}{% set system_message = messages[0]['content'] %}{% endif %}{% if system_message is defined %}{{ '<|start_header_id|>system<|end_header_id|>\n\n' + system_message + '<|eot_id|>' }}{% endif %}{% for message in messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ '<|start_header_id|>user<|end_header_id|>\n\n' + content + '<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n' }}{% elif message['role'] == 'assistant' %}{{ content + '<|eot_id|>' }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|eot_id|>",
+  "errors": "replace",
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.984709480122324,
+    "total_flos": 2.6312102502948864e+16,
+    "train_loss": 1.1005799705213537,
+    "train_runtime": 684.9766,
+    "train_samples_per_second": 4.296,
+    "train_steps_per_second": 0.534
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,37 @@

+{"current_steps": 10, "total_steps": 366, "loss": 1.8972, "learning_rate": 2.702702702702703e-05, "epoch": 0.08154943934760449, "percentage": 2.73, "elapsed_time": "0:00:17", "remaining_time": "0:10:30", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 20, "total_steps": 366, "loss": 1.7883, "learning_rate": 5.405405405405406e-05, "epoch": 0.16309887869520898, "percentage": 5.46, "elapsed_time": "0:00:34", "remaining_time": "0:09:56", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 30, "total_steps": 366, "loss": 1.3865, "learning_rate": 8.108108108108109e-05, "epoch": 0.24464831804281345, "percentage": 8.2, "elapsed_time": "0:00:51", "remaining_time": "0:09:33", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 40, "total_steps": 366, "loss": 1.3647, "learning_rate": 9.999088210158001e-05, "epoch": 0.32619775739041795, "percentage": 10.93, "elapsed_time": "0:01:08", "remaining_time": "0:09:16", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 50, "total_steps": 366, "loss": 1.2114, "learning_rate": 9.967210469256656e-05, "epoch": 0.4077471967380224, "percentage": 13.66, "elapsed_time": "0:01:25", "remaining_time": "0:08:59", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 60, "total_steps": 366, "loss": 1.2255, "learning_rate": 9.890075235781779e-05, "epoch": 0.4892966360856269, "percentage": 16.39, "elapsed_time": "0:01:42", "remaining_time": "0:08:42", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 70, "total_steps": 366, "loss": 1.3242, "learning_rate": 9.768385308070138e-05, "epoch": 0.5708460754332314, "percentage": 19.13, "elapsed_time": "0:02:00", "remaining_time": "0:08:29", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 80, "total_steps": 366, "loss": 1.106, "learning_rate": 9.603249433382144e-05, "epoch": 0.6523955147808359, "percentage": 21.86, "elapsed_time": "0:02:18", "remaining_time": "0:08:16", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 90, "total_steps": 366, "loss": 1.1686, "learning_rate": 9.396172205829234e-05, "epoch": 0.7339449541284404, "percentage": 24.59, "elapsed_time": "0:02:36", "remaining_time": "0:08:00", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 100, "total_steps": 366, "loss": 1.148, "learning_rate": 9.149040357641929e-05, "epoch": 0.8154943934760448, "percentage": 27.32, "elapsed_time": "0:02:54", "remaining_time": "0:07:44", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 110, "total_steps": 366, "loss": 1.3969, "learning_rate": 8.864105568682244e-05, "epoch": 0.8970438328236493, "percentage": 30.05, "elapsed_time": "0:03:11", "remaining_time": "0:07:26", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 120, "total_steps": 366, "loss": 1.1595, "learning_rate": 8.543963950827279e-05, "epoch": 0.9785932721712538, "percentage": 32.79, "elapsed_time": "0:03:29", "remaining_time": "0:07:09", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 130, "total_steps": 366, "loss": 1.091, "learning_rate": 8.191532394146865e-05, "epoch": 1.0601427115188584, "percentage": 35.52, "elapsed_time": "0:03:47", "remaining_time": "0:06:52", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 140, "total_steps": 366, "loss": 1.0718, "learning_rate": 7.810021990391164e-05, "epoch": 1.1416921508664628, "percentage": 38.25, "elapsed_time": "0:04:05", "remaining_time": "0:06:36", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 150, "total_steps": 366, "loss": 1.0833, "learning_rate": 7.402908775933419e-05, "epoch": 1.2232415902140672, "percentage": 40.98, "elapsed_time": "0:04:23", "remaining_time": "0:06:19", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 160, "total_steps": 366, "loss": 1.073, "learning_rate": 6.973902060736226e-05, "epoch": 1.3047910295616718, "percentage": 43.72, "elapsed_time": "0:04:41", "remaining_time": "0:06:02", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 170, "total_steps": 366, "loss": 1.0823, "learning_rate": 6.526910631903973e-05, "epoch": 1.3863404689092762, "percentage": 46.45, "elapsed_time": "0:04:59", "remaining_time": "0:05:45", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 180, "total_steps": 366, "loss": 0.9893, "learning_rate": 6.0660071397493514e-05, "epoch": 1.4678899082568808, "percentage": 49.18, "elapsed_time": "0:05:16", "remaining_time": "0:05:27", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 190, "total_steps": 366, "loss": 0.9235, "learning_rate": 5.5953909908613114e-05, "epoch": 1.5494393476044852, "percentage": 51.91, "elapsed_time": "0:05:34", "remaining_time": "0:05:09", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 200, "total_steps": 366, "loss": 1.012, "learning_rate": 5.119350086265004e-05, "epoch": 1.6309887869520896, "percentage": 54.64, "elapsed_time": "0:05:51", "remaining_time": "0:04:51", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 210, "total_steps": 366, "loss": 1.0746, "learning_rate": 4.64222175328687e-05, "epoch": 1.7125382262996942, "percentage": 57.38, "elapsed_time": "0:06:09", "remaining_time": "0:04:34", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 220, "total_steps": 366, "loss": 1.0924, "learning_rate": 4.1683532270843504e-05, "epoch": 1.7940876656472988, "percentage": 60.11, "elapsed_time": "0:06:27", "remaining_time": "0:04:16", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 230, "total_steps": 366, "loss": 1.0545, "learning_rate": 3.7020620419029094e-05, "epoch": 1.8756371049949032, "percentage": 62.84, "elapsed_time": "0:06:44", "remaining_time": "0:03:59", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 240, "total_steps": 366, "loss": 1.0335, "learning_rate": 3.2475966929454504e-05, "epoch": 1.9571865443425076, "percentage": 65.57, "elapsed_time": "0:07:04", "remaining_time": "0:03:42", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 250, "total_steps": 366, "loss": 0.9929, "learning_rate": 2.8090979272736662e-05, "epoch": 2.038735983690112, "percentage": 68.31, "elapsed_time": "0:07:24", "remaining_time": "0:03:26", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 260, "total_steps": 366, "loss": 0.9195, "learning_rate": 2.3905610164295394e-05, "epoch": 2.120285423037717, "percentage": 71.04, "elapsed_time": "0:07:45", "remaining_time": "0:03:09", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 270, "total_steps": 366, "loss": 0.8906, "learning_rate": 1.995799354520598e-05, "epoch": 2.2018348623853212, "percentage": 73.77, "elapsed_time": "0:08:07", "remaining_time": "0:02:53", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 280, "total_steps": 366, "loss": 0.8852, "learning_rate": 1.6284097134357536e-05, "epoch": 2.2833843017329256, "percentage": 76.5, "elapsed_time": "0:08:26", "remaining_time": "0:02:35", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 290, "total_steps": 366, "loss": 0.8899, "learning_rate": 1.2917394717602121e-05, "epoch": 2.36493374108053, "percentage": 79.23, "elapsed_time": "0:08:48", "remaining_time": "0:02:18", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 300, "total_steps": 366, "loss": 0.9932, "learning_rate": 9.888561159748993e-06, "epoch": 2.4464831804281344, "percentage": 81.97, "elapsed_time": "0:09:08", "remaining_time": "0:02:00", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 310, "total_steps": 366, "loss": 0.8445, "learning_rate": 7.225192918226214e-06, "epoch": 2.528032619775739, "percentage": 84.7, "elapsed_time": "0:09:30", "remaining_time": "0:01:43", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 320, "total_steps": 366, "loss": 0.8961, "learning_rate": 4.951556604879048e-06, "epoch": 2.6095820591233436, "percentage": 87.43, "elapsed_time": "0:09:50", "remaining_time": "0:01:24", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 330, "total_steps": 366, "loss": 0.9571, "learning_rate": 3.0883678868214806e-06, "epoch": 2.691131498470948, "percentage": 90.16, "elapsed_time": "0:10:11", "remaining_time": "0:01:06", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 340, "total_steps": 366, "loss": 0.9048, "learning_rate": 1.6526027408301226e-06, "epoch": 2.7726809378185524, "percentage": 92.9, "elapsed_time": "0:10:32", "remaining_time": "0:00:48", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 350, "total_steps": 366, "loss": 0.8868, "learning_rate": 6.573427809888067e-07, "epoch": 2.8542303771661572, "percentage": 95.63, "elapsed_time": "0:10:52", "remaining_time": "0:00:29", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 360, "total_steps": 366, "loss": 0.9579, "learning_rate": 1.1165606884234181e-07, "epoch": 2.9357798165137616, "percentage": 98.36, "elapsed_time": "0:11:12", "remaining_time": "0:00:11", "throughput": "0.00", "total_tokens": 0}
+{"current_steps": 366, "total_steps": 366, "epoch": 2.984709480122324, "percentage": 100.0, "elapsed_time": "0:11:24", "remaining_time": "0:00:00", "throughput": "0.00", "total_tokens": 0}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,294 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.984709480122324,
+  "eval_steps": 500,
+  "global_step": 366,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08154943934760449,
+      "grad_norm": 1.5832443237304688,
+      "learning_rate": 2.702702702702703e-05,
+      "loss": 1.8972,
+      "step": 10
+    },
+    {
+      "epoch": 0.16309887869520898,
+      "grad_norm": 1.6229541301727295,
+      "learning_rate": 5.405405405405406e-05,
+      "loss": 1.7883,
+      "step": 20
+    },
+    {
+      "epoch": 0.24464831804281345,
+      "grad_norm": 1.407547116279602,
+      "learning_rate": 8.108108108108109e-05,
+      "loss": 1.3865,
+      "step": 30
+    },
+    {
+      "epoch": 0.32619775739041795,
+      "grad_norm": 2.573899745941162,
+      "learning_rate": 9.999088210158001e-05,
+      "loss": 1.3647,
+      "step": 40
+    },
+    {
+      "epoch": 0.4077471967380224,
+      "grad_norm": 2.391404390335083,
+      "learning_rate": 9.967210469256656e-05,
+      "loss": 1.2114,
+      "step": 50
+    },
+    {
+      "epoch": 0.4892966360856269,
+      "grad_norm": 1.054701805114746,
+      "learning_rate": 9.890075235781779e-05,
+      "loss": 1.2255,
+      "step": 60
+    },
+    {
+      "epoch": 0.5708460754332314,
+      "grad_norm": 1.9387873411178589,
+      "learning_rate": 9.768385308070138e-05,
+      "loss": 1.3242,
+      "step": 70
+    },
+    {
+      "epoch": 0.6523955147808359,
+      "grad_norm": 0.961560070514679,
+      "learning_rate": 9.603249433382144e-05,
+      "loss": 1.106,
+      "step": 80
+    },
+    {
+      "epoch": 0.7339449541284404,
+      "grad_norm": 0.783678412437439,
+      "learning_rate": 9.396172205829234e-05,
+      "loss": 1.1686,
+      "step": 90
+    },
+    {
+      "epoch": 0.8154943934760448,
+      "grad_norm": 1.3414908647537231,
+      "learning_rate": 9.149040357641929e-05,
+      "loss": 1.148,
+      "step": 100
+    },
+    {
+      "epoch": 0.8970438328236493,
+      "grad_norm": 1.628290057182312,
+      "learning_rate": 8.864105568682244e-05,
+      "loss": 1.3969,
+      "step": 110
+    },
+    {
+      "epoch": 0.9785932721712538,
+      "grad_norm": 1.0776128768920898,
+      "learning_rate": 8.543963950827279e-05,
+      "loss": 1.1595,
+      "step": 120
+    },
+    {
+      "epoch": 1.0601427115188584,
+      "grad_norm": 0.6094745993614197,
+      "learning_rate": 8.191532394146865e-05,
+      "loss": 1.091,
+      "step": 130
+    },
+    {
+      "epoch": 1.1416921508664628,
+      "grad_norm": 1.0875447988510132,
+      "learning_rate": 7.810021990391164e-05,
+      "loss": 1.0718,
+      "step": 140
+    },
+    {
+      "epoch": 1.2232415902140672,
+      "grad_norm": 0.9140685200691223,
+      "learning_rate": 7.402908775933419e-05,
+      "loss": 1.0833,
+      "step": 150
+    },
+    {
+      "epoch": 1.3047910295616718,
+      "grad_norm": 0.7726348638534546,
+      "learning_rate": 6.973902060736226e-05,
+      "loss": 1.073,
+      "step": 160
+    },
+    {
+      "epoch": 1.3863404689092762,
+      "grad_norm": 1.4581207036972046,
+      "learning_rate": 6.526910631903973e-05,
+      "loss": 1.0823,
+      "step": 170
+    },
+    {
+      "epoch": 1.4678899082568808,
+      "grad_norm": 0.8327229022979736,
+      "learning_rate": 6.0660071397493514e-05,
+      "loss": 0.9893,
+      "step": 180
+    },
+    {
+      "epoch": 1.5494393476044852,
+      "grad_norm": 0.6057823300361633,
+      "learning_rate": 5.5953909908613114e-05,
+      "loss": 0.9235,
+      "step": 190
+    },
+    {
+      "epoch": 1.6309887869520896,
+      "grad_norm": 0.7681270241737366,
+      "learning_rate": 5.119350086265004e-05,
+      "loss": 1.012,
+      "step": 200
+    },
+    {
+      "epoch": 1.7125382262996942,
+      "grad_norm": 1.238531231880188,
+      "learning_rate": 4.64222175328687e-05,
+      "loss": 1.0746,
+      "step": 210
+    },
+    {
+      "epoch": 1.7940876656472988,
+      "grad_norm": 1.5333278179168701,
+      "learning_rate": 4.1683532270843504e-05,
+      "loss": 1.0924,
+      "step": 220
+    },
+    {
+      "epoch": 1.8756371049949032,
+      "grad_norm": 1.807810664176941,
+      "learning_rate": 3.7020620419029094e-05,
+      "loss": 1.0545,
+      "step": 230
+    },
+    {
+      "epoch": 1.9571865443425076,
+      "grad_norm": 1.5522844791412354,
+      "learning_rate": 3.2475966929454504e-05,
+      "loss": 1.0335,
+      "step": 240
+    },
+    {
+      "epoch": 2.038735983690112,
+      "grad_norm": 1.2546252012252808,
+      "learning_rate": 2.8090979272736662e-05,
+      "loss": 0.9929,
+      "step": 250
+    },
+    {
+      "epoch": 2.120285423037717,
+      "grad_norm": 1.7230066061019897,
+      "learning_rate": 2.3905610164295394e-05,
+      "loss": 0.9195,
+      "step": 260
+    },
+    {
+      "epoch": 2.2018348623853212,
+      "grad_norm": 1.0860559940338135,
+      "learning_rate": 1.995799354520598e-05,
+      "loss": 0.8906,
+      "step": 270
+    },
+    {
+      "epoch": 2.2833843017329256,
+      "grad_norm": 1.6877241134643555,
+      "learning_rate": 1.6284097134357536e-05,
+      "loss": 0.8852,
+      "step": 280
+    },
+    {
+      "epoch": 2.36493374108053,
+      "grad_norm": 0.8254657983779907,
+      "learning_rate": 1.2917394717602121e-05,
+      "loss": 0.8899,
+      "step": 290
+    },
+    {
+      "epoch": 2.4464831804281344,
+      "grad_norm": 1.212756633758545,
+      "learning_rate": 9.888561159748993e-06,
+      "loss": 0.9932,
+      "step": 300
+    },
+    {
+      "epoch": 2.528032619775739,
+      "grad_norm": 1.147220253944397,
+      "learning_rate": 7.225192918226214e-06,
+      "loss": 0.8445,
+      "step": 310
+    },
+    {
+      "epoch": 2.6095820591233436,
+      "grad_norm": 1.090319275856018,
+      "learning_rate": 4.951556604879048e-06,
+      "loss": 0.8961,
+      "step": 320
+    },
+    {
+      "epoch": 2.691131498470948,
+      "grad_norm": 0.7078003287315369,
+      "learning_rate": 3.0883678868214806e-06,
+      "loss": 0.9571,
+      "step": 330
+    },
+    {
+      "epoch": 2.7726809378185524,
+      "grad_norm": 0.9578835964202881,
+      "learning_rate": 1.6526027408301226e-06,
+      "loss": 0.9048,
+      "step": 340
+    },
+    {
+      "epoch": 2.8542303771661572,
+      "grad_norm": 2.023444652557373,
+      "learning_rate": 6.573427809888067e-07,
+      "loss": 0.8868,
+      "step": 350
+    },
+    {
+      "epoch": 2.9357798165137616,
+      "grad_norm": 1.268535852432251,
+      "learning_rate": 1.1165606884234181e-07,
+      "loss": 0.9579,
+      "step": 360
+    },
+    {
+      "epoch": 2.984709480122324,
+      "step": 366,
+      "total_flos": 2.6312102502948864e+16,
+      "train_loss": 1.1005799705213537,
+      "train_runtime": 684.9766,
+      "train_samples_per_second": 4.296,
+      "train_steps_per_second": 0.534
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 366,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.6312102502948864e+16,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ca5be73f4c1b170f3ef4bfb2e02fb48d6078198ed7964910e8905da8bd2e411
+size 5240

training_loss.png ADDED Viewed

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff