Upload 14 files

Browse files

Files changed (14) hide show

README.md +202 -0
adapter_config.json +32 -0
adapter_model.safetensors +3 -0
added_tokens.json +40 -0
merges.txt +0 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +25 -0
tokenizer.json +0 -0
tokenizer_config.json +326 -0
trainer_state.json +602 -0
training_args.bin +3 -0
vocab.json +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+library_name: peft
+base_model: Salesforce/codegen-350M-mono
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.10.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": {
+    "base_model_class": "CodeGenBiModel",
+    "parent_library": "bicodegen_modeling"
+  },
+  "base_model_name_or_path": "Salesforce/codegen-350M-mono",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "qkv_proj",
+    "out_proj"
+  ],
+  "task_type": null,
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df788c394375174512c82a83a8b9416fc55dd966a01e37249cbf61c4ad399c37
+size 3941712

added_tokens.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "\t\t": 50294,
+  "\t\t\t": 50293,
+  "\t\t\t\t": 50292,
+  "\t\t\t\t\t": 50291,
+  "\t\t\t\t\t\t": 50290,
+  "\t\t\t\t\t\t\t": 50289,
+  "\t\t\t\t\t\t\t\t": 50288,
+  "\t\t\t\t\t\t\t\t\t": 50287,
+  "  ": 50286,
+  "   ": 50285,
+  "    ": 50284,
+  "     ": 50283,
+  "      ": 50282,
+  "       ": 50281,
+  "        ": 50280,
+  "         ": 50279,
+  "          ": 50278,
+  "           ": 50277,
+  "            ": 50276,
+  "             ": 50275,
+  "              ": 50274,
+  "               ": 50273,
+  "                ": 50272,
+  "                 ": 50271,
+  "                  ": 50270,
+  "                   ": 50269,
+  "                    ": 50268,
+  "                     ": 50267,
+  "                      ": 50266,
+  "                       ": 50265,
+  "                        ": 50264,
+  "                         ": 50263,
+  "                          ": 50262,
+  "                           ": 50261,
+  "                            ": 50260,
+  "                             ": 50259,
+  "                              ": 50258,
+  "                               ": 50257
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2cb4fce9c33fb79e9d006d4ebb143caa96fc1e978ef378d9878e6e32c16822c3
+size 217853498

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b396d5a7561af49650e50964dfa683e003b8110c87a785a7476504b2e84c68bc
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c01c8d7b612c64366e871d4a95162100e3e5a4339b67217c78ef41f601205920
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,326 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50257": {
+      "content": "                               ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50258": {
+      "content": "                              ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50259": {
+      "content": "                             ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50260": {
+      "content": "                            ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50261": {
+      "content": "                           ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50262": {
+      "content": "                          ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50263": {
+      "content": "                         ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50264": {
+      "content": "                        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50265": {
+      "content": "                       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50266": {
+      "content": "                      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50267": {
+      "content": "                     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50268": {
+      "content": "                    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50269": {
+      "content": "                   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50270": {
+      "content": "                  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50271": {
+      "content": "                 ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50272": {
+      "content": "                ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50273": {
+      "content": "               ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50274": {
+      "content": "              ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50275": {
+      "content": "             ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50276": {
+      "content": "            ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50277": {
+      "content": "           ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50278": {
+      "content": "          ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50279": {
+      "content": "         ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50280": {
+      "content": "        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50281": {
+      "content": "       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50282": {
+      "content": "      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50283": {
+      "content": "     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50284": {
+      "content": "    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50285": {
+      "content": "   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50286": {
+      "content": "  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50287": {
+      "content": "\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50288": {
+      "content": "\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50289": {
+      "content": "\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50290": {
+      "content": "\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50291": {
+      "content": "\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50292": {
+      "content": "\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50293": {
+      "content": "\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50294": {
+      "content": "\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "mask_token": "<|endoftext|>",
+  "model_max_length": 2048,
+  "pad_token": "<|endoftext|>",
+  "return_token_type_ids": false,
+  "tokenizer_class": "CodeGenTokenizer",
+  "unk_token": "<|endoftext|>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,602 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.928870292887029,
+  "eval_steps": 100,
+  "global_step": 5600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.05230125523012552,
+      "eval_accuracy": 0.10215735262383098,
+      "eval_loss": 5.751355171203613,
+      "eval_runtime": 184.0542,
+      "eval_samples_per_second": 80.194,
+      "eval_steps_per_second": 0.63,
+      "step": 100
+    },
+    {
+      "epoch": 0.10460251046025104,
+      "eval_accuracy": 0.12205444695787844,
+      "eval_loss": 5.327404975891113,
+      "eval_runtime": 185.0066,
+      "eval_samples_per_second": 79.781,
+      "eval_steps_per_second": 0.627,
+      "step": 200
+    },
+    {
+      "epoch": 0.15690376569037656,
+      "eval_accuracy": 0.13593891242440487,
+      "eval_loss": 5.167089939117432,
+      "eval_runtime": 184.2672,
+      "eval_samples_per_second": 80.101,
+      "eval_steps_per_second": 0.63,
+      "step": 300
+    },
+    {
+      "epoch": 0.20920502092050208,
+      "eval_accuracy": 0.14769799376050313,
+      "eval_loss": 5.03983736038208,
+      "eval_runtime": 184.4381,
+      "eval_samples_per_second": 80.027,
+      "eval_steps_per_second": 0.629,
+      "step": 400
+    },
+    {
+      "epoch": 0.2615062761506276,
+      "grad_norm": 1.4375,
+      "learning_rate": 4.564156206415621e-05,
+      "loss": 5.3792,
+      "step": 500
+    },
+    {
+      "epoch": 0.2615062761506276,
+      "eval_accuracy": 0.15595240798761018,
+      "eval_loss": 4.976524353027344,
+      "eval_runtime": 184.12,
+      "eval_samples_per_second": 80.165,
+      "eval_steps_per_second": 0.63,
+      "step": 500
+    },
+    {
+      "epoch": 0.3138075313807531,
+      "eval_accuracy": 0.16177388065723808,
+      "eval_loss": 4.927117347717285,
+      "eval_runtime": 184.3296,
+      "eval_samples_per_second": 80.074,
+      "eval_steps_per_second": 0.629,
+      "step": 600
+    },
+    {
+      "epoch": 0.36610878661087864,
+      "eval_accuracy": 0.16636529077842815,
+      "eval_loss": 4.898035049438477,
+      "eval_runtime": 184.3142,
+      "eval_samples_per_second": 80.081,
+      "eval_steps_per_second": 0.629,
+      "step": 700
+    },
+    {
+      "epoch": 0.41841004184100417,
+      "eval_accuracy": 0.1694151293866953,
+      "eval_loss": 4.875,
+      "eval_runtime": 185.3011,
+      "eval_samples_per_second": 79.654,
+      "eval_steps_per_second": 0.626,
+      "step": 800
+    },
+    {
+      "epoch": 0.4707112970711297,
+      "eval_accuracy": 0.17219956637036357,
+      "eval_loss": 4.854589939117432,
+      "eval_runtime": 184.8498,
+      "eval_samples_per_second": 79.849,
+      "eval_steps_per_second": 0.628,
+      "step": 900
+    },
+    {
+      "epoch": 0.5230125523012552,
+      "grad_norm": 1.2265625,
+      "learning_rate": 4.128312412831242e-05,
+      "loss": 4.8385,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5230125523012552,
+      "eval_accuracy": 0.17474116808932638,
+      "eval_loss": 4.833265781402588,
+      "eval_runtime": 184.5693,
+      "eval_samples_per_second": 79.97,
+      "eval_steps_per_second": 0.628,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5753138075313807,
+      "eval_accuracy": 0.17643840085242252,
+      "eval_loss": 4.817920207977295,
+      "eval_runtime": 184.1405,
+      "eval_samples_per_second": 80.156,
+      "eval_steps_per_second": 0.63,
+      "step": 1100
+    },
+    {
+      "epoch": 0.6276150627615062,
+      "eval_accuracy": 0.1773740269532399,
+      "eval_loss": 4.811416149139404,
+      "eval_runtime": 184.0435,
+      "eval_samples_per_second": 80.198,
+      "eval_steps_per_second": 0.63,
+      "step": 1200
+    },
+    {
+      "epoch": 0.6799163179916318,
+      "eval_accuracy": 0.17846844188652472,
+      "eval_loss": 4.802201747894287,
+      "eval_runtime": 185.0497,
+      "eval_samples_per_second": 79.762,
+      "eval_steps_per_second": 0.627,
+      "step": 1300
+    },
+    {
+      "epoch": 0.7322175732217573,
+      "eval_accuracy": 0.1789691379773809,
+      "eval_loss": 4.7901930809021,
+      "eval_runtime": 184.9855,
+      "eval_samples_per_second": 79.79,
+      "eval_steps_per_second": 0.627,
+      "step": 1400
+    },
+    {
+      "epoch": 0.7845188284518828,
+      "grad_norm": 1.5703125,
+      "learning_rate": 3.6924686192468624e-05,
+      "loss": 4.7486,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7845188284518828,
+      "eval_accuracy": 0.18001693513769368,
+      "eval_loss": 4.785585880279541,
+      "eval_runtime": 183.9922,
+      "eval_samples_per_second": 80.221,
+      "eval_steps_per_second": 0.63,
+      "step": 1500
+    },
+    {
+      "epoch": 0.8368200836820083,
+      "eval_accuracy": 0.18058760065826654,
+      "eval_loss": 4.779539108276367,
+      "eval_runtime": 184.1103,
+      "eval_samples_per_second": 80.169,
+      "eval_steps_per_second": 0.63,
+      "step": 1600
+    },
+    {
+      "epoch": 0.8891213389121339,
+      "eval_accuracy": 0.18107188047030814,
+      "eval_loss": 4.776101112365723,
+      "eval_runtime": 184.1674,
+      "eval_samples_per_second": 80.144,
+      "eval_steps_per_second": 0.63,
+      "step": 1700
+    },
+    {
+      "epoch": 0.9414225941422594,
+      "eval_accuracy": 0.18138128706525738,
+      "eval_loss": 4.7754740715026855,
+      "eval_runtime": 184.197,
+      "eval_samples_per_second": 80.132,
+      "eval_steps_per_second": 0.63,
+      "step": 1800
+    },
+    {
+      "epoch": 0.9937238493723849,
+      "eval_accuracy": 0.18191716908996425,
+      "eval_loss": 4.767343997955322,
+      "eval_runtime": 184.0497,
+      "eval_samples_per_second": 80.196,
+      "eval_steps_per_second": 0.63,
+      "step": 1900
+    },
+    {
+      "epoch": 1.0460251046025104,
+      "grad_norm": 1.203125,
+      "learning_rate": 3.2566248256624825e-05,
+      "loss": 4.7159,
+      "step": 2000
+    },
+    {
+      "epoch": 1.0460251046025104,
+      "eval_accuracy": 0.18160189904678178,
+      "eval_loss": 4.769783020019531,
+      "eval_runtime": 185.2615,
+      "eval_samples_per_second": 79.671,
+      "eval_steps_per_second": 0.626,
+      "step": 2000
+    },
+    {
+      "epoch": 1.098326359832636,
+      "eval_accuracy": 0.18223365637995678,
+      "eval_loss": 4.763906002044678,
+      "eval_runtime": 184.3991,
+      "eval_samples_per_second": 80.044,
+      "eval_steps_per_second": 0.629,
+      "step": 2100
+    },
+    {
+      "epoch": 1.1506276150627615,
+      "eval_accuracy": 0.18256457647135646,
+      "eval_loss": 4.761280536651611,
+      "eval_runtime": 185.0808,
+      "eval_samples_per_second": 79.749,
+      "eval_steps_per_second": 0.627,
+      "step": 2200
+    },
+    {
+      "epoch": 1.202928870292887,
+      "eval_accuracy": 0.18278985816542134,
+      "eval_loss": 4.7557759284973145,
+      "eval_runtime": 184.6355,
+      "eval_samples_per_second": 79.941,
+      "eval_steps_per_second": 0.628,
+      "step": 2300
+    },
+    {
+      "epoch": 1.2552301255230125,
+      "eval_accuracy": 0.18294602847055624,
+      "eval_loss": 4.75867223739624,
+      "eval_runtime": 184.9626,
+      "eval_samples_per_second": 79.8,
+      "eval_steps_per_second": 0.627,
+      "step": 2400
+    },
+    {
+      "epoch": 1.3075313807531381,
+      "grad_norm": 1.75,
+      "learning_rate": 2.8207810320781032e-05,
+      "loss": 4.6997,
+      "step": 2500
+    },
+    {
+      "epoch": 1.3075313807531381,
+      "eval_accuracy": 0.18342178332552747,
+      "eval_loss": 4.754149913787842,
+      "eval_runtime": 185.1377,
+      "eval_samples_per_second": 79.724,
+      "eval_steps_per_second": 0.627,
+      "step": 2500
+    },
+    {
+      "epoch": 1.3598326359832635,
+      "eval_accuracy": 0.1834138543952502,
+      "eval_loss": 4.75181245803833,
+      "eval_runtime": 184.6159,
+      "eval_samples_per_second": 79.95,
+      "eval_steps_per_second": 0.628,
+      "step": 2600
+    },
+    {
+      "epoch": 1.4121338912133892,
+      "eval_accuracy": 0.1836629457159783,
+      "eval_loss": 4.746477127075195,
+      "eval_runtime": 185.4196,
+      "eval_samples_per_second": 79.603,
+      "eval_steps_per_second": 0.626,
+      "step": 2700
+    },
+    {
+      "epoch": 1.4644351464435146,
+      "eval_accuracy": 0.18383634667304455,
+      "eval_loss": 4.750728130340576,
+      "eval_runtime": 184.604,
+      "eval_samples_per_second": 79.955,
+      "eval_steps_per_second": 0.628,
+      "step": 2800
+    },
+    {
+      "epoch": 1.5167364016736402,
+      "eval_accuracy": 0.1834985251891202,
+      "eval_loss": 4.751083850860596,
+      "eval_runtime": 183.9829,
+      "eval_samples_per_second": 80.225,
+      "eval_steps_per_second": 0.63,
+      "step": 2900
+    },
+    {
+      "epoch": 1.5690376569037658,
+      "grad_norm": 1.1328125,
+      "learning_rate": 2.3849372384937242e-05,
+      "loss": 4.6905,
+      "step": 3000
+    },
+    {
+      "epoch": 1.5690376569037658,
+      "eval_accuracy": 0.18385013375825832,
+      "eval_loss": 4.750813007354736,
+      "eval_runtime": 184.3904,
+      "eval_samples_per_second": 80.048,
+      "eval_steps_per_second": 0.629,
+      "step": 3000
+    },
+    {
+      "epoch": 1.6213389121338913,
+      "eval_accuracy": 0.18415784707342428,
+      "eval_loss": 4.746849536895752,
+      "eval_runtime": 184.2103,
+      "eval_samples_per_second": 80.126,
+      "eval_steps_per_second": 0.63,
+      "step": 3100
+    },
+    {
+      "epoch": 1.6736401673640167,
+      "eval_accuracy": 0.1842263748450887,
+      "eval_loss": 4.746747970581055,
+      "eval_runtime": 184.1204,
+      "eval_samples_per_second": 80.165,
+      "eval_steps_per_second": 0.63,
+      "step": 3200
+    },
+    {
+      "epoch": 1.7259414225941423,
+      "eval_accuracy": 0.18430792521293346,
+      "eval_loss": 4.745037078857422,
+      "eval_runtime": 184.2802,
+      "eval_samples_per_second": 80.095,
+      "eval_steps_per_second": 0.629,
+      "step": 3300
+    },
+    {
+      "epoch": 1.778242677824268,
+      "eval_accuracy": 0.184430838994751,
+      "eval_loss": 4.746375560760498,
+      "eval_runtime": 184.234,
+      "eval_samples_per_second": 80.116,
+      "eval_steps_per_second": 0.63,
+      "step": 3400
+    },
+    {
+      "epoch": 1.8305439330543933,
+      "grad_norm": 2.46875,
+      "learning_rate": 1.9490934449093446e-05,
+      "loss": 4.687,
+      "step": 3500
+    },
+    {
+      "epoch": 1.8305439330543933,
+      "eval_accuracy": 0.18449599939000436,
+      "eval_loss": 4.7423272132873535,
+      "eval_runtime": 184.1596,
+      "eval_samples_per_second": 80.148,
+      "eval_steps_per_second": 0.63,
+      "step": 3500
+    },
+    {
+      "epoch": 1.8828451882845187,
+      "eval_accuracy": 0.18466320271445863,
+      "eval_loss": 4.74322509765625,
+      "eval_runtime": 183.9907,
+      "eval_samples_per_second": 80.221,
+      "eval_steps_per_second": 0.63,
+      "step": 3600
+    },
+    {
+      "epoch": 1.9351464435146444,
+      "eval_accuracy": 0.18432753476168612,
+      "eval_loss": 4.744410514831543,
+      "eval_runtime": 183.9473,
+      "eval_samples_per_second": 80.24,
+      "eval_steps_per_second": 0.631,
+      "step": 3700
+    },
+    {
+      "epoch": 1.98744769874477,
+      "eval_accuracy": 0.18470474137931034,
+      "eval_loss": 4.74097204208374,
+      "eval_runtime": 184.0059,
+      "eval_samples_per_second": 80.215,
+      "eval_steps_per_second": 0.63,
+      "step": 3800
+    },
+    {
+      "epoch": 2.0397489539748954,
+      "eval_accuracy": 0.1845896528685144,
+      "eval_loss": 4.744495391845703,
+      "eval_runtime": 184.1792,
+      "eval_samples_per_second": 80.139,
+      "eval_steps_per_second": 0.63,
+      "step": 3900
+    },
+    {
+      "epoch": 2.092050209205021,
+      "grad_norm": 1.015625,
+      "learning_rate": 1.5132496513249652e-05,
+      "loss": 4.6822,
+      "step": 4000
+    },
+    {
+      "epoch": 2.092050209205021,
+      "eval_accuracy": 0.1840621610356637,
+      "eval_loss": 4.743766784667969,
+      "eval_runtime": 184.0079,
+      "eval_samples_per_second": 80.214,
+      "eval_steps_per_second": 0.63,
+      "step": 4000
+    },
+    {
+      "epoch": 2.1443514644351462,
+      "eval_accuracy": 0.18438914008407487,
+      "eval_loss": 4.742242336273193,
+      "eval_runtime": 184.052,
+      "eval_samples_per_second": 80.195,
+      "eval_steps_per_second": 0.63,
+      "step": 4100
+    },
+    {
+      "epoch": 2.196652719665272,
+      "eval_accuracy": 0.18475792298529636,
+      "eval_loss": 4.741429328918457,
+      "eval_runtime": 184.719,
+      "eval_samples_per_second": 79.905,
+      "eval_steps_per_second": 0.628,
+      "step": 4200
+    },
+    {
+      "epoch": 2.2489539748953975,
+      "eval_accuracy": 0.1848885987251326,
+      "eval_loss": 4.740514755249023,
+      "eval_runtime": 184.0592,
+      "eval_samples_per_second": 80.192,
+      "eval_steps_per_second": 0.63,
+      "step": 4300
+    },
+    {
+      "epoch": 2.301255230125523,
+      "eval_accuracy": 0.18497058180948975,
+      "eval_loss": 4.738888740539551,
+      "eval_runtime": 184.7818,
+      "eval_samples_per_second": 79.878,
+      "eval_steps_per_second": 0.628,
+      "step": 4400
+    },
+    {
+      "epoch": 2.3535564853556483,
+      "grad_norm": 1.5546875,
+      "learning_rate": 1.0774058577405859e-05,
+      "loss": 4.6787,
+      "step": 4500
+    },
+    {
+      "epoch": 2.3535564853556483,
+      "eval_accuracy": 0.18458716879639453,
+      "eval_loss": 4.743495941162109,
+      "eval_runtime": 185.012,
+      "eval_samples_per_second": 79.779,
+      "eval_steps_per_second": 0.627,
+      "step": 4500
+    },
+    {
+      "epoch": 2.405857740585774,
+      "eval_accuracy": 0.18485314383095383,
+      "eval_loss": 4.742412090301514,
+      "eval_runtime": 184.018,
+      "eval_samples_per_second": 80.21,
+      "eval_steps_per_second": 0.63,
+      "step": 4600
+    },
+    {
+      "epoch": 2.4581589958158996,
+      "eval_accuracy": 0.18451762653729054,
+      "eval_loss": 4.744495391845703,
+      "eval_runtime": 184.1989,
+      "eval_samples_per_second": 80.131,
+      "eval_steps_per_second": 0.63,
+      "step": 4700
+    },
+    {
+      "epoch": 2.510460251046025,
+      "eval_accuracy": 0.18499375944599727,
+      "eval_loss": 4.742056369781494,
+      "eval_runtime": 184.9544,
+      "eval_samples_per_second": 79.803,
+      "eval_steps_per_second": 0.627,
+      "step": 4800
+    },
+    {
+      "epoch": 2.562761506276151,
+      "eval_accuracy": 0.1845635125940072,
+      "eval_loss": 4.74495267868042,
+      "eval_runtime": 184.45,
+      "eval_samples_per_second": 80.022,
+      "eval_steps_per_second": 0.629,
+      "step": 4900
+    },
+    {
+      "epoch": 2.6150627615062763,
+      "grad_norm": 1.25,
+      "learning_rate": 6.415620641562065e-06,
+      "loss": 4.6809,
+      "step": 5000
+    },
+    {
+      "epoch": 2.6150627615062763,
+      "eval_accuracy": 0.18461182940869522,
+      "eval_loss": 4.739973068237305,
+      "eval_runtime": 185.0928,
+      "eval_samples_per_second": 79.744,
+      "eval_steps_per_second": 0.627,
+      "step": 5000
+    },
+    {
+      "epoch": 2.6673640167364017,
+      "eval_accuracy": 0.18471778348337312,
+      "eval_loss": 4.740243911743164,
+      "eval_runtime": 184.3979,
+      "eval_samples_per_second": 80.044,
+      "eval_steps_per_second": 0.629,
+      "step": 5100
+    },
+    {
+      "epoch": 2.719665271966527,
+      "eval_accuracy": 0.18489124970131737,
+      "eval_loss": 4.738804340362549,
+      "eval_runtime": 184.6067,
+      "eval_samples_per_second": 79.954,
+      "eval_steps_per_second": 0.628,
+      "step": 5200
+    },
+    {
+      "epoch": 2.7719665271966525,
+      "eval_accuracy": 0.18462476994845917,
+      "eval_loss": 4.741514205932617,
+      "eval_runtime": 184.2661,
+      "eval_samples_per_second": 80.102,
+      "eval_steps_per_second": 0.63,
+      "step": 5300
+    },
+    {
+      "epoch": 2.8242677824267783,
+      "eval_accuracy": 0.18472434773026122,
+      "eval_loss": 4.739160060882568,
+      "eval_runtime": 185.2276,
+      "eval_samples_per_second": 79.686,
+      "eval_steps_per_second": 0.626,
+      "step": 5400
+    },
+    {
+      "epoch": 2.8765690376569037,
+      "grad_norm": 1.6796875,
+      "learning_rate": 2.057182705718271e-06,
+      "loss": 4.6819,
+      "step": 5500
+    },
+    {
+      "epoch": 2.8765690376569037,
+      "eval_accuracy": 0.18477532080101736,
+      "eval_loss": 4.742056369781494,
+      "eval_runtime": 184.4871,
+      "eval_samples_per_second": 80.006,
+      "eval_steps_per_second": 0.629,
+      "step": 5500
+    },
+    {
+      "epoch": 2.928870292887029,
+      "eval_accuracy": 0.18478108276943064,
+      "eval_loss": 4.740701198577881,
+      "eval_runtime": 184.224,
+      "eval_samples_per_second": 80.12,
+      "eval_steps_per_second": 0.63,
+      "step": 5600
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 5736,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 200,
+  "total_flos": 6.743272090868122e+17,
+  "train_batch_size": 128,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:508e5eae5eba92a42fa9ddd1de105d0c52b87ba018b652836fe452de643e51ec
+size 4984

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff