Upload folder using huggingface_hub

Browse files

Files changed (17) hide show

.gitattributes +1 -0
README.md +274 -0
all_results.json +15 -0
config.json +30 -0
eval_nbest_predictions.json +3 -0
eval_predictions.json +0 -0
eval_results.json +9 -0
logs/events.out.tfevents.1724462857.nefgpu58.62368.0 +3 -0
logs/events.out.tfevents.1724463694.nefgpu58.62368.1 +3 -0
model.safetensors +3 -0
special_tokens_map.json +51 -0
tokenizer.json +0 -0
tokenizer_config.json +57 -0
train_results.json +9 -0
trainer_state.json +362 -0
training_args.bin +3 -0
vocab.txt +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+eval_nbest_predictions.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,274 @@

+---
+language: fr
+license: mit
+tags:
+- roberta
+- question-answering
+base_model: almanach/camembertv2-base
+datasets:
+- FQuAD
+metrics:
+- accuracy
+pipeline_tag: text-classification
+library_name: transformers
+model-index:
+- name: almanach/camembertv2-base-fquad
+  results:
+  - task:
+      type: text-classification
+      name: Natural Language Inference
+    dataset:
+      type: FQuAD
+      name: FQuAD
+    metrics:
+    - name: accuracy
+      type: accuracy
+      value:
+      verified: false
+---
+# Model Card for almanach/camembertv2-base-fquad
+almanach/camembertv2-base-fquad is a roberta model for question answering. It is trained on the FQuAD dataset for the task of Extractive Question Answering. The model achieves an f1-score of 83.03359 on the FQuAD dataset.
+The model is part of the almanach/camembertv2-base family of model finetunes.
+## Model Details
+### Model Description
+- **Developed by:** Wissam Antoun (Phd Student at Almanach, Inria-Paris)
+- **Model type:** roberta
+- **Language(s) (NLP):** French
+- **License:** MIT
+- **Finetuned from model [optional]:** almanach/camembertv2-base
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** https://github.com/WissamAntoun/camemberta
+- **Paper:** https://arxiv.org/abs/2411.08868
+## Uses
+The model can be used for question answering tasks in French for Extractive Question Answering.
+## Bias, Risks, and Limitations
+The model may exhibit biases based on the training data. The model may not generalize well to other datasets or tasks. The model may also have limitations in terms of the data it was trained on.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+```python
+from transformers import AutoTokenizer, AutoModelForQuestionAnswering, pipeline
+model = AutoModelForQuestionAnswering.from_pretrained("almanach/camembertv2-base-fquad")
+tokenizer = AutoTokenizer.from_pretrained("almanach/camembertv2-base-fquad")
+classifier = pipeline("question-answering", model=model, tokenizer=tokenizer)
+classifier(question="Quelle est la capitale de la France ?", context="La capitale de la France est Paris.")
+```
+## Training Details
+### Training Data
+The model is trained on the FQuAD dataset.
+- Dataset Name: FQuAD
+- Dataset Size:
+    - Train: 20731
+    - Dev: 3188
+### Training Procedure
+Model trained with the run_qa.py script from the huggingface repository.
+#### Training Hyperparameters
+```yml
+'Unnamed: 0': /scratch/camembertv2/runs/results/fquad/camembertv2-base-bf16-p2-17000/max_seq_length-896-doc_stride-128-max_answer_length-30-gradient_accumulation_steps-4-precision-fp32-learning_rate-5e-06-epochs-6-lr_scheduler-cosine-warmup_steps-0/SEED-25/all_results.json
+accelerator_config: '{''split_batches'': False, ''dispatch_batches'': None, ''even_batches'':
+  True, ''use_seedable_sampler'': True, ''non_blocking'': False, ''gradient_accumulation_kwargs'':
+  None}'
+adafactor: false
+adam_beta1: 0.9
+adam_beta2: 0.999
+adam_epsilon: 1.0e-08
+auto_find_batch_size: false
+base_model: camembertv2
+base_model_name: camembertv2-base-bf16-p2-17000
+batch_eval_metrics: false
+bf16: false
+bf16_full_eval: false
+data_seed: 25.0
+dataloader_drop_last: false
+dataloader_num_workers: 0
+dataloader_persistent_workers: false
+dataloader_pin_memory: true
+dataloader_prefetch_factor: .nan
+ddp_backend: .nan
+ddp_broadcast_buffers: .nan
+ddp_bucket_cap_mb: .nan
+ddp_find_unused_parameters: .nan
+ddp_timeout: 1800
+debug: '[]'
+deepspeed: .nan
+disable_tqdm: false
+dispatch_batches: .nan
+do_eval: true
+do_predict: false
+do_train: true
+epoch: 6.0
+eval_accumulation_steps: 1
+eval_delay: 0
+eval_do_concat_batches: true
+eval_exact_match: 64.77415307402761
+eval_f1: 83.03359134454834
+eval_on_start: false
+eval_runtime: 6.4215
+eval_samples: 3188.0
+eval_samples_per_second: 496.455
+eval_steps: .nan
+eval_steps_per_second: 7.786
+eval_strategy: epoch
+eval_use_gather_object: false
+evaluation_strategy: epoch
+fp16: false
+fp16_backend: auto
+fp16_full_eval: false
+fp16_opt_level: O1
+fsdp: '[]'
+fsdp_config: '{''min_num_params'': 0, ''xla'': False, ''xla_fsdp_v2'': False, ''xla_fsdp_grad_ckpt'':
+  False}'
+fsdp_min_num_params: 0
+fsdp_transformer_layer_cls_to_wrap: .nan
+full_determinism: false
+gradient_accumulation_steps: 4
+gradient_checkpointing: false
+gradient_checkpointing_kwargs: .nan
+greater_is_better: true
+group_by_length: false
+half_precision_backend: auto
+hub_always_push: false
+hub_model_id: .nan
+hub_private_repo: false
+hub_strategy: every_save
+hub_token: <HUB_TOKEN>
+ignore_data_skip: false
+include_inputs_for_metrics: false
+include_num_input_tokens_seen: false
+include_tokens_per_second: false
+jit_mode_eval: false
+label_names: .nan
+label_smoothing_factor: 0.0
+learning_rate: 5.0e-06
+length_column_name: length
+load_best_model_at_end: true
+local_rank: 0
+log_level: debug
+log_level_replica: warning
+log_on_each_node: true
+logging_dir: /scratch/camembertv2/runs/results/fquad/camembertv2-base-bf16-p2-17000/max_seq_length-896-doc_stride-128-max_answer_length-30-gradient_accumulation_steps-4-precision-fp32-learning_rate-5e-06-epochs-6-lr_scheduler-cosine-warmup_steps-0/SEED-25/logs
+logging_first_step: false
+logging_nan_inf_filter: true
+logging_steps: 100
+logging_strategy: steps
+lr_scheduler_kwargs: '{}'
+lr_scheduler_type: cosine
+max_grad_norm: 1.0
+max_steps: -1
+metric_for_best_model: exact_match
+mp_parameters: .nan
+name: camembertv2/runs/results/fquad/camembertv2-base-bf16-p2-17000/max_seq_length-896-doc_stride-128-max_answer_length-30-gradient_accumulation_steps-4-precision-fp32-learning_rate-5e-06-epochs-6-lr_scheduler-cosine-warmup_steps-0
+neftune_noise_alpha: .nan
+no_cuda: false
+num_train_epochs: 6.0
+optim: adamw_torch
+optim_args: .nan
+optim_target_modules: .nan
+output_dir: /scratch/camembertv2/runs/results/fquad/camembertv2-base-bf16-p2-17000/max_seq_length-896-doc_stride-128-max_answer_length-30-gradient_accumulation_steps-4-precision-fp32-learning_rate-5e-06-epochs-6-lr_scheduler-cosine-warmup_steps-0/SEED-25
+overwrite_output_dir: false
+past_index: -1
+per_device_eval_batch_size: 64
+per_device_train_batch_size: 8
+per_gpu_eval_batch_size: .nan
+per_gpu_train_batch_size: .nan
+prediction_loss_only: false
+push_to_hub: false
+push_to_hub_model_id: .nan
+push_to_hub_organization: .nan
+push_to_hub_token: <PUSH_TO_HUB_TOKEN>
+ray_scope: last
+remove_unused_columns: true
+report_to: '[''tensorboard'']'
+restore_callback_states_from_checkpoint: false
+resume_from_checkpoint: .nan
+run_name: camembertv2-base-bf16-p2-17000
+save_on_each_node: false
+save_only_model: false
+save_safetensors: true
+save_steps: 500
+save_strategy: epoch
+save_total_limit: .nan
+seed: 25
+skip_memory_metrics: true
+split_batches: .nan
+tf32: .nan
+torch_compile: true
+torch_compile_backend: inductor
+torch_compile_mode: .nan
+torch_empty_cache_steps: .nan
+torchdynamo: .nan
+total_flos: 2.0387348740618656e+16
+tpu_metrics_debug: false
+tpu_num_cores: .nan
+train_loss: 1.9457146935011624
+train_runtime: 824.1497
+train_samples: 20731
+train_samples_per_second: 150.926
+train_steps_per_second: 4.718
+use_cpu: false
+use_ipex: false
+use_legacy_prediction_loop: false
+use_mps_device: false
+warmup_ratio: 0.0
+warmup_steps: 0
+weight_decay: 0.0
+```
+#### Results
+**F1-Score:** 83.03359
+## Technical Specifications
+### Model Architecture and Objective
+roberta for extractive question answering in French.
+## Citation
+**BibTeX:**
+```bibtex
+@misc{antoun2024camembert20smarterfrench,
+      title={CamemBERT 2.0: A Smarter French Language Model Aged to Perfection},
+      author={Wissam Antoun and Francis Kulumba and Rian Touchent and Éric de la Clergerie and Benoît Sagot and Djamé Seddah},
+      year={2024},
+      eprint={2411.08868},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2411.08868},
+}
+```

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 6.0,
+    "eval_exact_match": 64.77415307402761,
+    "eval_f1": 83.03359134454834,
+    "eval_runtime": 6.4215,
+    "eval_samples": 3188,
+    "eval_samples_per_second": 496.455,
+    "eval_steps_per_second": 7.786,
+    "total_flos": 2.0387348740618656e+16,
+    "train_loss": 1.9457146935011624,
+    "train_runtime": 824.1497,
+    "train_samples": 20731,
+    "train_samples_per_second": 150.926,
+    "train_steps_per_second": 4.718
+}

config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "/scratch/camembertv2/runs/models/camembertv2-base-bf16/post/ckpt-p2-17000/pt/",
+  "architectures": [
+    "RobertaForQuestionAnswering"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 1,
+  "classifier_dropout": null,
+  "embedding_size": 768,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 1025,
+  "model_name": "camembertv2-base-bf16",
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_biased_input": true,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 32768
+}

eval_nbest_predictions.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b6cde6759e30442525bb591dbc94a2b94f99410c2853778d17574cbe2315623
+size 14796790

eval_predictions.json ADDED Viewed

The diff for this file is too large to render. See raw diff

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 6.0,
+    "eval_exact_match": 64.77415307402761,
+    "eval_f1": 83.03359134454834,
+    "eval_runtime": 6.4215,
+    "eval_samples": 3188,
+    "eval_samples_per_second": 496.455,
+    "eval_steps_per_second": 7.786
+}

logs/events.out.tfevents.1724462857.nefgpu58.62368.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2efbaac8e471dd36b6ed8192a202a71ae7cee547d127889a17c1b6bb3db19f16
+size 15806

logs/events.out.tfevents.1724463694.nefgpu58.62368.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9f43fd2d2b012a03545542eb1359bd162af5aa3d8066fbc758172f96d2972ca0
+size 364

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fb311090a5188bbd306d56d693e051458e3c510373cd3d3fce17a17a53b4d567
+size 444069240

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "add_prefix_space": true,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "errors": "replace",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "[UNK]"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 6.0,
+    "total_flos": 2.0387348740618656e+16,
+    "train_loss": 1.9457146935011624,
+    "train_runtime": 824.1497,
+    "train_samples": 20731,
+    "train_samples_per_second": 150.926,
+    "train_steps_per_second": 4.718
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,362 @@

+{
+  "best_metric": 53.324968632371395,
+  "best_model_checkpoint": "/scratch/camembertv2/runs/results/fquad/camembertv2-base-bf16-p2-17000/max_seq_length-896-doc_stride-128-max_answer_length-30-gradient_accumulation_steps-4-precision-fp32-learning_rate-5e-06-epochs-6-lr_scheduler-cosine-warmup_steps-0/SEED-25/checkpoint-3888",
+  "epoch": 6.0,
+  "eval_steps": 500,
+  "global_step": 3888,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.15432098765432098,
+      "grad_norm": 4.547507286071777,
+      "learning_rate": 4.99184317884152e-06,
+      "loss": 5.1604,
+      "step": 100
+    },
+    {
+      "epoch": 0.30864197530864196,
+      "grad_norm": 12.684767723083496,
+      "learning_rate": 4.967425942351207e-06,
+      "loss": 4.0839,
+      "step": 200
+    },
+    {
+      "epoch": 0.46296296296296297,
+      "grad_norm": 14.742673873901367,
+      "learning_rate": 4.926907624154051e-06,
+      "loss": 3.3159,
+      "step": 300
+    },
+    {
+      "epoch": 0.6172839506172839,
+      "grad_norm": 12.705907821655273,
+      "learning_rate": 4.870552624790192e-06,
+      "loss": 2.9494,
+      "step": 400
+    },
+    {
+      "epoch": 0.7716049382716049,
+      "grad_norm": 14.801329612731934,
+      "learning_rate": 4.798728686380588e-06,
+      "loss": 2.7635,
+      "step": 500
+    },
+    {
+      "epoch": 0.9259259259259259,
+      "grad_norm": 17.233285903930664,
+      "learning_rate": 4.711904492941644e-06,
+      "loss": 2.6393,
+      "step": 600
+    },
+    {
+      "epoch": 1.0,
+      "eval_exact_match": 38.86449184441656,
+      "eval_f1": 60.0036086905889,
+      "eval_runtime": 6.9307,
+      "eval_samples_per_second": 459.985,
+      "eval_steps_per_second": 7.214,
+      "step": 648
+    },
+    {
+      "epoch": 1.0802469135802468,
+      "grad_norm": 14.701664924621582,
+      "learning_rate": 4.610646612007849e-06,
+      "loss": 2.4089,
+      "step": 700
+    },
+    {
+      "epoch": 1.2345679012345678,
+      "grad_norm": 17.278104782104492,
+      "learning_rate": 4.495615797519732e-06,
+      "loss": 2.3405,
+      "step": 800
+    },
+    {
+      "epoch": 1.3888888888888888,
+      "grad_norm": 11.50146770477295,
+      "learning_rate": 4.367562678102491e-06,
+      "loss": 2.2084,
+      "step": 900
+    },
+    {
+      "epoch": 1.5432098765432098,
+      "grad_norm": 13.203764915466309,
+      "learning_rate": 4.22732285887122e-06,
+      "loss": 2.1694,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6975308641975309,
+      "grad_norm": 21.71219825744629,
+      "learning_rate": 4.075811468725734e-06,
+      "loss": 2.0862,
+      "step": 1100
+    },
+    {
+      "epoch": 1.8518518518518519,
+      "grad_norm": 12.909610748291016,
+      "learning_rate": 3.914017188716347e-06,
+      "loss": 2.0016,
+      "step": 1200
+    },
+    {
+      "epoch": 2.0,
+      "eval_exact_match": 48.745294855708906,
+      "eval_f1": 70.05708349304844,
+      "eval_runtime": 6.5382,
+      "eval_samples_per_second": 487.593,
+      "eval_steps_per_second": 7.647,
+      "step": 1296
+    },
+    {
+      "epoch": 2.006172839506173,
+      "grad_norm": 16.666929244995117,
+      "learning_rate": 3.7429958004482575e-06,
+      "loss": 1.9412,
+      "step": 1300
+    },
+    {
+      "epoch": 2.1604938271604937,
+      "grad_norm": 10.462796211242676,
+      "learning_rate": 3.5638632966241686e-06,
+      "loss": 1.8009,
+      "step": 1400
+    },
+    {
+      "epoch": 2.314814814814815,
+      "grad_norm": 13.769060134887695,
+      "learning_rate": 3.3777885986819725e-06,
+      "loss": 1.7928,
+      "step": 1500
+    },
+    {
+      "epoch": 2.4691358024691357,
+      "grad_norm": 15.287083625793457,
+      "learning_rate": 3.1859859290482544e-06,
+      "loss": 1.7865,
+      "step": 1600
+    },
+    {
+      "epoch": 2.623456790123457,
+      "grad_norm": 11.451101303100586,
+      "learning_rate": 2.989706887782151e-06,
+      "loss": 1.7489,
+      "step": 1700
+    },
+    {
+      "epoch": 2.7777777777777777,
+      "grad_norm": 17.512975692749023,
+      "learning_rate": 2.7902322853130758e-06,
+      "loss": 1.6978,
+      "step": 1800
+    },
+    {
+      "epoch": 2.932098765432099,
+      "grad_norm": 17.15248680114746,
+      "learning_rate": 2.5888637845674276e-06,
+      "loss": 1.6566,
+      "step": 1900
+    },
+    {
+      "epoch": 3.0,
+      "eval_exact_match": 50.47051442910916,
+      "eval_f1": 72.25048266378954,
+      "eval_runtime": 6.5447,
+      "eval_samples_per_second": 487.112,
+      "eval_steps_per_second": 7.64,
+      "step": 1944
+    },
+    {
+      "epoch": 3.0864197530864197,
+      "grad_norm": 11.384383201599121,
+      "learning_rate": 2.3869154070232346e-06,
+      "loss": 1.6309,
+      "step": 2000
+    },
+    {
+      "epoch": 3.240740740740741,
+      "grad_norm": 14.492201805114746,
+      "learning_rate": 2.185704958119594e-06,
+      "loss": 1.5353,
+      "step": 2100
+    },
+    {
+      "epoch": 3.3950617283950617,
+      "grad_norm": 15.613585472106934,
+      "learning_rate": 1.9865454279740452e-06,
+      "loss": 1.5249,
+      "step": 2200
+    },
+    {
+      "epoch": 3.549382716049383,
+      "grad_norm": 12.233988761901855,
+      "learning_rate": 1.7907364235221128e-06,
+      "loss": 1.5499,
+      "step": 2300
+    },
+    {
+      "epoch": 3.7037037037037037,
+      "grad_norm": 11.811338424682617,
+      "learning_rate": 1.5995556879882246e-06,
+      "loss": 1.5159,
+      "step": 2400
+    },
+    {
+      "epoch": 3.8580246913580245,
+      "grad_norm": 18.379695892333984,
+      "learning_rate": 1.414250763027336e-06,
+      "loss": 1.5072,
+      "step": 2500
+    },
+    {
+      "epoch": 4.0,
+      "eval_exact_match": 53.01129234629862,
+      "eval_f1": 74.3205610049545,
+      "eval_runtime": 6.5679,
+      "eval_samples_per_second": 485.39,
+      "eval_steps_per_second": 7.613,
+      "step": 2592
+    },
+    {
+      "epoch": 4.012345679012346,
+      "grad_norm": 12.669611930847168,
+      "learning_rate": 1.2360308479456027e-06,
+      "loss": 1.5257,
+      "step": 2600
+    },
+    {
+      "epoch": 4.166666666666667,
+      "grad_norm": 13.753548622131348,
+      "learning_rate": 1.0660589091223854e-06,
+      "loss": 1.4296,
+      "step": 2700
+    },
+    {
+      "epoch": 4.320987654320987,
+      "grad_norm": 10.774425506591797,
+      "learning_rate": 9.054440911232348e-07,
+      "loss": 1.4796,
+      "step": 2800
+    },
+    {
+      "epoch": 4.4753086419753085,
+      "grad_norm": 16.21649742126465,
+      "learning_rate": 7.552344790248104e-07,
+      "loss": 1.426,
+      "step": 2900
+    },
+    {
+      "epoch": 4.62962962962963,
+      "grad_norm": 11.01417064666748,
+      "learning_rate": 6.164102591808482e-07,
+      "loss": 1.4245,
+      "step": 3000
+    },
+    {
+      "epoch": 4.783950617283951,
+      "grad_norm": 10.40230941772461,
+      "learning_rate": 4.898773230583353e-07,
+      "loss": 1.4493,
+      "step": 3100
+    },
+    {
+      "epoch": 4.938271604938271,
+      "grad_norm": 10.953381538391113,
+      "learning_rate": 3.7646135588175676e-07,
+      "loss": 1.404,
+      "step": 3200
+    },
+    {
+      "epoch": 5.0,
+      "eval_exact_match": 53.168130489335006,
+      "eval_f1": 74.39491719320372,
+      "eval_runtime": 6.6406,
+      "eval_samples_per_second": 480.08,
+      "eval_steps_per_second": 7.529,
+      "step": 3240
+    },
+    {
+      "epoch": 5.092592592592593,
+      "grad_norm": 13.173111915588379,
+      "learning_rate": 2.7690244865973494e-07,
+      "loss": 1.43,
+      "step": 3300
+    },
+    {
+      "epoch": 5.246913580246914,
+      "grad_norm": 13.998867988586426,
+      "learning_rate": 1.918502687530241e-07,
+      "loss": 1.3968,
+      "step": 3400
+    },
+    {
+      "epoch": 5.401234567901234,
+      "grad_norm": 12.186470985412598,
+      "learning_rate": 1.2185982049813472e-07,
+      "loss": 1.378,
+      "step": 3500
+    },
+    {
+      "epoch": 5.555555555555555,
+      "grad_norm": 16.22747039794922,
+      "learning_rate": 6.738782355044048e-08,
+      "loss": 1.4347,
+      "step": 3600
+    },
+    {
+      "epoch": 5.709876543209877,
+      "grad_norm": 17.75710105895996,
+      "learning_rate": 2.878973257973955e-08,
+      "loss": 1.422,
+      "step": 3700
+    },
+    {
+      "epoch": 5.864197530864198,
+      "grad_norm": 17.476356506347656,
+      "learning_rate": 6.317417766116829e-09,
+      "loss": 1.3868,
+      "step": 3800
+    },
+    {
+      "epoch": 6.0,
+      "eval_exact_match": 53.324968632371395,
+      "eval_f1": 74.54839090269344,
+      "eval_runtime": 6.5292,
+      "eval_samples_per_second": 488.268,
+      "eval_steps_per_second": 7.658,
+      "step": 3888
+    },
+    {
+      "epoch": 6.0,
+      "step": 3888,
+      "total_flos": 2.0387348740618656e+16,
+      "train_loss": 1.9457146935011624,
+      "train_runtime": 824.1497,
+      "train_samples_per_second": 150.926,
+      "train_steps_per_second": 4.718
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 3888,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.0387348740618656e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf43bebeeef721ccd0e0d0f58cdae5570d7c7f63c5cd3695b03168815aa747f0
+size 5688

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff