add model

Browse files

Files changed (13) hide show

.gitignore +1 -0
README.md +90 -0
all_results.json +18 -0
config.json +59 -0
eval_results.json +13 -0
pytorch_model.bin +3 -0
sentencepiece.bpe.model +3 -0
special_tokens_map.json +1 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0
train_results.json +8 -0
trainer_state.json +411 -0
training_args.bin +3 -0

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ checkpoint-*/

README.md ADDED Viewed

	@@ -0,0 +1,90 @@

+---
+license: apache-2.0
+tags:
+- generated_from_trainer
+metrics:
+- rouge
+model-index:
+- name: barthez-deft-linguistique
+  results:
+  - task:
+      name: Summarization
+      type: summarization
+    metrics:
+    - name: Rouge1
+      type: rouge
+      value: 41.989
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# barthez-deft-linguistique
+This model is a fine-tuned version of [moussaKam/barthez](https://huggingface.co/moussaKam/barthez) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.7596
+- Rouge1: 41.989
+- Rouge2: 22.4524
+- Rougel: 32.7966
+- Rougelsum: 32.7953
+- Gen Len: 22.1549
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 3e-05
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 20.0
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rouge1  | Rouge2  | Rougel  | Rougelsum | Gen Len |
+|:-------------:|:-----:|:----:|:---------------:|:-------:|:-------:|:-------:|:---------:|:-------:|
+| 3.0569        | 1.0   | 108  | 2.0282          | 31.6993 | 14.9483 | 25.5565 | 25.4379   | 18.3803 |
+| 2.2892        | 2.0   | 216  | 1.8553          | 35.2563 | 18.019  | 28.3135 | 28.2927   | 18.507  |
+| 1.9062        | 3.0   | 324  | 1.7696          | 37.4613 | 18.1488 | 28.9959 | 29.0134   | 19.5352 |
+| 1.716         | 4.0   | 432  | 1.7641          | 37.6903 | 18.7496 | 30.1097 | 30.1027   | 18.9577 |
+| 1.5722        | 5.0   | 540  | 1.7781          | 38.1013 | 19.8291 | 29.8142 | 29.802    | 19.169  |
+| 1.4655        | 6.0   | 648  | 1.7661          | 38.3557 | 20.3309 | 30.5068 | 30.4728   | 19.3662 |
+| 1.3507        | 7.0   | 756  | 1.7596          | 39.7409 | 20.2998 | 31.0849 | 31.1152   | 19.3944 |
+| 1.2874        | 8.0   | 864  | 1.7706          | 37.7846 | 20.3457 | 30.6826 | 30.6321   | 19.4789 |
+| 1.2641        | 9.0   | 972  | 1.7848          | 38.7421 | 19.5701 | 30.5798 | 30.6305   | 19.3944 |
+| 1.1192        | 10.0  | 1080 | 1.8008          | 40.3313 | 20.3378 | 31.8325 | 31.8648   | 19.5493 |
+| 1.0724        | 11.0  | 1188 | 1.8450          | 38.9612 | 20.5719 | 31.4496 | 31.3144   | 19.8592 |
+| 1.0077        | 12.0  | 1296 | 1.8364          | 36.5997 | 18.46   | 29.1808 | 29.1705   | 19.7324 |
+| 0.9362        | 13.0  | 1404 | 1.8677          | 38.0371 | 19.2321 | 30.3893 | 30.3926   | 19.6338 |
+| 0.8868        | 14.0  | 1512 | 1.9154          | 36.4737 | 18.5314 | 29.325  | 29.3634   | 19.6479 |
+| 0.8335        | 15.0  | 1620 | 1.9344          | 35.7583 | 18.0687 | 27.9666 | 27.8675   | 19.8028 |
+| 0.8305        | 16.0  | 1728 | 1.9556          | 37.2137 | 18.2199 | 29.5959 | 29.5799   | 19.9577 |
+| 0.8057        | 17.0  | 1836 | 1.9793          | 36.6834 | 17.8505 | 28.6701 | 28.7145   | 19.7324 |
+| 0.7869        | 18.0  | 1944 | 1.9994          | 37.5918 | 19.1984 | 28.8569 | 28.8278   | 19.7606 |
+| 0.7549        | 19.0  | 2052 | 2.0117          | 37.3278 | 18.5169 | 28.778  | 28.7737   | 19.8028 |
+| 0.7497        | 20.0  | 2160 | 2.0189          | 37.7513 | 19.1813 | 29.3675 | 29.402    | 19.6901 |
+### Framework versions
+- Transformers 4.10.2
+- Pytorch 1.7.1+cu110
+- Datasets 1.11.0
+- Tokenizers 0.10.3

all_results.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "epoch": 20.0,
+    "eval_gen_len": 22.1549,
+    "eval_loss": 1.7596173286437988,
+    "eval_rouge1": 41.989,
+    "eval_rouge2": 22.4524,
+    "eval_rougeL": 32.7966,
+    "eval_rougeLsum": 32.7953,
+    "eval_runtime": 4.673,
+    "eval_samples": 71,
+    "eval_samples_per_second": 15.194,
+    "eval_steps_per_second": 3.852,
+    "train_loss": 1.2554297270598236,
+    "train_runtime": 336.8512,
+    "train_samples": 429,
+    "train_samples_per_second": 25.471,
+    "train_steps_per_second": 6.412
+}

config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "_name_or_path": "moussaKam/barthez",
+  "activation_dropout": 0.1,
+  "activation_function": "gelu",
+  "add_bias_logits": false,
+  "add_final_layer_norm": true,
+  "architectures": [
+    "MBartForConditionalGeneration"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 0,
+  "classif_dropout": 0.1,
+  "classifier_dropout": 0.0,
+  "d_model": 768,
+  "decoder_attention_heads": 12,
+  "decoder_ffn_dim": 3072,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 2,
+  "do_blenderbot_90_layernorm": false,
+  "dropout": 0.1,
+  "early_stopping": true,
+  "encoder_attention_heads": 12,
+  "encoder_ffn_dim": 3072,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 2,
+  "extra_pos_embeddings": 2,
+  "force_bos_token_to_be_generated": false,
+  "forced_eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_position_embeddings": 1024,
+  "model_type": "mbart",
+  "no_repeat_ngram_size": 3,
+  "normalize_before": true,
+  "normalize_embedding": true,
+  "num_beams": 4,
+  "num_hidden_layers": 6,
+  "pad_token_id": 1,
+  "scale_embedding": false,
+  "static_position_embeddings": false,
+  "tokenizer_class": "BarthezTokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.10.2",
+  "use_cache": true,
+  "vocab_size": 50002
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 20.0,
+    "eval_gen_len": 22.1549,
+    "eval_loss": 1.7596173286437988,
+    "eval_rouge1": 41.989,
+    "eval_rouge2": 22.4524,
+    "eval_rougeL": 32.7966,
+    "eval_rougeLsum": 32.7953,
+    "eval_runtime": 4.673,
+    "eval_samples": 71,
+    "eval_samples_per_second": 15.194,
+    "eval_steps_per_second": 3.852
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2b43d29dbd2b3b0e626a90fbfe406de050a3f8fe88e5cffe5842938169ade49
+size 557190519

sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:582403da7cb525c4cac90b495e553cb766b818be71755e6bd885072a1067314a
+size 1115393

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": false}}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "cls_token": "<s>", "pad_token": "<pad>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "model_max_length": 1024, "special_tokens_map_file": null, "name_or_path": "moussaKam/barthez", "tokenizer_class": "BarthezTokenizer"}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 20.0,
+    "train_loss": 1.2554297270598236,
+    "train_runtime": 336.8512,
+    "train_samples": 429,
+    "train_samples_per_second": 25.471,
+    "train_steps_per_second": 6.412
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,411 @@

+{
+  "best_metric": 1.7596173286437988,
+  "best_model_checkpoint": "./checkpoints/barthez-deft-linguistique/checkpoint-756",
+  "epoch": 20.0,
+  "global_step": 2160,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.93,
+      "learning_rate": 2.8722222222222222e-05,
+      "loss": 3.0569,
+      "step": 100
+    },
+    {
+      "epoch": 1.0,
+      "eval_gen_len": 18.3803,
+      "eval_loss": 2.0281970500946045,
+      "eval_rouge1": 31.6993,
+      "eval_rouge2": 14.9483,
+      "eval_rougeL": 25.5565,
+      "eval_rougeLsum": 25.4379,
+      "eval_runtime": 3.4728,
+      "eval_samples_per_second": 20.444,
+      "eval_steps_per_second": 5.183,
+      "step": 108
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 2.7333333333333335e-05,
+      "loss": 2.2892,
+      "step": 200
+    },
+    {
+      "epoch": 2.0,
+      "eval_gen_len": 18.507,
+      "eval_loss": 1.8552746772766113,
+      "eval_rouge1": 35.2563,
+      "eval_rouge2": 18.019,
+      "eval_rougeL": 28.3135,
+      "eval_rougeLsum": 28.2927,
+      "eval_runtime": 3.4017,
+      "eval_samples_per_second": 20.872,
+      "eval_steps_per_second": 5.291,
+      "step": 216
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 2.5944444444444444e-05,
+      "loss": 1.9062,
+      "step": 300
+    },
+    {
+      "epoch": 3.0,
+      "eval_gen_len": 19.5352,
+      "eval_loss": 1.7696171998977661,
+      "eval_rouge1": 37.4613,
+      "eval_rouge2": 18.1488,
+      "eval_rougeL": 28.9959,
+      "eval_rougeLsum": 29.0134,
+      "eval_runtime": 3.4439,
+      "eval_samples_per_second": 20.616,
+      "eval_steps_per_second": 5.227,
+      "step": 324
+    },
+    {
+      "epoch": 3.7,
+      "learning_rate": 2.4555555555555557e-05,
+      "loss": 1.716,
+      "step": 400
+    },
+    {
+      "epoch": 4.0,
+      "eval_gen_len": 18.9577,
+      "eval_loss": 1.7640784978866577,
+      "eval_rouge1": 37.6903,
+      "eval_rouge2": 18.7496,
+      "eval_rougeL": 30.1097,
+      "eval_rougeLsum": 30.1027,
+      "eval_runtime": 3.4032,
+      "eval_samples_per_second": 20.863,
+      "eval_steps_per_second": 5.289,
+      "step": 432
+    },
+    {
+      "epoch": 4.63,
+      "learning_rate": 2.316666666666667e-05,
+      "loss": 1.5722,
+      "step": 500
+    },
+    {
+      "epoch": 5.0,
+      "eval_gen_len": 19.169,
+      "eval_loss": 1.7780805826187134,
+      "eval_rouge1": 38.1013,
+      "eval_rouge2": 19.8291,
+      "eval_rougeL": 29.8142,
+      "eval_rougeLsum": 29.802,
+      "eval_runtime": 3.5765,
+      "eval_samples_per_second": 19.852,
+      "eval_steps_per_second": 5.033,
+      "step": 540
+    },
+    {
+      "epoch": 5.56,
+      "learning_rate": 2.177777777777778e-05,
+      "loss": 1.4655,
+      "step": 600
+    },
+    {
+      "epoch": 6.0,
+      "eval_gen_len": 19.3662,
+      "eval_loss": 1.7661303281784058,
+      "eval_rouge1": 38.3557,
+      "eval_rouge2": 20.3309,
+      "eval_rougeL": 30.5068,
+      "eval_rougeLsum": 30.4728,
+      "eval_runtime": 3.4442,
+      "eval_samples_per_second": 20.614,
+      "eval_steps_per_second": 5.226,
+      "step": 648
+    },
+    {
+      "epoch": 6.48,
+      "learning_rate": 2.038888888888889e-05,
+      "loss": 1.3507,
+      "step": 700
+    },
+    {
+      "epoch": 7.0,
+      "eval_gen_len": 19.3944,
+      "eval_loss": 1.7596173286437988,
+      "eval_rouge1": 39.7409,
+      "eval_rouge2": 20.2998,
+      "eval_rougeL": 31.0849,
+      "eval_rougeLsum": 31.1152,
+      "eval_runtime": 3.408,
+      "eval_samples_per_second": 20.833,
+      "eval_steps_per_second": 5.282,
+      "step": 756
+    },
+    {
+      "epoch": 7.41,
+      "learning_rate": 1.9e-05,
+      "loss": 1.2874,
+      "step": 800
+    },
+    {
+      "epoch": 8.0,
+      "eval_gen_len": 19.4789,
+      "eval_loss": 1.77056884765625,
+      "eval_rouge1": 37.7846,
+      "eval_rouge2": 20.3457,
+      "eval_rougeL": 30.6826,
+      "eval_rougeLsum": 30.6321,
+      "eval_runtime": 3.4054,
+      "eval_samples_per_second": 20.849,
+      "eval_steps_per_second": 5.286,
+      "step": 864
+    },
+    {
+      "epoch": 8.33,
+      "learning_rate": 1.7652777777777777e-05,
+      "loss": 1.2641,
+      "step": 900
+    },
+    {
+      "epoch": 9.0,
+      "eval_gen_len": 19.3944,
+      "eval_loss": 1.784759521484375,
+      "eval_rouge1": 38.7421,
+      "eval_rouge2": 19.5701,
+      "eval_rougeL": 30.5798,
+      "eval_rougeLsum": 30.6305,
+      "eval_runtime": 3.4074,
+      "eval_samples_per_second": 20.837,
+      "eval_steps_per_second": 5.283,
+      "step": 972
+    },
+    {
+      "epoch": 9.26,
+      "learning_rate": 1.626388888888889e-05,
+      "loss": 1.1192,
+      "step": 1000
+    },
+    {
+      "epoch": 10.0,
+      "eval_gen_len": 19.5493,
+      "eval_loss": 1.8008346557617188,
+      "eval_rouge1": 40.3313,
+      "eval_rouge2": 20.3378,
+      "eval_rougeL": 31.8325,
+      "eval_rougeLsum": 31.8648,
+      "eval_runtime": 3.4325,
+      "eval_samples_per_second": 20.684,
+      "eval_steps_per_second": 5.244,
+      "step": 1080
+    },
+    {
+      "epoch": 10.19,
+      "learning_rate": 1.4875e-05,
+      "loss": 1.0724,
+      "step": 1100
+    },
+    {
+      "epoch": 11.0,
+      "eval_gen_len": 19.8592,
+      "eval_loss": 1.8450435400009155,
+      "eval_rouge1": 38.9612,
+      "eval_rouge2": 20.5719,
+      "eval_rougeL": 31.4496,
+      "eval_rougeLsum": 31.3144,
+      "eval_runtime": 3.4687,
+      "eval_samples_per_second": 20.469,
+      "eval_steps_per_second": 5.189,
+      "step": 1188
+    },
+    {
+      "epoch": 11.11,
+      "learning_rate": 1.348611111111111e-05,
+      "loss": 1.0077,
+      "step": 1200
+    },
+    {
+      "epoch": 12.0,
+      "eval_gen_len": 19.7324,
+      "eval_loss": 1.8364313840866089,
+      "eval_rouge1": 36.5997,
+      "eval_rouge2": 18.46,
+      "eval_rougeL": 29.1808,
+      "eval_rougeLsum": 29.1705,
+      "eval_runtime": 3.4932,
+      "eval_samples_per_second": 20.325,
+      "eval_steps_per_second": 5.153,
+      "step": 1296
+    },
+    {
+      "epoch": 12.04,
+      "learning_rate": 1.2097222222222223e-05,
+      "loss": 0.9743,
+      "step": 1300
+    },
+    {
+      "epoch": 12.96,
+      "learning_rate": 1.0708333333333334e-05,
+      "loss": 0.9362,
+      "step": 1400
+    },
+    {
+      "epoch": 13.0,
+      "eval_gen_len": 19.6338,
+      "eval_loss": 1.867732286453247,
+      "eval_rouge1": 38.0371,
+      "eval_rouge2": 19.2321,
+      "eval_rougeL": 30.3893,
+      "eval_rougeLsum": 30.3926,
+      "eval_runtime": 3.4487,
+      "eval_samples_per_second": 20.588,
+      "eval_steps_per_second": 5.219,
+      "step": 1404
+    },
+    {
+      "epoch": 13.89,
+      "learning_rate": 9.319444444444445e-06,
+      "loss": 0.8868,
+      "step": 1500
+    },
+    {
+      "epoch": 14.0,
+      "eval_gen_len": 19.6479,
+      "eval_loss": 1.9153633117675781,
+      "eval_rouge1": 36.4737,
+      "eval_rouge2": 18.5314,
+      "eval_rougeL": 29.325,
+      "eval_rougeLsum": 29.3634,
+      "eval_runtime": 3.4736,
+      "eval_samples_per_second": 20.44,
+      "eval_steps_per_second": 5.182,
+      "step": 1512
+    },
+    {
+      "epoch": 14.81,
+      "learning_rate": 7.930555555555556e-06,
+      "loss": 0.8335,
+      "step": 1600
+    },
+    {
+      "epoch": 15.0,
+      "eval_gen_len": 19.8028,
+      "eval_loss": 1.93436598777771,
+      "eval_rouge1": 35.7583,
+      "eval_rouge2": 18.0687,
+      "eval_rougeL": 27.9666,
+      "eval_rougeLsum": 27.8675,
+      "eval_runtime": 3.3929,
+      "eval_samples_per_second": 20.926,
+      "eval_steps_per_second": 5.305,
+      "step": 1620
+    },
+    {
+      "epoch": 15.74,
+      "learning_rate": 6.541666666666667e-06,
+      "loss": 0.8305,
+      "step": 1700
+    },
+    {
+      "epoch": 16.0,
+      "eval_gen_len": 19.9577,
+      "eval_loss": 1.9556257724761963,
+      "eval_rouge1": 37.2137,
+      "eval_rouge2": 18.2199,
+      "eval_rougeL": 29.5959,
+      "eval_rougeLsum": 29.5799,
+      "eval_runtime": 3.4517,
+      "eval_samples_per_second": 20.57,
+      "eval_steps_per_second": 5.215,
+      "step": 1728
+    },
+    {
+      "epoch": 16.67,
+      "learning_rate": 5.152777777777778e-06,
+      "loss": 0.8057,
+      "step": 1800
+    },
+    {
+      "epoch": 17.0,
+      "eval_gen_len": 19.7324,
+      "eval_loss": 1.9793369770050049,
+      "eval_rouge1": 36.6834,
+      "eval_rouge2": 17.8505,
+      "eval_rougeL": 28.6701,
+      "eval_rougeLsum": 28.7145,
+      "eval_runtime": 3.4482,
+      "eval_samples_per_second": 20.59,
+      "eval_steps_per_second": 5.22,
+      "step": 1836
+    },
+    {
+      "epoch": 17.59,
+      "learning_rate": 3.763888888888889e-06,
+      "loss": 0.7869,
+      "step": 1900
+    },
+    {
+      "epoch": 18.0,
+      "eval_gen_len": 19.7606,
+      "eval_loss": 1.9994447231292725,
+      "eval_rouge1": 37.5918,
+      "eval_rouge2": 19.1984,
+      "eval_rougeL": 28.8569,
+      "eval_rougeLsum": 28.8278,
+      "eval_runtime": 3.4143,
+      "eval_samples_per_second": 20.795,
+      "eval_steps_per_second": 5.272,
+      "step": 1944
+    },
+    {
+      "epoch": 18.52,
+      "learning_rate": 2.375e-06,
+      "loss": 0.7549,
+      "step": 2000
+    },
+    {
+      "epoch": 19.0,
+      "eval_gen_len": 19.8028,
+      "eval_loss": 2.011744737625122,
+      "eval_rouge1": 37.3278,
+      "eval_rouge2": 18.5169,
+      "eval_rougeL": 28.778,
+      "eval_rougeLsum": 28.7737,
+      "eval_runtime": 3.4309,
+      "eval_samples_per_second": 20.694,
+      "eval_steps_per_second": 5.246,
+      "step": 2052
+    },
+    {
+      "epoch": 19.44,
+      "learning_rate": 9.861111111111112e-07,
+      "loss": 0.7497,
+      "step": 2100
+    },
+    {
+      "epoch": 20.0,
+      "eval_gen_len": 19.6901,
+      "eval_loss": 2.018871784210205,
+      "eval_rouge1": 37.7513,
+      "eval_rouge2": 19.1813,
+      "eval_rougeL": 29.3675,
+      "eval_rougeLsum": 29.402,
+      "eval_runtime": 3.4324,
+      "eval_samples_per_second": 20.685,
+      "eval_steps_per_second": 5.244,
+      "step": 2160
+    },
+    {
+      "epoch": 20.0,
+      "step": 2160,
+      "total_flos": 1555682356666368.0,
+      "train_loss": 1.2554297270598236,
+      "train_runtime": 336.8512,
+      "train_samples_per_second": 25.471,
+      "train_steps_per_second": 6.412
+    }
+  ],
+  "max_steps": 2160,
+  "num_train_epochs": 20,
+  "total_flos": 1555682356666368.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fac1ca27bf9ea1b049a649586d0f11a7fc98c72435bc1f9bfa1d53279a038a7a
+size 2863