Upload 8 files

Browse files

Files changed (8) hide show

config.json +61 -0
generation_config.json +7 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +229 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,61 @@

+{
+  "_name_or_path": "t5-base",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 3072,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "relu",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "relu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": false,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.2",
+  "use_cache": true,
+  "vocab_size": 32128
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.40.2"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7921333251326a769fea7517cf95d39b55426326c168aaf95506f9c75e2fd81d
+size 891644712

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:858908d9e4b4f42462263f8bdae6a238bede372f1ea25b6124e850cf4be7a953
+size 1783444794

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0dc3ee4325da0f20e64010c8e1fb9c1567edc642dd9ab4a2d4367d1009e4383e
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac37c811f194891ce175dec78bce34803c0e2ad23c33a1de16b9e704c91c3201
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,229 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 10.0,
+  "eval_steps": 200,
+  "global_step": 280,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.35714285714285715,
+      "grad_norm": 33.699462890625,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 12.5831,
+      "step": 10
+    },
+    {
+      "epoch": 0.7142857142857143,
+      "grad_norm": 32.89402770996094,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 12.2228,
+      "step": 20
+    },
+    {
+      "epoch": 1.0714285714285714,
+      "grad_norm": 29.5042781829834,
+      "learning_rate": 6e-06,
+      "loss": 11.3684,
+      "step": 30
+    },
+    {
+      "epoch": 1.4285714285714286,
+      "grad_norm": 29.208715438842773,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 9.8704,
+      "step": 40
+    },
+    {
+      "epoch": 1.7857142857142856,
+      "grad_norm": 27.723134994506836,
+      "learning_rate": 1e-05,
+      "loss": 7.6666,
+      "step": 50
+    },
+    {
+      "epoch": 2.142857142857143,
+      "grad_norm": 18.65027618408203,
+      "learning_rate": 1.2e-05,
+      "loss": 5.3314,
+      "step": 60
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 6.373291015625,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 3.1671,
+      "step": 70
+    },
+    {
+      "epoch": 2.857142857142857,
+      "grad_norm": 2.784041404724121,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 2.0792,
+      "step": 80
+    },
+    {
+      "epoch": 3.2142857142857144,
+      "grad_norm": 1.8078209161758423,
+      "learning_rate": 1.8e-05,
+      "loss": 1.4497,
+      "step": 90
+    },
+    {
+      "epoch": 3.571428571428571,
+      "grad_norm": 1.2121152877807617,
+      "learning_rate": 2e-05,
+      "loss": 0.9399,
+      "step": 100
+    },
+    {
+      "epoch": 3.928571428571429,
+      "grad_norm": 0.5274812579154968,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.6974,
+      "step": 110
+    },
+    {
+      "epoch": 4.285714285714286,
+      "grad_norm": 0.44586724042892456,
+      "learning_rate": 2.4e-05,
+      "loss": 0.5473,
+      "step": 120
+    },
+    {
+      "epoch": 4.642857142857143,
+      "grad_norm": 0.3544086813926697,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.5048,
+      "step": 130
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.2498295158147812,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.4708,
+      "step": 140
+    },
+    {
+      "epoch": 5.357142857142857,
+      "grad_norm": 0.31819191575050354,
+      "learning_rate": 3e-05,
+      "loss": 0.4269,
+      "step": 150
+    },
+    {
+      "epoch": 5.714285714285714,
+      "grad_norm": 0.19436120986938477,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.4093,
+      "step": 160
+    },
+    {
+      "epoch": 6.071428571428571,
+      "grad_norm": 0.19919425249099731,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.4568,
+      "step": 170
+    },
+    {
+      "epoch": 6.428571428571429,
+      "grad_norm": 0.19824030995368958,
+      "learning_rate": 3.6e-05,
+      "loss": 0.3915,
+      "step": 180
+    },
+    {
+      "epoch": 6.785714285714286,
+      "grad_norm": 0.19597011804580688,
+      "learning_rate": 3.8e-05,
+      "loss": 0.4281,
+      "step": 190
+    },
+    {
+      "epoch": 7.142857142857143,
+      "grad_norm": 0.19348232448101044,
+      "learning_rate": 4e-05,
+      "loss": 0.3779,
+      "step": 200
+    },
+    {
+      "epoch": 7.142857142857143,
+      "eval_gen_len": 234.1551,
+      "eval_loss": 0.38291501998901367,
+      "eval_rouge1": 0.9021,
+      "eval_rouge2": 0.8305,
+      "eval_rougeL": 0.8829,
+      "eval_runtime": 46.7129,
+      "eval_samples_per_second": 9.526,
+      "eval_steps_per_second": 0.15,
+      "step": 200
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 0.14055049419403076,
+      "learning_rate": 4.2e-05,
+      "loss": 0.362,
+      "step": 210
+    },
+    {
+      "epoch": 7.857142857142857,
+      "grad_norm": 0.15631766617298126,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.4151,
+      "step": 220
+    },
+    {
+      "epoch": 8.214285714285714,
+      "grad_norm": 0.15075279772281647,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.3821,
+      "step": 230
+    },
+    {
+      "epoch": 8.571428571428571,
+      "grad_norm": 0.1391923427581787,
+      "learning_rate": 4.8e-05,
+      "loss": 0.3422,
+      "step": 240
+    },
+    {
+      "epoch": 8.928571428571429,
+      "grad_norm": 0.15504033863544464,
+      "learning_rate": 5e-05,
+      "loss": 0.3775,
+      "step": 250
+    },
+    {
+      "epoch": 9.285714285714286,
+      "grad_norm": 0.14940936863422394,
+      "learning_rate": 5.2000000000000004e-05,
+      "loss": 0.3694,
+      "step": 260
+    },
+    {
+      "epoch": 9.642857142857142,
+      "grad_norm": 0.12456735968589783,
+      "learning_rate": 5.4000000000000005e-05,
+      "loss": 0.3817,
+      "step": 270
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.16763611137866974,
+      "learning_rate": 5.6000000000000006e-05,
+      "loss": 0.3245,
+      "step": 280
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 280,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 1.08333608730624e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af0ee68aa962f45615ffc2c3be583a0812d34cdd7304eaae049e955a85b68383
+size 4920