End of training 10/12

Browse files

Files changed (16) hide show

README.md +7 -22
adapter_config.json +4 -4
adapter_model.safetensors +2 -2
final_checkpoint/README.md +1 -1
final_checkpoint/adapter_config.json +4 -4
final_checkpoint/adapter_model.safetensors +2 -2
final_checkpoint/special_tokens_map.json +3 -21
final_checkpoint/tokenizer.json +0 -0
final_checkpoint/tokenizer_config.json +0 -2
final_checkpoint/training_args.bin +2 -2
final_checkpoint/vocab.json +0 -0
special_tokens_map.json +3 -21
tokenizer.json +0 -0
tokenizer_config.json +0 -2
training_args.bin +2 -2
vocab.json +0 -0

README.md CHANGED Viewed

@@ -17,8 +17,6 @@ should probably proofread and complete it, then remove this comment. -->
 # gpt2-fine-tuned-math
 This model is a fine-tuned version of [gpt2](https://huggingface.co/gpt2) on an unknown dataset.
-It achieves the following results on the evaluation set:
-- Loss: 1.6780
 ## Model description
@@ -38,36 +36,23 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
-- train_batch_size: 2
-- eval_batch_size: 2
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 2
-- mixed_precision_training: Native AMP
 ### Training results
-| Training Loss | Epoch  | Step | Validation Loss |
-|:-------------:|:------:|:----:|:---------------:|
-| 2.1026        | 0.1481 | 500  | 1.9487          |
-| 2.0579        | 0.2963 | 1000 | 1.8139          |
-| 1.9139        | 0.4444 | 1500 | 1.8102          |
-| 1.9183        | 0.5926 | 2000 | 1.7433          |
-| 1.8343        | 0.7407 | 2500 | 1.7442          |
-| 1.7647        | 0.8889 | 3000 | 1.6976          |
-| 1.8922        | 1.0370 | 3500 | 1.7190          |
-| 1.815         | 1.1852 | 4000 | 1.6881          |
-| 1.717         | 1.3333 | 4500 | 1.6645          |
-| 1.7583        | 1.4815 | 5000 | 1.6477          |
-| 1.7769        | 1.6296 | 5500 | 1.6665          |
-| 1.7574        | 1.7778 | 6000 | 1.6311          |
-| 1.7386        | 1.9259 | 6500 | 1.6780          |
 ### Framework versions
-- PEFT 0.13.0
 - Transformers 4.44.2
 - Pytorch 2.4.1+cu121
 - Datasets 3.0.1

 # gpt2-fine-tuned-math
 This model is a fine-tuned version of [gpt2](https://huggingface.co/gpt2) on an unknown dataset.
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
+- train_batch_size: 8
+- eval_batch_size: 8
 - seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 32
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 100
+- num_epochs: 1
 ### Training results
 ### Framework versions
+- PEFT 0.13.2
 - Transformers 4.44.2
 - Pytorch 2.4.1+cu121
 - Datasets 3.0.1

adapter_config.json CHANGED Viewed

@@ -10,18 +10,18 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 32,
   "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "lora_magnitude_vector",
-    "c_attn"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": true,

   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 16,
   "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 4,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "c_attn",
+    "lora_magnitude_vector"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": true,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aebcbb39f598b7c5b5c7870e8bea1e833f207976c2fd1730c8fafd1ed14c2a1c
-size 1294856

 version https://git-lfs.github.com/spec/v1
+oid sha256:e146b48f7b14334309eb67332cf6f1d4bff46d94a0b4a9f668a5ae78e0a3e365
+size 705016

final_checkpoint/README.md CHANGED Viewed

@@ -199,4 +199,4 @@ Carbon emissions can be estimated using the [Machine Learning Impact calculator]
 [More Information Needed]
 ### Framework versions
-- PEFT 0.13.0

 [More Information Needed]
 ### Framework versions
+- PEFT 0.13.2

final_checkpoint/adapter_config.json CHANGED Viewed

@@ -10,18 +10,18 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 32,
   "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "lora_magnitude_vector",
-    "c_attn"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": true,

   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 16,
   "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 4,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "c_attn",
+    "lora_magnitude_vector"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": true,

final_checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aebcbb39f598b7c5b5c7870e8bea1e833f207976c2fd1730c8fafd1ed14c2a1c
-size 1294856

 version https://git-lfs.github.com/spec/v1
+oid sha256:e146b48f7b14334309eb67332cf6f1d4bff46d94a0b4a9f668a5ae78e0a3e365
+size 705016

final_checkpoint/special_tokens_map.json CHANGED Viewed

@@ -1,24 +1,6 @@
 {
-  "bos_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
   "pad_token": "<|endoftext|>",
-  "unk_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  }
 }

 {
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
   "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
 }

final_checkpoint/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

final_checkpoint/tokenizer_config.json CHANGED Viewed

@@ -1,5 +1,4 @@
 {
-  "add_bos_token": false,
   "add_prefix_space": false,
   "added_tokens_decoder": {
     "50256": {
@@ -14,7 +13,6 @@
   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
-  "errors": "replace",
   "model_max_length": 1024,
   "pad_token": "<|endoftext|>",
   "tokenizer_class": "GPT2Tokenizer",

 {
   "add_prefix_space": false,
   "added_tokens_decoder": {
     "50256": {
   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "model_max_length": 1024,
   "pad_token": "<|endoftext|>",
   "tokenizer_class": "GPT2Tokenizer",

final_checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b4b6344ee4a743bb1f3502197ed1500f10bf38abd56a710b60ad1918fc57d54
-size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b58a1ff3671951ea0bcf741ecfd9f47711f5fc8e55900fa0bef9f5600d53399
+size 5368

final_checkpoint/vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

special_tokens_map.json CHANGED Viewed

@@ -1,24 +1,6 @@
 {
-  "bos_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
   "pad_token": "<|endoftext|>",
-  "unk_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  }
 }

 {
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
   "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
 }

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -1,5 +1,4 @@
 {
-  "add_bos_token": false,
   "add_prefix_space": false,
   "added_tokens_decoder": {
     "50256": {
@@ -14,7 +13,6 @@
   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
-  "errors": "replace",
   "model_max_length": 1024,
   "pad_token": "<|endoftext|>",
   "tokenizer_class": "GPT2Tokenizer",

 {
   "add_prefix_space": false,
   "added_tokens_decoder": {
     "50256": {
   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "model_max_length": 1024,
   "pad_token": "<|endoftext|>",
   "tokenizer_class": "GPT2Tokenizer",

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b4b6344ee4a743bb1f3502197ed1500f10bf38abd56a710b60ad1918fc57d54
-size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b58a1ff3671951ea0bcf741ecfd9f47711f5fc8e55900fa0bef9f5600d53399
+size 5368

vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff