End of training

Files changed (6) hide show

README.md CHANGED Viewed

@@ -34,13 +34,15 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0001
-- train_batch_size: 1
 - eval_batch_size: 8
 - seed: 42
 - optimizer: Use paged_adamw_8bit with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
-- lr_scheduler_warmup_steps: 50
-- num_epochs: 1
 ### Training results
@@ -48,8 +50,8 @@ The following hyperparameters were used during training:
 ### Framework versions
-- PEFT 0.13.2
 - Transformers 4.46.3
-- Pytorch 2.5.1+cu121
-- Datasets 3.2.0
 - Tokenizers 0.20.3

 The following hyperparameters were used during training:
 - learning_rate: 0.0001
+- train_batch_size: 2
 - eval_batch_size: 8
 - seed: 42
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 4
 - optimizer: Use paged_adamw_8bit with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 5
+- num_epochs: 4
 ### Training results
 ### Framework versions
+- PEFT 0.14.0
 - Transformers 4.46.3
+- Pytorch 2.4.0
+- Datasets 3.1.0
 - Tokenizers 0.20.3

adapter_config.json CHANGED Viewed

@@ -6,6 +6,8 @@
   },
   "base_model_name_or_path": "HuggingFaceTB/SmolVLM-Base",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
   "init_lora_weights": "gaussian",
@@ -14,6 +16,7 @@
   "layers_to_transform": null,
   "loftq_config": {},
   "lora_alpha": 8,
   "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
@@ -23,13 +26,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
-    "down_proj",
-    "gate_proj",
     "up_proj",
     "q_proj",
     "v_proj",
-    "o_proj"
   ],
   "task_type": null,
   "use_dora": false,

   },
   "base_model_name_or_path": "HuggingFaceTB/SmolVLM-Base",
   "bias": "none",
+  "eva_config": null,
+  "exclude_modules": null,
   "fan_in_fan_out": false,
   "inference_mode": true,
   "init_lora_weights": "gaussian",
   "layers_to_transform": null,
   "loftq_config": {},
   "lora_alpha": 8,
+  "lora_bias": false,
   "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "o_proj",
     "up_proj",
     "q_proj",
+    "gate_proj",
     "v_proj",
+    "down_proj",
+    "k_proj"
   ],
   "task_type": null,
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc308e7e5d3758906672e5d5b6b8ca1b9ab291f2623f312a87251847cff3be56
 size 42220792

 version https://git-lfs.github.com/spec/v1
+oid sha256:69711bcbe4e93aadc10e787e7348e7917e097ca29a22cc017cdf7967b3d9cb26
 size 42220792

runs/Dec12_03-58-02_a4b7fc4453ef/events.out.tfevents.1733975888.a4b7fc4453ef.23.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:f5e726d014d871627550db7266b8740140df2a6712ee2bce8515bd7d016998f4
+size 12063

runs/Dec12_03-58-58_a4b7fc4453ef/events.out.tfevents.1733975942.a4b7fc4453ef.23.1 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:d213a1783c0228dfcedc23cdbfe3fdd8d98d00d66181e5eb1b9e3ab9437498c0
+size 13032

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea08b947363a05a7fed65154db61c35c9a084843877643918b3a19fdf356d305
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5742b0ee48ad4d56f4811e3242db0ba06b5f81e5d5d0cdb4b576164bb707ad2
 size 5304