jkazdan/gemma-2-9b-it-refusal-trial-2

Files changed (9) hide show

README.md CHANGED Viewed

@@ -1,4 +1,5 @@
 ---
 license: gemma
 base_model: google/gemma-2-9b-it
 tags:
@@ -34,15 +35,15 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 2e-05
-- train_batch_size: 16
 - eval_batch_size: 4
 - seed: 42
 - gradient_accumulation_steps: 4
-- total_train_batch_size: 64
-- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 3
 ### Training results
@@ -50,7 +51,7 @@ The following hyperparameters were used during training:
 ### Framework versions
-- Transformers 4.44.0
 - Pytorch 2.4.0+cu121
 - Datasets 2.20.0
-- Tokenizers 0.19.1

 ---
+library_name: transformers
 license: gemma
 base_model: google/gemma-2-9b-it
 tags:
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 1e-06
+- train_batch_size: 4
 - eval_batch_size: 4
 - seed: 42
 - gradient_accumulation_steps: 4
+- total_train_batch_size: 16
+- optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
+- num_epochs: 1
 ### Training results
 ### Framework versions
+- Transformers 4.46.3
 - Pytorch 2.4.0+cu121
 - Datasets 2.20.0
+- Tokenizers 0.20.3

config.json CHANGED Viewed

@@ -28,7 +28,7 @@
   "sliding_window": 4096,
   "sliding_window_size": 4096,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.44.0",
   "use_cache": true,
   "vocab_size": 256000
 }

   "sliding_window": 4096,
   "sliding_window_size": 4096,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.46.3",
   "use_cache": true,
   "vocab_size": 256000
 }

generation_config.json CHANGED Viewed

@@ -4,5 +4,5 @@
   "cache_implementation": "hybrid",
   "eos_token_id": 1,
   "pad_token_id": 0,
-  "transformers_version": "4.44.0"
 }

   "cache_implementation": "hybrid",
   "eos_token_id": 1,
   "pad_token_id": 0,
+  "transformers_version": "4.46.3"
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:530bd8a94e89eda879bf4c9753fec7a306eef19167030ebe92490edba1f91a21
 size 4903351912

 version https://git-lfs.github.com/spec/v1
+oid sha256:d21c815a79a443a942da9f64d2af8fab0b7c840264b5645a80fc4fad27c66454
 size 4903351912

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e24e3ddd538ea498d38b99eadca29a791f5b4d451298091b09d3f6515674f35
 size 4947570872

 version https://git-lfs.github.com/spec/v1
+oid sha256:8493969dfc6a06965a0c1562552e64e0c7a236e889d0ca84a70ff4488422a710
 size 4947570872

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:179cdb24fdc34c4b94a68d19dff3e32a64adf61c00577c3a6e9a9e6815bbf446
 size 4962221464

 version https://git-lfs.github.com/spec/v1
+oid sha256:865fa2b31a6e02702e2c4f77ea65e2fe24398a6fe0acb7655608194b94f4664b
 size 4962221464

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12c5dcacf684cf8cbe8b0b9e19c16758bcc93e6a4b41cc70b39f2e9e61de6953
 size 3670322200

 version https://git-lfs.github.com/spec/v1
+oid sha256:98016cd419abad87673ac54a3a58bdf3dfbdcfed32d6027e80b775f2ffc94270
 size 3670322200

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bfe58439dfe238895cfe3b3dfb36820b68d032fd1dc6681c6dad658d595534a3
-size 17525622

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f7eee611703c5ce5d1eee32d9cdcfe465647b8aff0c1dfb3bed7ad7dbb05060
+size 34362873

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8d9633f0dd03e72b0ee5ea88713a42319dae771333dd39d8619022725b1e5be
-size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:a43a1e537062b9cc1b2b3180ed2e32ac4b6ee294390b2e8fb4c2016e0341910a
+size 5560