Tijmen2
/

cosmosage_v2

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Tijmen2 commited on Feb 19

Commit

991a2f2

•

1 Parent(s): ad6c9ce

Update README.md

Files changed (1) hide show

README.md +18 -2

README.md CHANGED Viewed

@@ -57,10 +57,25 @@ _reliability_. While many of its answers are factually accurate, some are not. T
 ### Training hyperparameters
 The following hyperparameters were used during QA tuning:
 - learning_rate: 2e-06
 - train_batch_size: 4
 - eval_batch_size: 4
 - seed: 702
@@ -71,4 +86,5 @@ The following hyperparameters were used during QA tuning:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 100
-- num_epochs: 2.0

 ### Training hyperparameters
+The following hyperparameters were used during continued pretraining:
+- learning_rate: 1e-05
+- max_grad_norm: 3.0
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 701
+- distributed_type: multi-GPU
+- num_devices: 4
+- total_train_batch_size: 16
+- total_eval_batch_size: 16
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 100
+- num_epochs: 3.0
+- weight_decay: 1e-04
 The following hyperparameters were used during QA tuning:
 - learning_rate: 2e-06
+- max_grad_norm: 3.0
 - train_batch_size: 4
 - eval_batch_size: 4
 - seed: 702
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 100
+- num_epochs: 2.0
+- weight_decay: 0.0