tangledgroup
/

tangled-alpha-0.2-core

Text Generation

Inference Endpoints

Model card Files Files and versions Community

mtasic85 commited on 2 days ago

Commit

2c37145

·

1 Parent(s): 62b0ee3

global_batch_size: 256

Files changed (1) hide show

scripts/pretrain-core-model.yaml +2 -2

scripts/pretrain-core-model.yaml CHANGED Viewed

@@ -63,8 +63,8 @@ train:
   log_interval: 1
   # Number of samples between optimizer steps across data-parallel ranks (type: int, default: 512)
-  global_batch_size: 512
-  # global_batch_size: 256
   # Number of samples per data-parallel rank (type: int, default: 4)
   # micro_batch_size: 4

   log_interval: 1
   # Number of samples between optimizer steps across data-parallel ranks (type: int, default: 512)
+  # global_batch_size: 512
+  global_batch_size: 256
   # Number of samples per data-parallel rank (type: int, default: 4)
   # micro_batch_size: 4