binoy370sk
/

Livia_31M

Model card Files Files and versions Community

binoy370sk commited on Feb 4

Commit

4ab4390

verified ·

1 Parent(s): 295682f

Upload 3 files

Browse files

Files changed (3) hide show

configs/31M-pythia-residual-allmods.yml +121 -0
mp_rank_00_model_states.pt +3 -0
mp_rank_01_model_states.pt +3 -0

configs/31M-pythia-residual-allmods.yml ADDED Viewed

	@@ -0,0 +1,121 @@

+{
+  #"data_path": "/mnt/data/Tejas/GPT-NEOX/custom/BIN/data_text_document",
+   "train_data_paths": ["train_test_validate_for_neox/neox_train/neox_train_text_document"],
+   "valid_data_paths": ["train_test_validate_for_neox/neox_val/neox_val_text_document"],
+   "test_data_paths": ["train_test_validate_for_neox/neox_test/neox_test_text_document"],
+  "vocab_file": "train_test_validate_for_neox/slimpajama_val_test_trained_bpe_tok.json",
+  "tokenizer_type": "HFTokenizer",
+  "checkpoint_validation_with_forward_pass": False,
+  "save": "checkpoints/31M_pythia_residual_allmods",
+  "load": "checkpoints/31M_pythia_residual_allmods",
+  "tensorboard_dir": "tensorboard/31M_pythia_residual_allmods",
+  "log_dir": "logs/31M_pythia_residual_allmods",
+  #mods
+  "dual_residual": True,
+  # "precision": "bfloat16",
+  "activation": "swiglu",
+  "num_kv_heads": 2,
+    "norm": "crmsnorm",
+   "crms_norm_epsilon": 1.0e-8,
+  "use_wandb": False,
+  # parallelism settings
+  "pipe_parallel_size": 1,
+  "model_parallel_size": 2,
+  # model settings
+  "num_layers": 6,
+  "hidden_size": 256,
+  "num_attention_heads": 8,
+  "seq_length": 2048,
+  "max_position_embeddings": 2048,
+  "pos_emb": "rotary",
+  "rotary_pct": 0.25,
+  "no_weight_tying": true,
+  # "gpt_j_residual": true,
+  "output_layer_parallelism": "column",
+  "attention_config": [[["flash"], 6]],
+  "scaled_upper_triang_masked_softmax_fusion": true,
+  "bias_gelu_fusion": true,
+  # init methods
+  "init_method": "small_init",
+  "output_layer_init_method": "wang_init",
+  "optimizer": {
+    "type": "Adam",
+    "params": {
+      "lr": 0.0001,
+      "betas": [0.9, 0.95],
+      "eps": 1.0e-8
+    }
+  },
+  "min_lr": 0.00001,
+  "zero_optimization": {
+    "stage": 0,
+    "allgather_partitions": true,
+    "allgather_bucket_size": 500000000,
+    "overlap_comm": true,
+    "reduce_scatter": true,
+    "reduce_bucket_size": 500000000,
+    "contiguous_gradients": true,
+    "cpu_offload": false
+  },
+  # batch size (trained on 32 gpus)
+  "train_micro_batch_size_per_gpu": 8,
+  "data_impl": "mmap",
+  "num_workers": 1,
+  # activation checkpointing
+  "checkpoint_activations": true,
+  "checkpoint_num_layers": 1,
+  "partition_activations": true,
+  "synchronize_each_layer": true,
+  # regularization
+  "gradient_clipping": 1.0,
+  "weight_decay": 0.1,
+  "hidden_dropout": 0,
+  "attention_dropout": 0,
+  # precision settings
+  "fp16": {
+    "fp16": true,
+    "enabled": true,
+    "loss_scale": 0,
+    "loss_scale_window": 1000,
+    "initial_scale_power": 12,
+    "hysteresis": 2,
+    "min_loss_scale": 1
+  },
+   # misc. training settings
+   "train_iters": 100000,
+   "lr_decay_iters": 100000,
+   "distributed_backend": "nccl",
+   "lr_decay_style": "cosine",
+   "warmup": 0.01,
+   "checkpoint_factor": 5000,
+   "eval_interval": 5000,
+   "eval_iters": 10,
+   "do_test": true,
+   "extra_save_iters": [10,100,500,1000],
+   # logging
+   "log_interval": 100,
+   "steps_per_print": 10,
+   "keep_last_n_checkpoints": 10,
+   "wall_clock_breakdown": true,
+}

mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95b0772c9a3a59939c333ed1757a4db9bfb23ffd104e9656aeb341eb8d4eb3e0
+size 138216741

mp_rank_01_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87ab5ef624d7de495abc582e55e2e36e605b58acd885a222d61ab9db8907c93c
+size 138216741