Upload 8 files

Files changed (8) hide show

config.json ADDED Viewed

+{
+ "architectures": ["LlamaForCausalLM"],
+ "bos_token_id": 1,
+ "eos_token_id": 2,
+ "hidden_act": "silu",
+ "hidden_size": 768,
+ "intermediate_size": 2048,
+ "max_position_embeddings": 2048,
+ "model_type": "llama",
+ "num_attention_heads": 12,
+ "num_hidden_layers": 12,
+ "num_key_value_heads": 4,
+ "pretraining_tp": 1,
+ "rms_norm_eps": 1e-6,
+ "rope_scaling": null,
+ "tie_word_embeddings": false,
+ "torch_dtype": "float32",
+ "transformers_version": "4.37.2",
+ "use_cache": true,
+ "vocab_size": 32000
+}

hyperparameters.yaml ADDED Viewed

+model_name: llama-124m
+model_config:
+ name: ''
+ hf_config: {}
+ scale_embeddings: false
+ block_size: 2048
+ vocab_size: 32000
+ padding_multiple: 64
+ n_layer: 12
+ n_head: 12
+ n_embd: 768
+ rotary_percentage: 1.0
+ parallel_residual: false
+ bias: false
+ lm_head_bias: false
+ n_query_groups: 4
+ shared_attention_norm: false
+ norm_class_name: RMSNorm
+ post_attention_norm: false
+ post_mlp_norm: false
+ norm_eps: 1.0e-06
+ mlp_class_name: LLaMAMLP
+ gelu_approximate: none
+ intermediate_size: 2048
+ rope_condense_ratio: 1
+ rope_base: 10000
+ n_expert: 0
+ n_expert_per_token: 0
+out_dir: out/pretrain/llama-124m
+precision: bf16-mixed
+resume: false
+train:
+ save_interval: 10000
+ log_interval: 1
+ global_batch_size: 96
+ micro_batch_size: 12
+ lr_warmup_steps: 200
+ max_tokens: 19632670900
+ max_seq_length: 2048
+ max_norm: 1.0
+ min_lr: 5.0e-05
+eval:
+ interval: 1000
+ max_iters: 100
+ initial_validation: false
+ final_validation: true
+optimizer:
+ class_path: torch.optim.AdamW
+ init_args:
+ lr: 0.0005
+ weight_decay: 0.01
+ betas:
+ - 0.9
+ - 0.99
+devices: auto
+num_nodes: 1
+logger_name: wandb
+seed: 42

lit_model.pth ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:529bc044f54d49a49df93ec1245ce3499117438958aa5cb9016434dab5ce6265
+size 997391034

model_config.yaml ADDED Viewed

+attention_logit_softcapping: null
+attention_scores_scalar: null
+bias: false
+block_size: 2048
+final_logit_softcapping: null
+gelu_approximate: none
+head_size: 64
+hf_config: {}
+intermediate_size: 2048
+lm_head_bias: false
+mlp_class_name: LLaMAMLP
+n_embd: 768
+n_expert: 0
+n_expert_per_token: 0
+n_head: 12
+n_layer: 12
+n_query_groups: 4
+name: ''
+norm_class_name: RMSNorm
+norm_eps: 1.0e-06
+padded_vocab_size: 32000
+padding_multiple: 64
+parallel_residual: false
+post_attention_norm: false
+post_mlp_norm: false
+rope_base: 10000
+rope_condense_ratio: 1
+rotary_percentage: 1.0
+scale_embeddings: false
+shared_attention_norm: false
+sliding_window_layer_placing: null
+sliding_window_size: null
+vocab_size: 32000

special_tokens_map.json ADDED Viewed

+{
+ "bos_token": {
+ "content": "<s>",
+ "lstrip": false,
+ "normalized": true,
+ "rstrip": false,
+ "single_word": false
+ },
+ "eos_token": {
+ "content": "</s>",
+ "lstrip": false,
+ "normalized": true,
+ "rstrip": false,
+ "single_word": false
+ },
+ "unk_token": {
+ "content": "<unk>",
+ "lstrip": false,
+ "normalized": true,
+ "rstrip": false,
+ "single_word": false
+ }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

+{
+ "add_bos_token": true,
+ "add_eos_token": false,
+ "bos_token": {
+ "__type": "AddedToken",
+ "content": "<s>",
+ "lstrip": false,
+ "normalized": true,
+ "rstrip": false,
+ "single_word": false
+ },
+ "clean_up_tokenization_spaces": false,
+ "eos_token": {
+ "__type": "AddedToken",
+ "content": "</s>",
+ "lstrip": false,
+ "normalized": true,
+ "rstrip": false,
+ "single_word": false
+ },
+ "model_max_length": 1000000000000000019884624838656,
+ "pad_token": null,
+ "sp_model_kwargs": {},
+ "tokenizer_class": "LlamaTokenizer",
+ "unk_token": {
+ "__type": "AddedToken",
+ "content": "<unk>",
+ "lstrip": false,
+ "normalized": true,
+ "rstrip": false,
+ "single_word": false
+ }
+}