deepseek-ai
/

DeepSeek-Prover-V1.5-Base

Model card Files Files and versions Community

deepseekrzz commited on Aug 29

Commit

732399b

•

1 Parent(s): 57df132

Update config.json

Files changed (1) hide show

config.json +29 -50

config.json CHANGED Viewed

@@ -1,52 +1,31 @@
 {
- "architectures": [
- "DeepseekForCausalLM"
- ],
- "attention_bias": false,
- "attention_dropout": 0.0,
- "auto_map": {
- "AutoConfig": "configuration_deepseek.DeepseekConfig",
- "AutoModel": "modeling_deepseek.DeepseekModel",
- "AutoModelForCausalLM": "modeling_deepseek.DeepseekForCausalLM"
- },
- "aux_loss_alpha": 0.001,
- "bos_token_id": 100000,
- "eos_token_id": 100001,
- "ep_size": 1,
- "first_k_dense_replace": null,
- "hidden_act": "silu",
- "hidden_size": 4096,
- "initializer_range": 0.02,
- "intermediate_size": 11008,
- "kv_lora_rank": null,
- "max_position_embeddings": 4096,
- "model_type": "deepseek",
- "moe_intermediate_size": 11008,
- "moe_layer_freq": null,
- "n_group": 1,
- "n_routed_experts": null,
- "n_shared_experts": null,
- "norm_topk_prob": null,
- "num_attention_heads": 32,
- "num_experts_per_tok": null,
- "num_hidden_layers": 30,
- "num_key_value_heads": 32,
- "pretraining_tp": 1,
- "q_lora_rank": null,
- "qk_nope_head_dim": 0,
- "qk_rope_head_dim": null,
- "rms_norm_eps": 1e-06,
- "rope_scaling": null,
- "rope_theta": 10000,
- "routed_scaling_factor": 1.0,
- "scoring_func": null,
- "seq_aux": true,
- "tie_word_embeddings": false,
- "topk_group": 1,
- "topk_method": "group_limited_greedy",
- "torch_dtype": "bfloat16",
- "transformers_version": "4.33.1",
- "use_cache": true,
- "v_head_dim": null,
- "vocab_size": 102400
 }

 {
+ "architectures": [
+ "LlamaForCausalLM"
+ ],
+ "attention_bias": false,
+ "attention_dropout": 0.0,
+ "bos_token_id": 100000,
+ "eos_token_id": 100001,
+ "hidden_act": "silu",
+ "hidden_size": 4096,
+ "initializer_range": 0.02,
+ "intermediate_size": 11008,
+ "max_position_embeddings": 4096,
+ "model_type": "llama",
+ "num_attention_heads": 32,
+ "num_hidden_layers": 30,
+ "num_key_value_heads": 32,
+ "pretraining_tp": 1,
+ "quantization": {
+ "group_size": 64,
+ "bits": 8
+ },
+ "rms_norm_eps": 1e-06,
+ "rope_scaling": null,
+ "rope_theta": 10000,
+ "tie_word_embeddings": false,
+ "torch_dtype": "bfloat16",
+ "transformers_version": "4.33.1",
+ "use_cache": true,
+ "vocab_size": 102400
 }