PrimeIntellect
/

Meta-Llama-3.1-405B-Instruct-FP8

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Jackmin108 commited on Aug 16, 2024

Commit

2ed58a0

·

1 Parent(s): 0103257

fix: 8 kv heads

Files changed (1) hide show

config.json +2 -2

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "/data/llama3-real/Meta-Llama-3.1-405B-Instruct",
   "architectures": [
     "LlamaForCausalLM"
   ],
@@ -20,7 +20,7 @@
   "model_type": "llama",
   "num_attention_heads": 128,
   "num_hidden_layers": 126,
-  "num_key_value_heads": 16,
   "pretraining_tp": 1,
   "quantization_config": {
     "activation_scale_ub": 1200.0,

 {
+  "_name_or_path": "meta-llama/Meta-Llama-3.1-405B-Instruct-FP8",
   "architectures": [
     "LlamaForCausalLM"
   ],
   "model_type": "llama",
   "num_attention_heads": 128,
   "num_hidden_layers": 126,
+  "num_key_value_heads": 8,
   "pretraining_tp": 1,
   "quantization_config": {
     "activation_scale_ub": 1200.0,