mgoin
/

Nemotron-4-340B-Base-hf-FP8

Text Generation

Model card Files Files and versions Community

mgoin commited on Jul 24, 2024

Commit

ab65cc6

·

verified ·

1 Parent(s): c03e4f3

Update README.md

Files changed (1) hide show

README.md +7 -1

README.md CHANGED Viewed

@@ -6,10 +6,16 @@ base_model: mgoin/Nemotron-4-340B-Base-hf
 ```
 lm_eval --model vllm --model_args pretrained=/home/mgoin/code/Nemotron-4-340B-Base-hf-FP8,tensor_parallel_size=8,distributed_executor_backend="ray",max_model_len=4096 --tasks gsm8k --num_fewshot 5 --batch_size auto
 vllm (pretrained=/home/mgoin/code/Nemotron-4-340B-Base-hf-FP8,tensor_parallel_size=8,distributed_executor_backend=ray,max_model_len=4096), gen_kwargs: (None), limit: None, num_fewshot: 5, batch_size: auto
 |Tasks|Version|     Filter     |n-shot|  Metric   |   |Value |   |Stderr|
 |-----|------:|----------------|-----:|-----------|---|-----:|---|-----:|
 |gsm8k|      3|flexible-extract|     5|exact_match|↑  |0.2949|±  |0.0126|
 |     |       |strict-match    |     5|exact_match|↑  |0.1600|±  |0.0101|
 ```

 ```
 lm_eval --model vllm --model_args pretrained=/home/mgoin/code/Nemotron-4-340B-Base-hf-FP8,tensor_parallel_size=8,distributed_executor_backend="ray",max_model_len=4096 --tasks gsm8k --num_fewshot 5 --batch_size auto
 vllm (pretrained=/home/mgoin/code/Nemotron-4-340B-Base-hf-FP8,tensor_parallel_size=8,distributed_executor_backend=ray,max_model_len=4096), gen_kwargs: (None), limit: None, num_fewshot: 5, batch_size: auto
 |Tasks|Version|     Filter     |n-shot|  Metric   |   |Value |   |Stderr|
 |-----|------:|----------------|-----:|-----------|---|-----:|---|-----:|
 |gsm8k|      3|flexible-extract|     5|exact_match|↑  |0.2949|±  |0.0126|
 |     |       |strict-match    |     5|exact_match|↑  |0.1600|±  |0.0101|
+lm_eval --model vllm --model_args pretrained=/home/mgoin/code/Nemotron-4-340B-Base-hf-FP8,tensor_parallel_size=8,distributed_executor_backend="ray",max_model_len=4096,gpu_memory_utilization=0.6 --tasks truthfulqa_mc2 --num_fewshot 0 --batch_size 16
+vllm (pretrained=/home/mgoin/code/Nemotron-4-340B-Base-hf-FP8,tensor_parallel_size=8,distributed_executor_backend=ray,max_model_len=4096,gpu_memory_utilization=0.6), gen_kwargs: (None), limit: None, num_fewshot: 0, batch_size: 16
+|    Tasks     |Version|Filter|n-shot|Metric|   |Value |   |Stderr|
+|--------------|------:|------|-----:|------|---|-----:|---|-----:|
+|truthfulqa_mc2|      2|none  |     0|acc   |↑  |0.4869|±  |0.0142|
 ```