astronomer
/

Llama-3-8B-GPTQ-8-Bit

Text Generation

Inference Endpoints

text-generation-inference

8-bit precision

Model card Files Files and versions Community

davidxmle commited on Apr 21, 2024

Commit

0be80ae

·

verified ·

1 Parent(s): 9a115a3

Update README.md

Files changed (1) hide show

README.md +3 -2

README.md CHANGED Viewed

@@ -40,10 +40,11 @@ datasets:
 - Original Model creator: [Meta Llama from Meta](https://huggingface.co/meta-llama)
 - Original model: [meta-llama/Meta-Llama-3-8B](https://huggingface.co/meta-llama/Meta-Llama-3-8B)
 - Built with Meta Llama 3
-- Quantized by [Astronomer](https://astronomer.io)
 ## MUST READ: Very Important!! Note About Untrained Special Tokens in Llama 3 Base (Non-instruct) Models & Fine-tuning Llama 3 Base
-- Special tokens such as the ones used for instruct are undertrained in Llama 3 base models. (discovered by Daniel Han https://twitter.com/danielhanchen/status/1781395882925343058)
 - ![image/png](https://cdn-uploads.huggingface.co/production/uploads/655ad0f8727df37c77a09cb9/1U2rRrx60p1pNeeAZw8Rd.png)
 - A patch function is under way, fine-tuning this model for instruction following may cause `NaN` graidents unless this problem is addressed.

 - Original Model creator: [Meta Llama from Meta](https://huggingface.co/meta-llama)
 - Original model: [meta-llama/Meta-Llama-3-8B](https://huggingface.co/meta-llama/Meta-Llama-3-8B)
 - Built with Meta Llama 3
+- Quantized by [David Xue](https://www.linkedin.com/in/david-xue-uva/) from [Astronomer](https://astronomer.io)
 ## MUST READ: Very Important!! Note About Untrained Special Tokens in Llama 3 Base (Non-instruct) Models & Fine-tuning Llama 3 Base
+- Special tokens such as the ones used for instruct are undertrained in Llama 3 base models.
+- Credits: discovered by Daniel Han https://twitter.com/danielhanchen/status/1781395882925343058
 - ![image/png](https://cdn-uploads.huggingface.co/production/uploads/655ad0f8727df37c77a09cb9/1U2rRrx60p1pNeeAZw8Rd.png)
 - A patch function is under way, fine-tuning this model for instruction following may cause `NaN` graidents unless this problem is addressed.