google/gemma-2-2b-it - W8A8_int8 Compression

This is a compressed model using llmcompressor.

Compression Configuration

  • Base Model: google/gemma-2-2b-it
  • Compression Scheme: W8A8_int8
  • Dataset: HuggingFaceH4/ultrachat_200k
  • Dataset Split: train_sft
  • Number of Samples: 512
  • Preprocessor: chat
  • Maximum Sequence Length: 8192

Sample Output

Prompt:

<bos><start_of_turn>user
Who is Alan Turing?<end_of_turn>

Output:

<bos><bos><start_of_turn>user
Who is Alan Turing?<end_of_turn>
CWE byggCWE lname RottCWECWECWECWE byggjecturesencieManbalarencieManbalarenýCWEený Rottiseiteenýiseiteynyenýiseiteynyenýynyenýenýenýenýenýenýenýenýenýenýenýenýenýenýenýenýenýenýenýenýený byggenýCWEenýCWEenýenýynyenýenýenýenýenýenýenýenýenýynyenýynyynyenýManbalarManbalarynyenýManbalarynyenýManbalarenýManbalarenýenýynyenýCWEenýenýenýenýenýynyenýenýenýenýenýenýynyenýenýenýenýenýenýenýenýenýenýenýynyený BurrManbalarManbalar BurrManbalarenýenýenýenýenýenýenýenýenýenýený

Evaluation

Downloads last month
76
Safetensors
Model size
3.2B params
Tensor type
BF16
·
I8
·
Inference Providers NEW
This model is not currently available via any of the supported third-party Inference Providers, and the model is not deployed on the HF Inference API.

Model tree for espressor/google.gemma-2-2b-it_W8A8_int8

Base model

google/gemma-2-2b
Quantized
(133)
this model

Dataset used to train espressor/google.gemma-2-2b-it_W8A8_int8