Uses

v v small model for running on edge with :fire: TTFT & Throughput

Use llama.cpp to inference the model

GGUF

Model size

362M params

Architecture

llama

Hardware compatibility

16-bit

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support