RLHF-And-Friends
/

RM-sentiment-trl-style-Llama-3.2-1B-Instruct-Q4-LoRA8-Batch-16-Tok-1024

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

RM-sentiment-trl-style-Llama-3.2-1B-Instruct-Q4-LoRA8-Batch-16-Tok-1024 / adapter_config.json

Commit History

End of training

5b9dc1c
verified

evgurov commited on 18 days ago