RyanYr
/

self-correct_Llama-3.2-3B-Instruct_metaMathQA_dpo_iter2-only2nd-2e-7

Text Generation

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

self-correct_Llama-3.2-3B-Instruct_metaMathQA_dpo_iter2-only2nd-2e-7 / last_checkpoint

Commit History

Model save

5ba238f
verified

RyanYr commited on 21 days ago

Model save

fe546b4
verified

RyanYr commited on 21 days ago

Training in progress, step 77

c032b52
verified

RyanYr commited on 21 days ago