RyanYr
/

self-correct_Llama-3.2-3B-Instruct_metaMathQA_dpo_iter4_metaMathQA_dpo_iter5

Text Generation

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

self-correct_Llama-3.2-3B-Instruct_metaMathQA_dpo_iter4_metaMathQA_dpo_iter5

Commit History

Model save

921028e
verified

RyanYr commited on 17 days ago

Training in progress, step 100

893f55f
verified

RyanYr commited on 17 days ago

initial commit

887ae4f
verified

RyanYr commited on 17 days ago