RyanYr
/

self-correct_Llama-3.2-3B-Instruct_metaMathQA_dpo_iter5_lr1e-7

Text Generation

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

self-correct_Llama-3.2-3B-Instruct_metaMathQA_dpo_iter5_lr1e-7

Commit History

Model save

3a7c601
verified

RyanYr commited on 16 days ago

Training in progress, step 107

4a0746d
verified

RyanYr commited on 16 days ago

Training in progress, step 100

bf004f5
verified

RyanYr commited on 16 days ago

initial commit

ac93c48
verified

RyanYr commited on 17 days ago