Kallinteris-Andreas
/

TRL-demo-Qwen2.5-0.5B-Reward-max_lenght96-4RA-gradient_checkpoint

Model card Files Files and versions Community

TRL-demo-Qwen2.5-0.5B-Reward-max_lenght96-4RA-gradient_checkpoint / merges.txt

Commit History

Upload 14 files

13a9ff7
verified

Kallinteris-Andreas commited on Dec 19, 2024