bikalnetomi
/

rlhf-ppo-llama31-8B-Reward-model-lora-r128-bikal

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

rlhf-ppo-llama31-8B-Reward-model-lora-r128-bikal

1 contributor

History: 2 commits

bikalnetomi's picture

bikalnetomi/rlhf-reward-model-ppo-llama31-8B-lora-r128--bikal

fd6598f verified 2 months ago