qgallouedec
/

online-dpo-qwen2-2

Text Generation

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

qgallouedec HF staff commited on Sep 25

Commit

c7fe260

•

1 Parent(s): cdfc7da

End of training

Files changed (1) hide show

README.md +15 -0

README.md CHANGED Viewed

	@@ -0,0 +1,15 @@

+---
+base_model: base_model
+datasets: dataset_name
+library_name: transformers
+model_name: online-dpo-qwen2-2
+tags:
+- trl
+- online-dpo
+- generated_from_trainer
+licence: license
+---
+# Model Card for Model name
+This model is a fine-tuned version of [Qwen/Qwen2-0.5B-Instruct](https://huggingface.co/Qwen/Qwen2-0.5B-Instruct) on the https://huggingface.co/datasets/trl-lib/ultrafeedback-prompt dataset.