sileod
/

deberta-v3-large-tasksource-rlhf-reward-model

Text Classification

Inference Endpoints

Model card Files Files and versions Community

sileod commited on Mar 28, 2023

Commit

2787455

·

1 Parent(s): 213bdda

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -20,7 +20,7 @@ model-index:
             value: 0,7516
             verified: true
 ---
-#  Reward model based `deberta-v3-large-tasksource-nli` fine-tuned on Anthropic/hh-rlhf
 For 1 epoch with 1e-5 learning rate.
 The data are described in the paper: [Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback](https://arxiv.org/abs/2204.05862).

             value: 0,7516
             verified: true
 ---
+#  Reward model based [`deberta-v3-large-tasksource-nli`](https://huggingface.co/sileod/deberta-v3-large-tasksource-nli) fine-tuned on Anthropic/hh-rlhf
 For 1 epoch with 1e-5 learning rate.
 The data are described in the paper: [Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback](https://arxiv.org/abs/2204.05862).