Update README.md

Finetuned the base model using Direct Preference Optimization on Ultra Feedback dataset for instances having score difference >=5 b/w chosen and rejected responses

Files changed (1) hide show

README.md +10 -0

README.md CHANGED Viewed

@@ -4,7 +4,17 @@ datasets:
 - HuggingFaceH4/ultrafeedback_binarized
 language:
 - en
 base_model:
 - NousResearch/Nous-Hermes-llama-2-7b
 pipeline_tag: text-generation
 ---

 - HuggingFaceH4/ultrafeedback_binarized
 language:
 - en
+- fr
 base_model:
 - NousResearch/Nous-Hermes-llama-2-7b
+- meta-llama/Llama-2-7b
 pipeline_tag: text-generation
+metrics:
+- accuracy
+- bertscore
+- bleurt
+- brier_score
+tags:
+- biology
+- chemistry
 ---