Update README.md
Browse files
README.md
CHANGED
@@ -10,9 +10,9 @@ library_name: peft
|
|
10 |
|
11 |
本仓库为ppo步骤(基于(sft)[https://huggingface.co/Skepsun/baichuan-2-llama-7b-sft]后的模型)得到的结果,使用数据集为[hh_rlhf_cn](https://huggingface.co/datasets/dikw/hh_rlhf_cn)。
|
12 |
|
13 |
-
![
|
14 |
|
15 |
-
![
|
16 |
|
17 |
## Usage
|
18 |
使用方法即使用上述训练框架的推理脚本,指定基座模型为sft模型,checkpoint_dir为本仓库地址,prompt template为vicuna。
|
|
|
10 |
|
11 |
本仓库为ppo步骤(基于(sft)[https://huggingface.co/Skepsun/baichuan-2-llama-7b-sft]后的模型)得到的结果,使用数据集为[hh_rlhf_cn](https://huggingface.co/datasets/dikw/hh_rlhf_cn)。
|
12 |
|
13 |
+
![training loss](link "https://huggingface.co/Skepsun/baichuan-2-llama-7b-ppo/resolve/main/training_loss.png")
|
14 |
|
15 |
+
![training reward](link "https://huggingface.co/Skepsun/baichuan-2-llama-7b-ppo/resolve/main/training_reward.png")
|
16 |
|
17 |
## Usage
|
18 |
使用方法即使用上述训练框架的推理脚本,指定基座模型为sft模型,checkpoint_dir为本仓库地址,prompt template为vicuna。
|