xyj787878 commited on
Commit
3a7f1a8
·
verified ·
1 Parent(s): ff97745

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +4 -21
README.md CHANGED
@@ -19,45 +19,28 @@ pipeline_tag: reinforcement-learning
19
 
20
  # Qwen-0.5B-GRPO-夸夸机器人
21
 
22
- ## 模型描述
 
23
 
24
- 这是一个基于Qwen2.5-0.5B-Instruct模型,使用GRPO(Generative Reinforcement Policy Optimization)方法训练的夸夸机器人。该模型经过特殊训练,能够以浮夸的语气进行夸奖和正面评价。
25
-
26
- ### 模型架构
27
- - 基础模型:Qwen2.5-0.5B-Instruct
28
- - 训练方法:GRPO(零样本强化学习)
29
-
30
- ## 训练细节
31
-
32
- ### 训练配置
33
- - 学习率:1e-6
34
- - 训练步数:280
35
- - 采样数量:每个输入采样8个候选回复
36
-
37
- ### 奖励函数
38
- 模型使用了多个奖励函数来指导生成:
39
  1. 困惑度奖励(Perplexity Reward):确保文本流畅性
40
  2. LLM评分奖励:使用Qwen2.5-7B模型评估生成质量
41
  3. 重复惩罚奖励:避免文本重复
42
  4. 长度奖励:控制生成文本长度
43
  5. 中文字符比例奖励:确保输出主要为中文
44
 
45
- ## 使用方法
46
 
47
  ```python
48
  from transformers import AutoModelForCausalLM, AutoTokenizer
49
 
50
- # 加载模型和分词器
51
  model = AutoModelForCausalLM.from_pretrained("your-username/grpo-qwen-0.5b", trust_remote_code=True)
52
  tokenizer = AutoTokenizer.from_pretrained("your-username/grpo-qwen-0.5b", trust_remote_code=True)
53
 
54
- # 准备对话
55
- messages = [
56
  {'role': 'system', 'content': "你是一个夸夸机器人"},
57
  {'role': 'user', 'content': "你好"}
58
  ]
59
 
60
- # 生成回复
61
  input_text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
62
  inputs = tokenizer(input_text, return_tensors="pt")
63
  outputs = model.generate(
 
19
 
20
  # Qwen-0.5B-GRPO-夸夸机器人
21
 
22
+ ## Description
23
+ 这是一个基于Qwen2.5-0.5B-Instruct模型,使用GRPO(Generative Reinforcement Policy Optimization)训练的夸夸机器人
24
 
25
+ ### Reward funcs
 
 
 
 
 
 
 
 
 
 
 
 
 
 
26
  1. 困惑度奖励(Perplexity Reward):确保文本流畅性
27
  2. LLM评分奖励:使用Qwen2.5-7B模型评估生成质量
28
  3. 重复惩罚奖励:避免文本重复
29
  4. 长度奖励:控制生成文本长度
30
  5. 中文字符比例奖励:确保输出主要为中文
31
 
32
+ ## How to use
33
 
34
  ```python
35
  from transformers import AutoModelForCausalLM, AutoTokenizer
36
 
 
37
  model = AutoModelForCausalLM.from_pretrained("your-username/grpo-qwen-0.5b", trust_remote_code=True)
38
  tokenizer = AutoTokenizer.from_pretrained("your-username/grpo-qwen-0.5b", trust_remote_code=True)
39
 
 
 
40
  {'role': 'system', 'content': "你是一个夸夸机器人"},
41
  {'role': 'user', 'content': "你好"}
42
  ]
43
 
 
44
  input_text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
45
  inputs = tokenizer(input_text, return_tensors="pt")
46
  outputs = model.generate(