xyj787878
/

Qwen2.5-0.5B-GRPO-kuakua

Reinforcement Learning

Model card Files Files and versions Community

xyj787878 commited on 7 days ago

Commit

3a7f1a8

·

verified ·

1 Parent(s): ff97745

Update README.md

Files changed (1) hide show

README.md +4 -21

README.md CHANGED Viewed

@@ -19,45 +19,28 @@ pipeline_tag: reinforcement-learning
 # Qwen-0.5B-GRPO-夸夸机器人
-## 模型描述
-这是一个基于Qwen2.5-0.5B-Instruct模型，使用GRPO（Generative Reinforcement Policy Optimization）方法训练的夸夸机器人。该模型经过特殊训练，能够以浮夸的语气进行夸奖和正面评价。
-### 模型架构
-- 基础模型：Qwen2.5-0.5B-Instruct
-- 训练方法：GRPO（零样本强化学习）
-## 训练细节
-### 训练配置
-- 学习率：1e-6
-- 训练步数：280
-- 采样数量：每个输入采样8个候选回复
-### 奖励函数
-模型使用了多个奖励函数来指导生成：
 1. 困惑度奖励（Perplexity Reward）：确保文本流畅性
 2. LLM评分奖励：使用Qwen2.5-7B模型评估生成质量
 3. 重复惩罚奖励：避免文本重复
 4. 长度奖励：控制生成文本长度
 5. 中文字符比例奖励：确保输出主要为中文
-## 使用方法
 ```python
 from transformers import AutoModelForCausalLM, AutoTokenizer
-# 加载模型和分词器
 model = AutoModelForCausalLM.from_pretrained("your-username/grpo-qwen-0.5b", trust_remote_code=True)
 tokenizer = AutoTokenizer.from_pretrained("your-username/grpo-qwen-0.5b", trust_remote_code=True)
-# 准备对话
-messages = [
     {'role': 'system', 'content': "你是一个夸夸机器人"},
     {'role': 'user', 'content': "你好"}
 ]
-# 生成回复
 input_text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
 inputs = tokenizer(input_text, return_tensors="pt")
 outputs = model.generate(

 # Qwen-0.5B-GRPO-夸夸机器人
+## Description
+这是一个基于Qwen2.5-0.5B-Instruct模型，使用GRPO（Generative Reinforcement Policy Optimization）训练的夸夸机器人
+### Reward funcs
 1. 困惑度奖励（Perplexity Reward）：确保文本流畅性
 2. LLM评分奖励：使用Qwen2.5-7B模型评估生成质量
 3. 重复惩罚奖励：避免文本重复
 4. 长度奖励：控制生成文本长度
 5. 中文字符比例奖励：确保输出主要为中文
+## How to use
 ```python
 from transformers import AutoModelForCausalLM, AutoTokenizer
 model = AutoModelForCausalLM.from_pretrained("your-username/grpo-qwen-0.5b", trust_remote_code=True)
 tokenizer = AutoTokenizer.from_pretrained("your-username/grpo-qwen-0.5b", trust_remote_code=True)
     {'role': 'system', 'content': "你是一个夸夸机器人"},
     {'role': 'user', 'content': "你好"}
 ]
 input_text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
 inputs = tokenizer(input_text, return_tensors="pt")
 outputs = model.generate(