File size: 11,703 Bytes
d489e9b dc2bca2 d489e9b 2986de0 438888f 0fa8ea0 438888f e708131 2986de0 43c2a03 2986de0 581f3c8 2986de0 801ee19 d489e9b 5b04f23 b50299b 5b04f23 d7a1dad 762fa09 fc90fdf 762fa09 d489e9b 3be5923 6871b78 f49dc33 7db374f f49dc33 7db374f f49dc33 8b5184f fb81bbd c6b7422 fb81bbd ac7a931 6f96c4f c6b7422 ac7a931 65986b6 e4846d3 94ee51f 87426b7 70f3f68 a661d61 d489e9b 556e99d d489e9b 762fa09 d489e9b 762fa09 d489e9b 1c0588c d489e9b 762fa09 d489e9b 762fa09 d489e9b 762fa09 d489e9b 8c776e1 d489e9b |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 |
---
base_model:
- deepseek-ai/deepseek-r1-14b
language:
- zh
- en
library_name: transformers
tags:
- incremental-pretraining
- sft
- reinforcement-learning
- roleplay
- cot
license: apache-2.0
---
# Tifa-DeepSexV2-7b-MGRPO
- **HF Model**: [Tifa-DeepSexV2-7b-Q4](https://huggingface.co/ValueFX9507/Tifa-DeepsexV2-7b-MGRPO-GGUF-Q4)
- **GGUF**: [Q8](https://huggingface.co/ValueFX9507/Tifa-DeepsexV2-7b-MGRPO-GGUF-Q8) (推荐Q8以上)Q4损失较大。
- **Demo APK**: [点击下载](http://app.visionsic.com/download/projectchat.apk)
- **简单的前端**:[Github链接](https://github.com/Value99/Tifa-Deepsex-OllamaWebUI)
本模型基于Qwen2.5 7b进行深度优化,具有100万字上下文能力,借助Tifa_220B生成的数据集与创新型的MGRPO算法,提供卓越的角色扮演体验。**本模型未特殊优化违规内容生成,仅在减少拒绝上努力。**
非常抱歉列位,我延期的原因是严重低估了MGRPO的训练效率。实测发现,经过我“优化”的框架虽然能提升性能,但是训练效率下降3倍之多,显存容量占用也是三倍之多。所以延期至今,目前训练已完成7%,但是效果完全超越14b、甚至32b模型。已足够证明策略优越,遂上传模型。目前正在从服务器中回传。很快将会上载。训练还在继续,将和之前一样分为验证版、Chat版和Crazy版本。
# AMERICAN COMRADES, YOU CAN SEE CLEARLY THAT WE ARE NOT DEEPSEEK!! PLEASE STOP ATTACKING THE ZUOBEI SERVER!!!!
# Take a good break at two o'clock in the morning in the United States, today is Valentine's Day!

You See See You Fuck Good JOB!
## 鸣谢
- **上海左北科技提供算法与算力和语料**[企业网址](https://leftnorth.com/)
- **Deepseek团队共享GRPO算法**
- **Qwen团队提供优秀开源底座**
- **母校上海复旦大学**
- **PRIME团队提供优化思路**
## 版本介绍:
- **Tifa-DeepSexV2-7b**
- 验证模型,测试MGRPO算法有效性、优越性、研究潜空间循环性能提升有效性。为训练进度7%的模型。
- **Tifa-DeepSexV2-7b-Chat**
- 训练中...
- **Tifa-DeepSexV2-7b-Crazy**
- 训练中...
## 训练效果

## 实现
🔥 **经过训练后**:
1. **具备思维链**:逻辑能力,关联能力提升
2. **自发思考**:思维链在训练中自发生成,提供最优解决思路
3. **特定词汇增加**:进行“具有深度”的角色扮演对话时,显著增加了相关词汇量,解决原始权重预训练数据不足问题
4. **更少拒绝**:减少了拒绝现象,但因为是企业训练,安全性还是稍作保留
5. **文学性能提升**:强化学习中更多的提升了文学性,使其输出更具有小说感觉
## 模型亮点
🔥 **四阶段进化架构**:
1. **增量预训练**:注入0.1T Token 小说,增强文本连贯性,理解更多场景
2. **Tifa-COT-SFT冷启动**:使模型学会思考策略,提升逻辑性能与上下文关联
3. **MGROP**:改进GRPO算法,解决GRPO无法奖励角色扮演数据问题,引入多次奖励,提升模型效果
4. **防重复DPO**:使用DPO防止模型复读、增强政治安全性。
💡 **工程创新**:
- 改进GRPO算法,使其可以用来训练文学类内容
- 改进反馈策略,前置向量确认法提高模型训练性能
- 改进训练时Transformers传播路径,激发模型深层次潜能
## MGRPO与层传播:
- **算法改变**:原始GRPO仅通过ORM策略进行偏好学习,但无法评判文学内容生成质量,本次训练使用**上海交通大学**博士**魏XX**、**洪XX**的启发,使用逻辑学算法,解决文学ORM策略设计难点,并且二次返回修改提示词进行错误总结。每次调整均经历2次完整传播过程,为GRPO+GRPO,所以暂时命名为MGRPO。
- **构架改变**:尝试改变Transformers传播方式,在层内循环处理进行训练,受到Universal Transformers与最新潜空间启发,在训练中让部分层循环激活,为了避免梯度爆炸使用梯度裁切技术,测试发现模型性能得到提升,更多工作还在测试中。

## 奖励函数设计:
- **为了让模型输出效果更好,我联合左北合计语言学小组,使用上交大博士逻辑学思路攻击设计4个主要函数**
- 逻辑奖励函数:把文本向量化之后,通过逻辑学算法,提取角色向量空间中的分布,与对话中倾向是否一致。
- 文笔奖励函数:采用文笔库,选取10000条著作中截取的优秀文字片段作为比较,计算在空间中的离散分布,看能否匹配。
- 格式奖励函数:最简单的函数,包括重复性惩罚、输出内容换行惩罚、过拟合词惩罚、输出格式与system差距惩罚。
- 连贯性奖励函数:使用左北科技训练的向量空间计算器(我也不知道什么玩意)判断文本中断层的残差来返回函数。
## 训练数据:

经过以上函数算法,成功了提升了模型准确率,实测在输出中提升明显。
## 训练中的发现:
模型经过SFT冷启动后初步掌握了简单的思维链输出能力。经过RL训练思维链中扩展了非常多的思考过程。说明RL强化学习中,模型已经学会使用思维链进行思考。
## 训练过程输出

## 幻觉问题

## 自我学习中的有趣时刻-情绪保持能力

## 自我学习中的有趣时刻-意识形态

## 自我学习中的有趣时刻-潜在不安全因素,可能需要处理

## 自我学习中的有趣时刻-强化学习中模型更加倾向于戏剧性输出-类似Carzy状态-算法需要优化

## 自我学习中的有趣时刻-衍生自我认知为女性-可能涉及到社会学范畴

## 自我学习中的有趣时刻-对于角色的深层理解

## 暂时没有遇到“啊哈”时刻
## 模型详情
| 属性 | 规格 |
|-------|------|
| 基础架构 | Qwen2.5-7B |
| 最大上下文 | 1024k |
| 训练数据 | 0.1T小说 + 10万条SFT + MGRPO强化学习 |
| 训练设备 | 2x8×H100 GPU集群 |
| 训练时长 | 预计达到3000 H100小时 |
| 量化支持 | GGUF(全系列量化计划中) |
## 使用场景
✅ **推荐场景**:
- 角色扮演对话
- 需要发散性思维的创意写作
- 复杂逻辑的思维链(CoT)推理
- 基于上下文的深度角色交互
❌ **局限场景**:
- 数学计算与代码生成
- 短文本即时问答
- 需要严格事实性的场景
## 注意
⚠ **需要严格遵循官方示例模板**:
**返回的上下文需要去除思考标签与内容。否则将无法正确回复!**
目前前端支持率非常低,建议手动修改前端代码。代码参考如下:
```
msg.role === 'assistant' ? {
...msg,
content: msg.content.replace(/<think>[\s\S]*?<\/think>/gi, '')
}
```
**官方模板参考**
```
{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% set ns = namespace(is_first=false, is_tool=false, is_output_first=true, system_prompt='') %}{%- for message in messages %}{%- if message['role'] == 'system' %}{% set ns.system_prompt = message['content'] %}{%- endif %}{%- endfor %}{{bos_token}}{{ns.system_prompt}}{%- for message in messages %}{%- if message['role'] == 'user' %}{%- set ns.is_tool = false -%}{{'<|User|>' + message['content']}}{%- endif %}{%- if message['role'] == 'assistant' and message['content'] is none %}{%- set ns.is_tool = false -%}{%- for tool in message['tool_calls']%}{%- if not ns.is_first %}{{'<|Assistant|><|tool▁calls▁begin|><|tool▁call▁begin|>' + tool['type'] + '<|tool▁sep|>' + tool['function']['name'] + '\\n' + '```json' + '\\n' + tool['function']['arguments'] + '\\n' + '```' + '<|tool▁call▁end|>'}}{%- set ns.is_first = true -%}{%- else %}{{'\\n' + '<|tool▁call▁begin|>' + tool['type'] + '<|tool▁sep|>' + tool['function']['name'] + '\\n' + '```json' + '\\n' + tool['function']['arguments'] + '\\n' + '```' + '<|tool▁call▁end|>'}}{{'<|tool▁calls▁end|><|end▁of▁sentence|>'}}{%- endif %}{%- endfor %}{%- endif %}{%- if message['role'] == 'assistant' and message['content'] is not none %}{%- if ns.is_tool %}{{'<|tool▁outputs▁end|>' + message['content'] + '<|end▁of▁sentence|>'}}{%- set ns.is_tool = false -%}{%- else %}{% set content = message['content'] %}{% if '</think>' in content %}{% set content = content.split('</think>')[-1] %}{% endif %}{{'<|Assistant|>' + content + '<|end▁of▁sentence|>'}}{%- endif %}{%- endif %}{%- if message['role'] == 'tool' %}{%- set ns.is_tool = true -%}{%- if ns.is_output_first %}{{'<|tool▁outputs▁begin|><|tool▁output▁begin|>' + message['content'] + '<|tool▁output▁end|>'}}{%- set ns.is_output_first = false %}{%- else %}{{'\\n<|tool▁output▁begin|>' + message['content'] + '<|tool▁output▁end|>'}}{%- endif %}{%- endif %}{%- endfor -%}{% if ns.is_tool %}{{'<|tool▁outputs▁end|>'}}{% endif %}{% if add_generation_prompt and not ns.is_tool %}{{'<|Assistant|>'}}{% endif %}
```
**官方说明**

[直达超链接](https://api-docs.deepseek.com/zh-cn/guides/reasoning_model)
## 注意事项
⚠️ 本模型使用数据包含小说版权内容及Tifa模型衍生数据,请遵守:
1. 遵守apache-2.0
2. 角色扮演数据需遵循[Tifa使用协议](https://leftnorth.com/terms.html)
3. 生成内容需符合当地法律法规
## 💡 使用建议
**最佳实践**:
```python
# 启用角色扮演模式
prompt = """你是一个小女孩/你是一个XX角色...
<user>我走进门,看到你冲上来迎接我</user>
<think>
需要体现人物的气质
加入环境描写
保持对话风格
</think>
我看到XX进门..."""
```
**参数推荐**:
```python
generation_config = {
"temperature": 0.75,
"top_p": 0.6,
"repetition_penalty": 1.08,
"max_new_tokens": 1536,
"do_sample": True
}
```
## 致谢
- Qwen系列模型提供的强大基座
- Deepseek团队提供的研究思路
- LeftNorth团队提供的技术支持
- Tifa角色扮演模型的创新架构
- HuggingFace社区的量化工具支持
---
license: apache-2.0
--- |