update
Browse files
README.md
CHANGED
@@ -3,21 +3,27 @@
|
|
3 |
<div align="left">
|
4 |
|
5 |
![GitHub Repo stars](https://img.shields.io/github/stars/jiayaozhang/UnrealEngineGPT?style=social)
|
6 |
-
[![Generic badge](https://img.shields.io/badge/🤗-Huggingface%20Repo-green.svg)](https://huggingface.co/
|
|
|
7 |
|
8 |
-
[//]: # ([![Generic badge](https://img.shields.io/badge/微信-Firefly-brightgreen?logo=wechat)](./pics/wechat.jpeg))
|
9 |
</div>
|
10 |
|
11 |
|
12 |
欢迎加入虚幻引擎大模型的学习🤗。
|
13 |
|
14 |
|
|
|
15 |
|
16 |
-
|
|
|
|
|
|
|
17 |
|
18 |
-
|
19 |
-
|
20 |
-
-
|
|
|
|
|
21 |
|
22 |
|
23 |
## 相关项目
|
@@ -29,6 +35,7 @@
|
|
29 |
|
30 |
## 项目简介
|
31 |
|
|
|
32 |
**虚幻引擎对话式大语言模型** 是一个开源的虚幻引擎大语言模型项目,支持QLoRA和全量参数微调InternLM等开源模型。
|
33 |
|
34 |
正如项目名称一样,希望本项目能够为为虚幻引擎社区尽绵薄之力,促进游戏以及游戏引擎的发展。
|
@@ -39,8 +46,8 @@
|
|
39 |
- 📗 支持全量参数指令微调、QLoRA低成本高效指令微调、其中QLoRA是我们主推的一种高效的训练方式。
|
40 |
- 📗 支持绝大部分主流的开源大模型,如Baichuan2、CodeLLaMA、LLaMA2、LLaMA、Qwen、Baichuan、ChatGLM2、InternLM、Ziya、Bloom、XVERSE等。
|
41 |
- 📗 支持lora与base model进行权重合并,推理更便捷。
|
42 |
-
- 📗️ 模型裁剪:通过[LLMPruner:大语言模型裁剪工具](https://github.com/yangjianxin1/LLMPruner) ,开源[裁剪后的Bloom模型权重](https://huggingface.co/
|
43 |
-
- 📗 开源[UEGPT系列指令微调模型权重](https://huggingface.co/
|
44 |
- 📗 在Open LLM Leaderboard上验证了QLoRA训练流程的有效性。
|
45 |
|
46 |
|
@@ -52,7 +59,7 @@
|
|
52 |
pip install requirements.txt
|
53 |
```
|
54 |
|
55 |
-
## 模型列表
|
56 |
|
57 |
🔔 使用本项目的训练代码,以及上述训练数据,我们训练并开源了以下模型。
|
58 |
|
@@ -62,18 +69,13 @@ pip install requirements.txt
|
|
62 |
|--------------------------------------------------------------------------------|-------------------------------------|------------|
|
63 |
| [InternLM-UEGPT-7b](https://huggingface.co/YeungNLP/firefly-baichuan2-13b) | internlm/internlm-7b |1024 |
|
64 |
| [InternLM-UEGPT-20b](https://huggingface.co/YeungNLP/firefly-baichuan-13b) | internlm/internlm-20b |1024 |
|
65 |
-
|
66 |
|
67 |
## 训练数据
|
68 |
-
🔔 目前本项目参考复旦大学MOSS团队开源的中英文多轮对话数据统一的数据格式,整理了上千条虚幻引擎问答多轮数据对话:
|
69 |
-
|
70 |
-
| 数据集 | 介绍 |
|
71 |
-
|---------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------|
|
72 |
|
73 |
| [moss-003-sft-data](https://huggingface.co/datasets/YeungNLP/moss-003-sft-data) | 由复旦大学MOSS团队开源的中英文多轮对话数据,包含100万+数据
|
74 |
-
|
75 |
|
76 |
-
|
77 |
|
78 |
训练数据为jsonl格式,每一行的数据格式如下,其中conversation字段是必需的,可以根据实际需求添加或删除其他字段。
|
79 |
可以参考项目中的data/dummy_data.jsonl文件。
|
@@ -201,27 +203,6 @@ python single_chat.py
|
|
201 |
下面的样例均为UEGPT-InternLM2-20b模型所生成,未经修改,仅供参考。
|
202 |
|
203 |
|
204 |
-
</details>
|
205 |
-
<details><summary><b>Nanite Virtual Geometry</b></summary>
|
206 |
-
|
207 |
-
</details>
|
208 |
-
|
209 |
-
<details><summary><b>Lumen illumination</b></summary>
|
210 |
-
|
211 |
-
|
212 |
-
</details>
|
213 |
-
|
214 |
-
<details><summary><b>Physics Chaos</b></summary>
|
215 |
-
|
216 |
-
</details>
|
217 |
-
|
218 |
-
|
219 |
-
<details><summary><b>VR & AR</b></summary>
|
220 |
-
|
221 |
-
</details>
|
222 |
-
|
223 |
-
|
224 |
-
<details><summary><b>Toolchains</b></summary>
|
225 |
|
226 |
|
227 |
</details>
|
@@ -233,6 +214,8 @@ python single_chat.py
|
|
233 |
|
234 |
😎Stay tune!
|
235 |
|
|
|
|
|
236 |
|
237 |
|
238 |
|
|
|
3 |
<div align="left">
|
4 |
|
5 |
![GitHub Repo stars](https://img.shields.io/github/stars/jiayaozhang/UnrealEngineGPT?style=social)
|
6 |
+
[![Generic badge](https://img.shields.io/badge/🤗-Huggingface%20Repo-green.svg)](https://huggingface.co/Jiayao)
|
7 |
+
[![Generic badge](https://img.shields.io/badge/🔥-Modelscope-white)](https://www.modelscope.cn/profile/Jannie)
|
8 |
|
|
|
9 |
</div>
|
10 |
|
11 |
|
12 |
欢迎加入虚幻引擎大模型的学习🤗。
|
13 |
|
14 |
|
15 |
+
## News: 😎 开源模型
|
16 |
|
17 |
+
**在1/2*V100上进行训练**,经过中文词表扩充、增量预训练、多轮指令微调。该项目也支持对Baichuan、Qwen、InternLM、LLaMA、Falcon等模型进行高效增量预训练。
|
18 |
+
🔔 使用本项目的训练代码,以及上述训练数据,我们训练并开源了以下模型。
|
19 |
+
|
20 |
+
中文模型:
|
21 |
|
22 |
+
| 模型 | Huggingface | Modelscope|
|
23 |
+
|--------------------------------------------------------------------------------|-------------------------------------|------------|
|
24 |
+
| InternLM-UEGPT-7b | [Huggingface-internLM2-7b](https://huggingface.co/Jiayao/UEGPT-internlm-7b-qlora-sft-merge/tree/main) | [UEGPT-internLM2-7b](https://www.modelscope.cn/models/Jannie/UEGPT-internlm-7b-qlora-sft-merge/files) |
|
25 |
+
| InternLM-UEGPT-20b | [Huggingface-internLM2-20b](https://huggingface.co/Jiayao/UnrealGPT-internlm-20b-qlora-sft-merge) | [Modelscope-internLM2-20b](https://www.modelscope.cn/models/Jannie/UEGPT-internlm-20b-qlora-sft-merge/files)|
|
26 |
+
| UEGPT-Datasets | [Huggingface-UEGPT-Datasets](https://huggingface.co/datasets/Jiayao/UEGPT-Datasets) |[Modelscope-UEGPT-Datasets](https://www.modelscope.cn/datasets/Jannie/UEGPT-Datasets/files) |
|
27 |
|
28 |
|
29 |
## 相关项目
|
|
|
35 |
|
36 |
## 项目简介
|
37 |
|
38 |
+
|
39 |
**虚幻引擎对话式大语言模型** 是一个开源的虚幻引擎大语言模型项目,支持QLoRA和全量参数微调InternLM等开源模型。
|
40 |
|
41 |
正如项目名称一样,希望本项目能够为为虚幻引擎社区尽绵薄之力,促进游戏以及游戏引擎的发展。
|
|
|
46 |
- 📗 支持全量参数指令微调、QLoRA低成本高效指令微调、其中QLoRA是我们主推的一种高效的训练方式。
|
47 |
- 📗 支持绝大部分主流的开源大模型,如Baichuan2、CodeLLaMA、LLaMA2、LLaMA、Qwen、Baichuan、ChatGLM2、InternLM、Ziya、Bloom、XVERSE等。
|
48 |
- 📗 支持lora与base model进行权重合并,推理更便捷。
|
49 |
+
- 📗️ 模型裁剪:通过[LLMPruner:大语言模型裁剪工具](https://github.com/yangjianxin1/LLMPruner) ,开源[裁剪后的Bloom模型权重](https://huggingface.co/Jiayao) 。在保留预训练中文知识的前提下,有效减少模型参数量,降低训练成本,提高训练效率。
|
50 |
+
- 📗 开源[UEGPT系列指令微调模型权重](https://huggingface.co/Jiayao) 。
|
51 |
- 📗 在Open LLM Leaderboard上验证了QLoRA训练流程的有效性。
|
52 |
|
53 |
|
|
|
59 |
pip install requirements.txt
|
60 |
```
|
61 |
|
62 |
+
<!-- ## 模型列表
|
63 |
|
64 |
🔔 使用本项目的训练代码,以及上述训练数据,我们训练并开源了以下模型。
|
65 |
|
|
|
69 |
|--------------------------------------------------------------------------------|-------------------------------------|------------|
|
70 |
| [InternLM-UEGPT-7b](https://huggingface.co/YeungNLP/firefly-baichuan2-13b) | internlm/internlm-7b |1024 |
|
71 |
| [InternLM-UEGPT-20b](https://huggingface.co/YeungNLP/firefly-baichuan-13b) | internlm/internlm-20b |1024 |
|
72 |
+
-->
|
73 |
|
74 |
## 训练数据
|
|
|
|
|
|
|
|
|
75 |
|
76 |
| [moss-003-sft-data](https://huggingface.co/datasets/YeungNLP/moss-003-sft-data) | 由复旦大学MOSS团队开源的中英文多轮对话数据,包含100万+数据
|
|
|
77 |
|
78 |
+
🔔 目前本项目参考复旦大学MOSS团队开源的中英文多轮对话数据统一的数据格式,整理了上千条虚幻引擎问答多轮数据对话
|
79 |
|
80 |
训练数据为jsonl格式,每一行的数据格式如下,其中conversation字段是必需的,可以根据实际需求添加或删除其他字段。
|
81 |
可以参考项目中的data/dummy_data.jsonl文件。
|
|
|
203 |
下面的样例均为UEGPT-InternLM2-20b模型所生成,未经修改,仅供参考。
|
204 |
|
205 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
206 |
|
207 |
|
208 |
</details>
|
|
|
214 |
|
215 |
😎Stay tune!
|
216 |
|
217 |
+
license: Apache License 2.0
|
218 |
+
|
219 |
|
220 |
|
221 |
|