Jiayao commited on
Commit
90f3266
1 Parent(s): ae5d6bd
Files changed (1) hide show
  1. README.md +20 -37
README.md CHANGED
@@ -3,21 +3,27 @@
3
  <div align="left">
4
 
5
  ![GitHub Repo stars](https://img.shields.io/github/stars/jiayaozhang/UnrealEngineGPT?style=social)
6
- [![Generic badge](https://img.shields.io/badge/🤗-Huggingface%20Repo-green.svg)](https://huggingface.co/YeungNLP)
 
7
 
8
- [//]: # ([![Generic badge]&#40;https://img.shields.io/badge/微信-Firefly-brightgreen?logo=wechat&#41;]&#40;./pics/wechat.jpeg&#41;)
9
  </div>
10
 
11
 
12
  欢迎加入虚幻引擎大模型的学习🤗。
13
 
14
 
 
15
 
16
- ## News
 
 
 
17
 
18
- - 😎 开源[UEGPT-Datasets](https://huggingface.co/YeungNLP/firefly-baichuan2-13b)。
19
- - 😎 开源[UEGPT-internLM2-20b](https://github.com/yangjianxin1/Firefly-LLaMA2-Chinese),**在1/2*V100上进行训练**,经过中文词表扩充、增量预训练、多轮指令微调。该项目也支持对Baichuan、Qwen、InternLM、LLaMA、Falcon等模型进行高效增量预训练。
20
- - 😎 开源[UEGPT-internLM2-7b](https://huggingface.co/YeungNLP/firefly-baichuan2-13b)
 
 
21
 
22
 
23
  ## 相关项目
@@ -29,6 +35,7 @@
29
 
30
  ## 项目简介
31
 
 
32
  **虚幻引擎对话式大语言模型** 是一个开源的虚幻引擎大语言模型项目,支持QLoRA和全量参数微调InternLM等开源模型。
33
 
34
  正如项目名称一样,希望本项目能够为为虚幻引擎社区尽绵薄之力,促进游戏以及游戏引擎的发展。
@@ -39,8 +46,8 @@
39
  - 📗 支持全量参数指令微调、QLoRA低成本高效指令微调、其中QLoRA是我们主推的一种高效的训练方式。
40
  - 📗 支持绝大部分主流的开源大模型,如Baichuan2、CodeLLaMA、LLaMA2、LLaMA、Qwen、Baichuan、ChatGLM2、InternLM、Ziya、Bloom、XVERSE等。
41
  - 📗 支持lora与base model进行权重合并,推理更便捷。
42
- - 📗️ 模型裁剪:通过[LLMPruner:大语言模型裁剪工具](https://github.com/yangjianxin1/LLMPruner) ,开源[裁剪后的Bloom模型权重](https://huggingface.co/YeungNLP) 。在保留预训练中文知识的前提下,有效减少模型参数量,降低训练成本,提高训练效率。
43
- - 📗 开源[UEGPT系列指令微调模型权重](https://huggingface.co/YeungNLP) 。
44
  - 📗 在Open LLM Leaderboard上验证了QLoRA训练流程的有效性。
45
 
46
 
@@ -52,7 +59,7 @@
52
  pip install requirements.txt
53
  ```
54
 
55
- ## 模型列表
56
 
57
  🔔 使用本项目的训练代码,以及上述训练数据,我们训练并开源了以下模型。
58
 
@@ -62,18 +69,13 @@ pip install requirements.txt
62
  |--------------------------------------------------------------------------------|-------------------------------------|------------|
63
  | [InternLM-UEGPT-7b](https://huggingface.co/YeungNLP/firefly-baichuan2-13b) | internlm/internlm-7b |1024 |
64
  | [InternLM-UEGPT-20b](https://huggingface.co/YeungNLP/firefly-baichuan-13b) | internlm/internlm-20b |1024 |
65
-
66
 
67
  ## 训练数据
68
- 🔔 目前本项目参考复旦大学MOSS团队开源的中英文多轮对话数据统一的数据格式,整理了上千条虚幻引擎问答多轮数据对话:
69
-
70
- | 数据集 | 介绍 |
71
- |---------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------|
72
 
73
  | [moss-003-sft-data](https://huggingface.co/datasets/YeungNLP/moss-003-sft-data) | 由复旦大学MOSS团队开源的中英文多轮对话数据,包含100万+数据
74
-
75
 
76
- 中文模型,建议使用moss数据进行微调,效果不错。
77
 
78
  训练数据为jsonl格式,每一行的数据格式如下,其中conversation字段是必需的,可以根据实际需求添加或删除其他字段。
79
  可以参考项目中的data/dummy_data.jsonl文件。
@@ -201,27 +203,6 @@ python single_chat.py
201
  下面的样例均为UEGPT-InternLM2-20b模型所生成,未经修改,仅供参考。
202
 
203
 
204
- </details>
205
- <details><summary><b>Nanite Virtual Geometry</b></summary>
206
-
207
- </details>
208
-
209
- <details><summary><b>Lumen illumination</b></summary>
210
-
211
-
212
- </details>
213
-
214
- <details><summary><b>Physics Chaos</b></summary>
215
-
216
- </details>
217
-
218
-
219
- <details><summary><b>VR & AR</b></summary>
220
-
221
- </details>
222
-
223
-
224
- <details><summary><b>Toolchains</b></summary>
225
 
226
 
227
  </details>
@@ -233,6 +214,8 @@ python single_chat.py
233
 
234
  😎Stay tune!
235
 
 
 
236
 
237
 
238
 
 
3
  <div align="left">
4
 
5
  ![GitHub Repo stars](https://img.shields.io/github/stars/jiayaozhang/UnrealEngineGPT?style=social)
6
+ [![Generic badge](https://img.shields.io/badge/🤗-Huggingface%20Repo-green.svg)](https://huggingface.co/Jiayao)
7
+ [![Generic badge](https://img.shields.io/badge/🔥-Modelscope-white)](https://www.modelscope.cn/profile/Jannie)
8
 
 
9
  </div>
10
 
11
 
12
  欢迎加入虚幻引擎大模型的学习🤗。
13
 
14
 
15
+ ## News: 😎 开源模型
16
 
17
+ **在1/2*V100上进行训练**,经过中文词表扩充、增量预训练、多轮指令微调。该项目也支持对Baichuan、Qwen、InternLM、LLaMA、Falcon等模型进行高效增量预训练。
18
+ 🔔 使用本项目的训练代码,以及上述训练数据,我们训练并开源了以下模型。
19
+
20
+ 中文模型:
21
 
22
+ | 模型 | Huggingface | Modelscope|
23
+ |--------------------------------------------------------------------------------|-------------------------------------|------------|
24
+ | InternLM-UEGPT-7b | [Huggingface-internLM2-7b](https://huggingface.co/Jiayao/UEGPT-internlm-7b-qlora-sft-merge/tree/main) | [UEGPT-internLM2-7b](https://www.modelscope.cn/models/Jannie/UEGPT-internlm-7b-qlora-sft-merge/files) |
25
+ | InternLM-UEGPT-20b | [Huggingface-internLM2-20b](https://huggingface.co/Jiayao/UnrealGPT-internlm-20b-qlora-sft-merge) | [Modelscope-internLM2-20b](https://www.modelscope.cn/models/Jannie/UEGPT-internlm-20b-qlora-sft-merge/files)|
26
+ | UEGPT-Datasets | [Huggingface-UEGPT-Datasets](https://huggingface.co/datasets/Jiayao/UEGPT-Datasets) |[Modelscope-UEGPT-Datasets](https://www.modelscope.cn/datasets/Jannie/UEGPT-Datasets/files) |
27
 
28
 
29
  ## 相关项目
 
35
 
36
  ## 项目简介
37
 
38
+
39
  **虚幻引擎对话式大语言模型** 是一个开源的虚幻引擎大语言模型项目,支持QLoRA和全量参数微调InternLM等开源模型。
40
 
41
  正如项目名称一样,希望本项目能够为为虚幻引擎社区尽绵薄之力,促进游戏以及游戏引擎的发展。
 
46
  - 📗 支持全量参数指令微调、QLoRA低成本高效指令微调、其中QLoRA是我们主推的一种高效的训练方式。
47
  - 📗 支持绝大部分主流的开源大模型,如Baichuan2、CodeLLaMA、LLaMA2、LLaMA、Qwen、Baichuan、ChatGLM2、InternLM、Ziya、Bloom、XVERSE等。
48
  - 📗 支持lora与base model进行权重合并,推理更便捷。
49
+ - 📗️ 模型裁剪:通过[LLMPruner:大语言模型裁剪工具](https://github.com/yangjianxin1/LLMPruner) ,开源[裁剪后的Bloom模型权重](https://huggingface.co/Jiayao) 。在保留预训练中文知识的前提下,有效减少模型参数量,降低训练成本,提高训练效率。
50
+ - 📗 开源[UEGPT系列指令微调模型权重](https://huggingface.co/Jiayao) 。
51
  - 📗 在Open LLM Leaderboard上验证了QLoRA训练流程的有效性。
52
 
53
 
 
59
  pip install requirements.txt
60
  ```
61
 
62
+ <!-- ## 模型列表
63
 
64
  🔔 使用本项目的训练代码,以及上述训练数据,我们训练并开源了以下模型。
65
 
 
69
  |--------------------------------------------------------------------------------|-------------------------------------|------------|
70
  | [InternLM-UEGPT-7b](https://huggingface.co/YeungNLP/firefly-baichuan2-13b) | internlm/internlm-7b |1024 |
71
  | [InternLM-UEGPT-20b](https://huggingface.co/YeungNLP/firefly-baichuan-13b) | internlm/internlm-20b |1024 |
72
+ -->
73
 
74
  ## 训练数据
 
 
 
 
75
 
76
  | [moss-003-sft-data](https://huggingface.co/datasets/YeungNLP/moss-003-sft-data) | 由复旦大学MOSS团队开源的中英文多轮对话数据,包含100万+数据
 
77
 
78
+ 🔔 目前本项目参考复旦大学MOSS团队开源的中英文多轮对话数据统一的数据格式,整理了上千条虚幻引擎问答多轮数据对话
79
 
80
  训练数据为jsonl格式,每一行的数据格式如下,其中conversation字段是必需的,可以根据实际需求添加或删除其他字段。
81
  可以参考项目中的data/dummy_data.jsonl文件。
 
203
  下面的样例均为UEGPT-InternLM2-20b模型所生成,未经修改,仅供参考。
204
 
205
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
206
 
207
 
208
  </details>
 
214
 
215
  😎Stay tune!
216
 
217
+ license: Apache License 2.0
218
+
219
 
220
 
221