Update README.md
Browse files
README.md
CHANGED
@@ -117,68 +117,8 @@ wiki_cate_schema_zh = {
|
|
117 |
|
118 |
|
119 |
|
120 |
-
# 4.现成数据集
|
121 |
|
122 |
-
|
123 |
-
| 名称 | 下载 | 数量 | 描述 |
|
124 |
-
| ------------------- | ---------------------------------------------------------------------------------------------------------------------- | ------ | -------------------------------------------------------------------------------------------------------------------------------------------------------- |
|
125 |
-
| InstructIE | [Google drive](https://drive.google.com/file/d/1raf0h98x3GgIhaDyNn1dLle9_HvwD6wT/view?usp=sharing) <br/> [百度云盘](https://pan.baidu.com/s/1-u8bD85H1Otbzk-gjLxaFw?pwd=c1i6) | 20w+ | InstructIE数据集(中英双语) |
|
126 |
-
|
127 |
-
|
128 |
-
|
129 |
-
`InstructIE` 数据集包含两个核心文件夹:`InstructIE-zh` 和 `InstructIE-en`。这两个文件夹都涵盖了中英双语的基于主题的IE指令数据。
|
130 |
-
|
131 |
-
- `'id'`:每条数据的唯一标识符,确保数据项的独立性和可追踪性。
|
132 |
-
- `'cate'`:**文本主题**分类,为文本内容提供了一个高级的分类标签(共有12种主题)。
|
133 |
-
- `'text'`:待抽取的文本。
|
134 |
-
- `'relation'`:代表**关系**三元组,这些字段允许用户自由构建信息抽取的指令和预期输出结果。
|
135 |
-
|
136 |
-
|
137 |
-
|
138 |
-
<details>
|
139 |
-
<summary><b>各字段的说明</b></summary>
|
140 |
-
|
141 |
-
|
142 |
-
| 字段 | 说明 |
|
143 |
-
| :---------: | :----------------------------------------------------------: |
|
144 |
-
| id | 每个数据点的唯一标识符。 |
|
145 |
-
| cate | 文本的主题类别,总计12种不同的主题分类。 |
|
146 |
-
| input | 模型的输入文本,目标是从中抽取涉及的所有关系三元组。 |
|
147 |
-
| instruction | 指导模型执行信息抽取任务的指示。 |
|
148 |
-
| output | 模型的预期输出结果。 |
|
149 |
-
| relation | 描述文本中包含的关系三元组,即实体间的联系(head, relation, tail)。 |
|
150 |
-
|
151 |
-
</details>
|
152 |
-
|
153 |
-
|
154 |
-
|
155 |
-
<details>
|
156 |
-
<summary><b>一条数据的示例</b></summary>
|
157 |
-
|
158 |
-
|
159 |
-
```json
|
160 |
-
{
|
161 |
-
"id": "四乙基锗_0",
|
162 |
-
"cate": "自然科学",
|
163 |
-
"input": "四乙基锗,简称TEG,是一种有机锗化合物,化学式4Ge。四乙基锗是锗的气相沉积法中一种重要的化合物。",
|
164 |
-
"entity": [
|
165 |
-
{"entity": "四乙基锗", "entity_type": "产品"},
|
166 |
-
{"entity": "TEG", "entity_type": "产品"},
|
167 |
-
{"entity": "有机锗化合物", "entity_type": "产品"},
|
168 |
-
{"entity": "Ge", "entity_type": "产品"}
|
169 |
-
],
|
170 |
-
"relation": [
|
171 |
-
{"head": "四乙基锗", "relation": "别名", "tail": "TEG"}
|
172 |
-
]
|
173 |
-
}
|
174 |
-
```
|
175 |
-
|
176 |
-
</details>
|
177 |
-
|
178 |
-
|
179 |
-
|
180 |
-
|
181 |
-
# 5.转换脚本
|
182 |
|
183 |
|
184 |
**训练数据转换**
|
@@ -344,7 +284,7 @@ python kg2instruction/convert_test.py \
|
|
344 |
|
345 |
|
346 |
|
347 |
-
#
|
348 |
|
349 |
我们提供了可直接使用 `zjunlp/knowlm-13b-ie` 模型进行推理的脚本[inference.py](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/src/inference.py), 请参考 [README.md](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/README.md) 配置环境等。
|
350 |
|
@@ -362,7 +302,7 @@ CUDA_VISIBLE_DEVICES="0" python src/inference.py \
|
|
362 |
|
363 |
|
364 |
|
365 |
-
#
|
366 |
我们提供一个位于 [evaluate.py](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/kg2instruction/evaluate.py) 的脚本,用于将模型的字符串输出转换为列表并计算 F1 分数。
|
367 |
|
368 |
```bash
|
|
|
117 |
|
118 |
|
119 |
|
|
|
120 |
|
121 |
+
# 4.转换脚本
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
122 |
|
123 |
|
124 |
**训练数据转换**
|
|
|
284 |
|
285 |
|
286 |
|
287 |
+
# 5.使用
|
288 |
|
289 |
我们提供了可直接使用 `zjunlp/knowlm-13b-ie` 模型进行推理的脚本[inference.py](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/src/inference.py), 请参考 [README.md](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/README.md) 配置环境等。
|
290 |
|
|
|
302 |
|
303 |
|
304 |
|
305 |
+
# 6.评估
|
306 |
我们提供一个位于 [evaluate.py](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/kg2instruction/evaluate.py) 的脚本,用于将模型的字符串输出转换为列表并计算 F1 分数。
|
307 |
|
308 |
```bash
|