Update README.md
Browse files
README.md
CHANGED
@@ -48,7 +48,7 @@ Longbench Chinese
|
|
48 |
|InternlM-7B-8k | 16.3|0.9|12.4|
|
49 |
|ChatGLM2-6B-32k|37.6|64.5|16.2|
|
50 |
|Vicuna-v1.5-7B-16k|19.3|5.0|15.1|
|
51 |
-
|Ziya-Reader-13B-v1.0| **
|
52 |
|
53 |
Multi-doc QA是多文档问答任务,给定问题和多个文档,根据其中含有正确信息的文档回答问题。该任务衡量模型的相关性判断和记忆力,以及问答的能力。在该任务上Ziya-Reader-13B-v1.0大幅领先所有模型,包括更长窗口的模型。
|
54 |
|
@@ -67,7 +67,7 @@ Summarization是长文本摘要任务,给定包含多个说话人的会议记
|
|
67 |
|gpt3.5-turbo-16k | 28.7 | 23.1|
|
68 |
|chatGLM2-32k | 34.3 | 20.3 |
|
69 |
|Baichuan-13B-Chat2 | 32.4 | 27.2 |
|
70 |
-
|Ziya-Reader-13B-v1.0| **
|
71 |
|
72 |
我们发现Multi-doc QA中的文档都按照相关性从高到低排列,正确答案往往在第一或前几个,并不能反映模型的相关性判断能力。因此我们对该测试集打乱文档的顺序,再测试各个模型的效果。结果发现目前大多数模型的效果均显著下降,从5%到17%不等,而我们的模型非常鲁棒,降幅不到2%。
|
73 |
|
|
|
48 |
|InternlM-7B-8k | 16.3|0.9|12.4|
|
49 |
|ChatGLM2-6B-32k|37.6|64.5|16.2|
|
50 |
|Vicuna-v1.5-7B-16k|19.3|5.0|15.1|
|
51 |
+
|Ziya-Reader-13B-v1.0| **44.7**| **98.5**|**15.6**|
|
52 |
|
53 |
Multi-doc QA是多文档问答任务,给定问题和多个文档,根据其中含有正确信息的文档回答问题。该任务衡量模型的相关性判断和记忆力,以及问答的能力。在该任务上Ziya-Reader-13B-v1.0大幅领先所有模型,包括更长窗口的模型。
|
54 |
|
|
|
67 |
|gpt3.5-turbo-16k | 28.7 | 23.1|
|
68 |
|chatGLM2-32k | 34.3 | 20.3 |
|
69 |
|Baichuan-13B-Chat2 | 32.4 | 27.2 |
|
70 |
+
|Ziya-Reader-13B-v1.0| **44.7** | **40.9**|
|
71 |
|
72 |
我们发现Multi-doc QA中的文档都按照相关性从高到低排列,正确答案往往在第一或前几个,并不能反映模型的相关性判断能力。因此我们对该测试集打乱文档的顺序,再测试各个模型的效果。结果发现目前大多数模型的效果均显著下降,从5%到17%不等,而我们的模型非常鲁棒,降幅不到2%。
|
73 |
|