IDEA-CCNL
/

Ziya-Reader-13B-v1.0

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Justcode commited on Nov 16, 2023

Commit

290c3eb

·

1 Parent(s): 666fb5f

Update README.md

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -48,7 +48,7 @@ Longbench Chinese
 |InternlM-7B-8k | 16.3|0.9|12.4|
 |ChatGLM2-6B-32k|37.6|64.5|16.2|
 |Vicuna-v1.5-7B-16k|19.3|5.0|15.1|
-|Ziya-Reader-13B-v1.0| **42.8**| **66.0**|**15.3**|
 Multi-doc QA是多文档问答任务，给定问题和多个文档，根据其中含有正确信息的文档回答问题。该任务衡量模型的相关性判断和记忆力，以及问答的能力。在该任务上Ziya-Reader-13B-v1.0大幅领先所有模型，包括更长窗口的模型。
@@ -67,7 +67,7 @@ Summarization是长文本摘要任务，给定包含多个说话人的会议记
  |gpt3.5-turbo-16k | 28.7 | 23.1|
  |chatGLM2-32k | 34.3 | 20.3 |
  |Baichuan-13B-Chat2 | 32.4 | 27.2 |
- |Ziya-Reader-13B-v1.0| **42.8** | **40.9**|
 我们发现Multi-doc QA中的文档都按照相关性从高到低排列，正确答案往往在第一或前几个，并不能反映模型的相关性判断能力。因此我们对该测试集打乱文档的顺序，再测试各个模型的效果。结果发现目前大多数模型的效果均显著下降，从5%到17%不等，而我们的模型非常鲁棒，降幅不到2%。

 |InternlM-7B-8k | 16.3|0.9|12.4|
 |ChatGLM2-6B-32k|37.6|64.5|16.2|
 |Vicuna-v1.5-7B-16k|19.3|5.0|15.1|
+|Ziya-Reader-13B-v1.0| **44.7**| **98.5**|**15.6**|
 Multi-doc QA是多文档问答任务，给定问题和多个文档，根据其中含有正确信息的文档回答问题。该任务衡量模型的相关性判断和记忆力，以及问答的能力。在该任务上Ziya-Reader-13B-v1.0大幅领先所有模型，包括更长窗口的模型。
  |gpt3.5-turbo-16k | 28.7 | 23.1|
  |chatGLM2-32k | 34.3 | 20.3 |
  |Baichuan-13B-Chat2 | 32.4 | 27.2 |
+ |Ziya-Reader-13B-v1.0| **44.7** | **40.9**|
 我们发现Multi-doc QA中的文档都按照相关性从高到低排列，正确答案往往在第一或前几个，并不能反映模型的相关性判断能力。因此我们对该测试集打乱文档的顺序，再测试各个模型的效果。结果发现目前大多数模型的效果均显著下降，从5%到17%不等，而我们的模型非常鲁棒，降幅不到2%。