--- license: apache-2.0 datasets: - BelleGroup/train_0.5M_CN language: - zh library_name: transformers pipeline_tag: text-generation tags: - art --- # 春华:基于Bloom的古汉语问答模型 春华是一个基于Bloom的古汉语问答模型,使用汉语古典文本数据库[scripta-sinica](https://github.com/mahavivo/scripta-sinica)进行微调,并结合BELLE项目生成的中文指令数据来让模型具有较好的对话能力。 scripta-sinica包含由[殆知阁](http://122.200.75.13/)提供的10万卷,近13亿字古籍文本,约3.14 GB。可以作为对比的是,《四库全书》共收书3503种,79337卷,近230万页,约8亿字。 因此,模型具有丰富的中华古代知识,以及较强的古汉语理解能力。 ## 缺陷: 虽然模型经历了大量数据的训练,但其输出结果可能存在不准确或存在偏见的情况。 Belle数据集的要求: 仅允许将此数据集及使用此数据集生成的衍生物用于研究目的,不得用于商业,以及其他会对社会带来危害的用途。 本数据集不代表任何一方的立场、利益或想法,无关任何团体的任何类型的主张。因使用本数据集带来的任何损害、纠纷,本项目不承担任何责任。