---
license: apache-2.0
datasets:
- BelleGroup/train_0.5M_CN
language:
- zh
library_name: transformers
pipeline_tag: text-generation
tags:
- art
---

# 春华：基于Bloom的古汉语问答模型

春华是一个基于Bloom的古汉语问答模型，使用汉语古典文本数据库[scripta-sinica](https://github.com/mahavivo/scripta-sinica)进行微调，并结合BELLE项目生成的中文指令数据来让模型具有较好的对话能力。
scripta-sinica包含由[殆知阁](http://122.200.75.13/)提供的10万卷，近13亿字古籍文本，约3.14 GB。可以作为对比的是，《四库全书》共收书3503种，79337卷，近230万页，约8亿字。
因此，模型具有丰富的中华古代知识，以及较强的古汉语理解能力。

## 缺陷：
虽然模型经历了大量数据的训练，但其输出结果可能存在不准确或存在偏见的情况。

Belle数据集的要求：  
仅允许将此数据集及使用此数据集生成的衍生物用于研究目的，不得用于商业，以及其他会对社会带来危害的用途。 本数据集不代表任何一方的立场、利益或想法，无关任何团体的任何类型的主张。因使用本数据集带来的任何损害、纠纷，本项目不承担任何责任。