Llama-zh-base is an open-source project that offers a complete training pipeline for building Chinese large language models, ranging from dataset preparation to tokenization, pre-training, prompt tuning, and the reinforcement learning technique RLHF. This is the Llama-zh-base model trained from scratch using the Chinese pretrain corpus in this project.The amount of parameters is about 0.8B.

使用120G中文语料重头开始预训练的Llama模型,旨在提供可用的中小型基础模型。重新构建了embedding层和tokenizer。目前未经过指令微调。参数量约为0.8B左右。

项目github link Repo Links

简介

LLama-zh-base模型是基于目前llama系列的模型架构,从头重新预训练的LLama模型。 由于llama原模型本身并未在中文语料上单独训练,词表中也并未包括太多的中文字符。 本项目重新构建了Llama的分词工具与词表。并重新初始化了对应的模型,在中文领域上的持续预训练。

模型内容

Chatterbox-Llama-zh系列

模型名称 模型大小 链接
Chatterbox-Llama-zh-base 0.8B https://huggingface.co/TurboPascal/Chatterbox-LLaMA-zh-base
Chatterbox-Llama-zh-2b6 2B6 Coming soon

Notes:

  1. 本模型没有使用原LLaMA的权重,因此无需顾虑LLama权重协议的问题。

数据

预训练阶段使用开源数据与本项目爬取的部分数据。共使用约33G中文预训练数据、MC4-zh、Code数据集。清洗后筛选共120G左右数据训练1 epoch,初始学习率1e-4。未经过指令微调。

中文预训练数据

Downloads last month
15
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.