SylvanL
/

ChatTCM-7B-Pretrain

Text Generation

Model card Files Files and versions Community

SylvanL commited on Oct 24, 2024

Commit

d7b3ac0

·

verified ·

1 Parent(s): 37ee0ce

Update README.md

Files changed (1) hide show

README.md +5 -2

README.md CHANGED Viewed

@@ -10,13 +10,16 @@ tags:
 - medical
 ---
 在2张V800-80G上,
 基于Qwen/Qwen2-7B-Instruct, 在llamafactory框架上,
 使用SylvanL/Traditional-Chinese-Medicine-Dataset-Pretrain进行了2个epoch的继续预训练(Continue Pre-train).
 ```
 epoch 1:
@@ -52,7 +55,7 @@ llamafactory-cli train \
     --template default \
     --flash_attn auto \
     --dataset_dir {dataset_dir} \
-    --dataset CPT_generalMedical_362420,CPT_huatuoDataset_276042,CPT_medicalRecord_source1_61486,CPT_medicalRecord_source2_15307,CPT_medicalRecord_source3_230000,CPT_tcmKnowledge_source1_17921,CPT_tcmKnowledge_source2_12889,CPT_tcmBooks_source1_146244 \
     --cutoff_len 1024 \
     --learning_rate 6e-06 \
     --num_train_epochs 2.0 \

 - medical
 ---
 在2张V800-80G上,
 基于Qwen/Qwen2-7B-Instruct, 在llamafactory框架上,
 使用SylvanL/Traditional-Chinese-Medicine-Dataset-Pretrain进行了2个epoch的继续预训练(Continue Pre-train).
+在保留模型原有通用能力的前提下，使模型熟悉、记住，并更倾向于输出以下内容：
+1. 中医问诊单、处方笺、医生诊断及多种格式的病案、医案内容
+2. 中医领域教材与典籍
+3. 中成药、中药材、中医方剂、中医术语、中医疾病、中医症状、药膳食疗相关的知识点
 ```
 epoch 1:
     --template default \
     --flash_attn auto \
     --dataset_dir {dataset_dir} \
+    --dataset CPT_generalMedical_362420,{shibing624/huatuo_medical_qa_sharegpt},CPT_medicalRecord_source1_61486,CPT_medicalRecord_source2_15307,CPT_medicalRecord_source3_230000,CPT_tcmKnowledge_source1_17921,CPT_tcmKnowledge_source2_12889,CPT_tcmBooks_source1_146244 \
     --cutoff_len 1024 \
     --learning_rate 6e-06 \
     --num_train_epochs 2.0 \