File size: 1,543 Bytes
06329dc b71cdd2 b5049db 460ac3a b5049db b71cdd2 b5049db b71cdd2 045d3ab b71cdd2 045d3ab b71cdd2 045d3ab |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 |
---
license: apache-2.0
base_model: MediaTek-Research/Breeze-7B-Instruct-v1_0
datasets:
- Riyuechang/PTT-Corpus-100K_Gossiping-1400-39400_v2
pipeline_tag: text-generation
tags:
- PTT
- PTT_Chat
---
# 版本資訊
使用新的噪聲較小(理論上)的數據訓練
Lora使用了更大的r(32)
取消了Dora
因為Dora的提升有限,還會大幅降低訓練和推理的效率
# 簡介
本模型是基於[MediaTek-Research/Breeze-7B-Instruct-v1_0](https://huggingface.co/MediaTek-Research/Breeze-7B-Instruct-v1_0)微調後的產物
模型使用來自[PTT](https://www.ptt.cc/bbs/index.html)網站中的[Gossiping](https://www.ptt.cc/bbs/Gossiping/index.html)分類的資料訓練
過程中使用了一些方法從海量的數據中,過濾出噪聲較小(理論上)的部份作為訓練數據
訓練資料: [Riyuechang/PTT-Corpus-100K_Gossiping-1400-39400_v2](https://huggingface.co/datasets/Riyuechang/PTT-Corpus-100K_Gossiping-1400-39400_v2)
# 設備
- Ubuntu 22.04.4 LTS
- NVIDIA GeForce RTX 3060 12G
# Lora參數
```python
r=32,
lora_alpha=32,
lora_dropout=0.1,
task_type="CAUSAL_LM",
target_modules="all-linear",
bias="none",
use_rslora=True
```
# 訓練參數
```python
per_device_train_batch_size=28,
gradient_accumulation_steps=1,
num_train_epochs=3,
warmup_ratio=0.1,
learning_rate=2e-5,
bf16=True,
save_strategy="steps",
save_steps=1000,
save_total_limit=5,
logging_steps=10,
output_dir=log_output,
optim="paged_adamw_8bit",
gradient_checkpointing=True
```
# 結果
- loss: 0.9391 |