Riyuechang commited on
Commit
b71cdd2
1 Parent(s): 06329dc

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +42 -0
README.md CHANGED
@@ -8,3 +8,45 @@ tags:
8
  - PTT
9
  - PTT_Chat
10
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8
  - PTT
9
  - PTT_Chat
10
  ---
11
+
12
+ # 簡介
13
+ 本模型是基於[MediaTek-Research/Breeze-7B-Instruct-v1_0](https://huggingface.co/MediaTek-Research/Breeze-7B-Instruct-v1_0)微調後的產物
14
+ 模型使用來自[PTT](https://www.ptt.cc/bbs/index.html)網站中的[Gossiping](https://www.ptt.cc/bbs/Gossiping/index.html)分類的資料訓練
15
+ 過程中使用了一些方法從海量的數據中,過濾出噪聲較小(理論上)的部份作為訓練數據
16
+ 訓練資料: [Riyuechang/PTT-Corpus-100K_Gossiping-1400-39400](https://huggingface.co/datasets/Riyuechang/PTT-Corpus-100K_Gossiping-1400-39400)
17
+
18
+ # 設備
19
+ - Ubuntu 22.04.4 LTS
20
+ - NVIDIA GeForce RTX 3060 12G
21
+
22
+ # Lora參數
23
+ ```python
24
+ r=8,
25
+ lora_alpha=32,
26
+ lora_dropout=0.1,
27
+ task_type="CAUSAL_LM",
28
+ target_modules="all-linear",
29
+ bias="none",
30
+ use_dora=True,
31
+ use_rslora=True
32
+ ```
33
+
34
+ # 訓練參數
35
+ ```python
36
+ per_device_train_batch_size=28,
37
+ gradient_accumulation_steps=1,
38
+ num_train_epochs=3,
39
+ warmup_ratio=0.1,
40
+ learning_rate=2e-5,
41
+ bf16=True,
42
+ save_strategy="steps",
43
+ save_steps=500,
44
+ save_total_limit=10,
45
+ logging_steps=10,
46
+ output_dir=log_output,
47
+ optim="paged_adamw_8bit",
48
+ gradient_checkpointing=True
49
+ ```
50
+
51
+ # 結果
52
+ - loss: 1.1035