Riyuechang commited on
Commit
333b089
1 Parent(s): 16e574d

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +58 -3
README.md CHANGED
@@ -1,3 +1,58 @@
1
- ---
2
- license: gemma
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: gemma
3
+ base_model:
4
+ - google/gemma-2-2b-it
5
+ datasets:
6
+ - Riyuechang/PTT-Corpus-100K_Gossiping-1400-39400_v2
7
+ pipeline_tag: text-generation
8
+ tags:
9
+ - PTT
10
+ - PTT_Chat
11
+ ---
12
+
13
+ # 版本資訊
14
+ 使用新的噪聲較小(理論上)的數據訓練
15
+ Lora使用了更大的r(32)
16
+ 取消了Dora
17
+ 因為Dora的提升有限,還會大幅降低訓練和推理的效率
18
+
19
+ # 簡介
20
+ 本模型是基於[google/gemma-2-2b-it](https://huggingface.co/google/gemma-2-2b-it)微調後的產物
21
+ 模型使用來自[PTT](https://www.ptt.cc/bbs/index.html)網站中的[Gossiping](https://www.ptt.cc/bbs/Gossiping/index.html)分類的資料訓練
22
+ 過程中使用了一些方法從海量的數據中,過濾出噪聲較小(理論上)的部份作為訓練數據
23
+ 訓練資料: [Riyuechang/PTT-Corpus-100K_Gossiping-1400-39400_v2](https://huggingface.co/datasets/Riyuechang/PTT-Corpus-100K_Gossiping-1400-39400_v2)
24
+
25
+ # 設備
26
+ - Ubuntu 22.04.4 LTS
27
+ - NVIDIA GeForce RTX 3060 12G
28
+
29
+ # Lora參數
30
+ ```python
31
+ r=32,
32
+ lora_alpha=32,
33
+ lora_dropout=0.1,
34
+ task_type="CAUSAL_LM",
35
+ target_modules="all-linear",
36
+ bias="none",
37
+ use_rslora=True
38
+ ```
39
+
40
+ # 訓練參數
41
+ ```python
42
+ per_device_train_batch_size=28,
43
+ gradient_accumulation_steps=1,
44
+ num_train_epochs=3,
45
+ warmup_ratio=0.1,
46
+ learning_rate=5e-5,
47
+ bf16=True,
48
+ save_strategy="steps",
49
+ save_steps=1000,
50
+ save_total_limit=5,
51
+ logging_steps=10,
52
+ output_dir=log_output,
53
+ optim="paged_adamw_8bit",
54
+ gradient_checkpointing=True
55
+ ```
56
+
57
+ # 結果
58
+ - loss: 1.8808