File size: 1,477 Bytes
333b089
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
---
license: gemma
base_model:
- google/gemma-2-2b-it
datasets:
- Riyuechang/PTT-Corpus-100K_Gossiping-1400-39400_v2
pipeline_tag: text-generation
tags:
- PTT
- PTT_Chat
---

# 版本資訊
使用新的噪聲較小(理論上)的數據訓練  
Lora使用了更大的r(32)  
取消了Dora  
因為Dora的提升有限,還會大幅降低訓練和推理的效率  

# 簡介
本模型是基於[google/gemma-2-2b-it](https://huggingface.co/google/gemma-2-2b-it)微調後的產物  
模型使用來自[PTT](https://www.ptt.cc/bbs/index.html)網站中的[Gossiping](https://www.ptt.cc/bbs/Gossiping/index.html)分類的資料訓練  
過程中使用了一些方法從海量的數據中,過濾出噪聲較小(理論上)的部份作為訓練數據  
訓練資料: [Riyuechang/PTT-Corpus-100K_Gossiping-1400-39400_v2](https://huggingface.co/datasets/Riyuechang/PTT-Corpus-100K_Gossiping-1400-39400_v2)  
  
# 設備  
- Ubuntu 22.04.4 LTS  
- NVIDIA GeForce RTX 3060 12G

# Lora參數
```python
r=32,
lora_alpha=32,
lora_dropout=0.1,
task_type="CAUSAL_LM",
target_modules="all-linear",
bias="none",
use_rslora=True
```

# 訓練參數
```python
per_device_train_batch_size=28,  
gradient_accumulation_steps=1,  
num_train_epochs=3,  
warmup_ratio=0.1,  
learning_rate=5e-5,  
bf16=True,  
save_strategy="steps",  
save_steps=1000,  
save_total_limit=5,  
logging_steps=10,  
output_dir=log_output,  
optim="paged_adamw_8bit",  
gradient_checkpointing=True
```

# 結果
- loss: 1.8808