Riyuechang
/

Breeze-7B-PTT-Chat-v2

Text Generation

Model card Files Files and versions Community

Breeze-7B-PTT-Chat-v2 / README.md

Riyuechang's picture

Update README.md

460ac3a verified 4 months ago

|

history blame contribute delete

1.54 kB

	---
	license: apache-2.0
	base_model: MediaTek-Research/Breeze-7B-Instruct-v1_0
	datasets:
	- Riyuechang/PTT-Corpus-100K_Gossiping-1400-39400_v2
	pipeline_tag: text-generation
	tags:
	- PTT
	- PTT_Chat
	---

	# 版本資訊
	使用新的噪聲較小(理論上)的數據訓練
	Lora使用了更大的r(32)
	取消了Dora
	因為Dora的提升有限，還會大幅降低訓練和推理的效率

	# 簡介
	本模型是基於[MediaTek-Research/Breeze-7B-Instruct-v1_0](https://huggingface.co/MediaTek-Research/Breeze-7B-Instruct-v1_0)微調後的產物
	模型使用來自[PTT](https://www.ptt.cc/bbs/index.html)網站中的[Gossiping](https://www.ptt.cc/bbs/Gossiping/index.html)分類的資料訓練
	過程中使用了一些方法從海量的數據中，過濾出噪聲較小(理論上)的部份作為訓練數據
	訓練資料: [Riyuechang/PTT-Corpus-100K_Gossiping-1400-39400_v2](https://huggingface.co/datasets/Riyuechang/PTT-Corpus-100K_Gossiping-1400-39400_v2)

	# 設備
	- Ubuntu 22.04.4 LTS
	- NVIDIA GeForce RTX 3060 12G

	# Lora參數
	```python
	r=32,
	lora_alpha=32,
	lora_dropout=0.1,
	task_type="CAUSAL_LM",
	target_modules="all-linear",
	bias="none",
	use_rslora=True
	```

	# 訓練參數
	```python
	per_device_train_batch_size=28,
	gradient_accumulation_steps=1,
	num_train_epochs=3,
	warmup_ratio=0.1,
	learning_rate=2e-5,
	bf16=True,
	save_strategy="steps",
	save_steps=1000,
	save_total_limit=5,
	logging_steps=10,
	output_dir=log_output,
	optim="paged_adamw_8bit",
	gradient_checkpointing=True
	```

	# 結果
	- loss: 0.9391