OpenMOSE commited on
Commit
41d9eee
1 Parent(s): 1109053

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +45 -3
README.md CHANGED
@@ -1,3 +1,45 @@
1
- ---
2
- license: apache-2.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ ---
4
+ # RWKV x060 6B JPN モデルカード
5
+
6
+ ## モデル概要
7
+ - **モデル名**: RWKV x060 6B JPN
8
+ - **アーキテクチャ**: RWKV(Receptance Weighted Key Value)
9
+ - **元モデル**: x060 7B JPN
10
+ - **言語**: 日本語
11
+
12
+ ## モデル仕様
13
+ - **パラメータ数**: 約6B(60億)
14
+ - **レイヤー数**: 25層(元モデルの32層から7層プルーニング)
15
+ - **次元数**: 4096次元
16
+
17
+ ## 蒸留プロセス
18
+ - **蒸留データセット**: 30,000ペアの蒸留データ
19
+ - **学習方法**: 元モデルのLogitsからTop-k=100のみを採用
20
+ - **学習Epoch**: 2
21
+ - **トレーニング手法**: 可変LoRA(Low-Rank Adaptation)
22
+
23
+ ## モデル構造詳細
24
+ - **Embedding層**: 凍結
25
+ - **出力層(Head)**: 凍結
26
+ - **Layer 0**: フルパラメータ学習
27
+ - **Layer 1-24**: LoRA(Rank=128)による学習
28
+
29
+ ## 特徴
30
+ - x060 7B JPNからの蒸留モデルであり、元のモデルの性能を維持しつつ、サイズを縮小
31
+ - プルーニングとLORAを組み合わせた効率的な学習手法を採用
32
+ - 日本語タスクに特化した調整
33
+
34
+ ## 使用上の注意
35
+ - 日本語タスクに最適化されているため、他言語での性能は保証されません
36
+ - モデルの出力は人間の監督下で使用し、適切に検証することをお勧めします
37
+
38
+ ## ライセンス
39
+ [Apache2.0]
40
+
41
+ ## 引用
42
+ [RWKV x060 7B JPN]
43
+
44
+ ## 連絡先
45
+ [OpenMOSE]