--- license: apache-2.0 --- # RWKV x060 6B JPN モデルカード ## モデル概要 - **モデル名**: RWKV x060 6B JPN - **アーキテクチャ**: RWKV(Receptance Weighted Key Value) - **元モデル**: x060 7B JPN - **言語**: 日本語 ## モデル仕様 - **パラメータ数**: 約6B(60億) - **レイヤー数**: 25層(元モデルの32層から7層プルーニング) - **次元数**: 4096次元 ## 蒸留プロセス - **蒸留データセット**: 30,000ペアの蒸留データ - **学習方法**: 元モデルのLogitsからTop-k=100のみを採用 - **学習Epoch**: 2 - **トレーニング手法**: 可変LoRA(Low-Rank Adaptation) ## モデル構造詳細 - **Embedding層**: 凍結 - **出力層(Head)**: 凍結 - **Layer 0**: フルパラメータ学習 - **Layer 1-24**: LoRA(Rank=128)による学習 ## 特徴 - x060 7B JPNからの蒸留モデルであり、元のモデルの性能を維持しつつ、サイズを縮小 - プルーニングとLORAを組み合わせた効率的な学習手法を採用 - 日本語タスクに特化した調整 ## 使用上の注意 - 日本語タスクに最適化されているため、他言語での性能は保証されません - モデルの出力は人間の監督下で使用し、適切に検証することをお勧めします ## ライセンス [Apache2.0] ## 引用 [RWKV x060 7B JPN] ## 連絡先 [OpenMOSE]