RWKV-x060-Jpn-6B / README.md
OpenMOSE's picture
Update README.md
41d9eee verified
metadata
license: apache-2.0

RWKV x060 6B JPN モデルカード

モデル概要

  • モデル名: RWKV x060 6B JPN
  • アーキテクチャ: RWKV(Receptance Weighted Key Value)
  • 元モデル: x060 7B JPN
  • 言語: 日本語

モデル仕様

  • パラメータ数: 約6B(60億)
  • レイヤー数: 25層(元モデルの32層から7層プルーニング)
  • 次元数: 4096次元

蒸留プロセス

  • 蒸留データセット: 30,000ペアの蒸留データ
  • 学習方法: 元モデルのLogitsからTop-k=100のみを採用
  • 学習Epoch: 2
  • トレーニング手法: 可変LoRA(Low-Rank Adaptation)

モデル構造詳細

  • Embedding層: 凍結
  • 出力層(Head): 凍結
  • Layer 0: フルパラメータ学習
  • Layer 1-24: LoRA(Rank=128)による学習

特徴

  • x060 7B JPNからの蒸留モデルであり、元のモデルの性能を維持しつつ、サイズを縮小
  • プルーニングとLORAを組み合わせた効率的な学習手法を採用
  • 日本語タスクに特化した調整

使用上の注意

  • 日本語タスクに最適化されているため、他言語での性能は保証されません
  • モデルの出力は人間の監督下で使用し、適切に検証することをお勧めします

ライセンス

[Apache2.0]

引用

[RWKV x060 7B JPN]

連絡先

[OpenMOSE]