Retrieva, Inc. org

The first version of the Model card.

Retrieva, Inc. org

Use の tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True) の部分は tokenizer = AutoTokenizer.from_pretrained(model_id) で大丈夫です
model の勢いで tokenizer にもつけちゃいました...

Training Data の部分で The Stack の後にそのまま The model was trained on 180 billion tokens using the above dataset. きてると The Stack だけで 180B?の解釈可能性があるような気がしました。

More Information と Model Card Authors の optional は外していいと思います。

evaluation の表はモデル名は左寄せ、スコアは右寄せにしておいた方が読みやすい?ような気もします。

Retrieva, Inc. org

ありがとうございます、表の表示は修正しました。
optionalは私も外していいと思います。

Training Data の部分で The Stack の後にそのまま The model was trained on 180 billion tokens using the above dataset. きてると The Stack だけで 180B?の解釈可能性があるような気がしました。

chat gpt先生に聞いたところ以下でした。私はそのままでもいいと思います。(より厳密に言うなら修正)


The Retrieva BERT model was pre-trained on the reunion of five datasets:

  1. Japanese CommonCrawl Dataset by LLM-jp.
  2. RefinedWeb.
  3. Chinese Wikipedia dumped on 20240120.
  4. Korean Wikipedia dumped on 20240120.
  5. The Stack

The model was trained on 180 billion tokens using the above dataset.

ここで180 billion tokensはThe Stackのみだと解釈できる?


180 billion tokensがThe Stackのみを指すかどうかを解釈するには、文脈を慎重に分析する必要があります。以下の点に注目してみてください:

  1. 構造と文脈: 180 billion tokensの前に特定のデータセットが言及されているか。
  2. 前後の説明: 180 billion tokensの説明が、The Stackだけに関連する情報として提供されているか、それとも全体のデータセットに関連する情報として提供されているか。

現時点で提供された文からは以下のように解釈できます:

  • 「Retrieva BERT model was pre-trained on the reunion of five datasets...The model was trained on 180 billion tokens using the above dataset.」という文脈では、180 billion tokensは「上記のデータセットを使用して」トレーニングされたと述べられています。
  • これが意味するところは、180 billion tokensが全てのデータセットを総合したもののように思われます。

したがって、180 billion tokensがThe Stackのみに該当するという解釈は正しくない可能性が高いです。むしろ、180 billion tokensは、リストされた全てのデータセットの総和として考えられるべきです。

Retrieva, Inc. org

ありがとうございます。Optionalは外しました。

180 billion tokenの部分は勝又さんが確認されたときには改行ができてなくてStackに文がそのままつながっていたバージョンだと思います。そこはSlackで指摘されていて改行されるように直したので、今のままならよさそうかなと思います。

jnishi changed pull request status to merged

Sign up or log in to comment