Spaces:
Running
Running
File size: 594 Bytes
751936e f4973d4 da93e39 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 |
moss-moon-003-base 模型的 tokenizer 中,`eos token` 为 `<|endoftext|>`,在训练SFT模型时需要将该 token 指定为 `<eom>` token.
## SFT 阶段
- `<eoh>`: end of human
- `<eot>`: end of thoughts
- `<eoc>`: end of commands
- `<eom>`: end of moss
## 注意
moss的
```py
def convert_tokens_to_string(self, tokens):
"""Converts a sequence of tokens (string) in a single string."""
text = "".join(tokens)
text = bytearray([self.byte_decoder[c] for c in text]).decode("utf-8", errors=self.errors)
return text
```
## troubleshooting
|