File size: 594 Bytes
751936e
 
 
 
 
 
 
 
 
 
 
 
 
 
 
f4973d4
 
 
 
 
 
 
 
 
 
 
 
da93e39
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34




moss-moon-003-base 模型的 tokenizer 中,`eos token``<|endoftext|>`,在训练SFT模型时需要将该 token 指定为 `<eom>` token.


## SFT 阶段

- `<eoh>`: end of human
- `<eot>`: end of thoughts
- `<eoc>`: end of commands
- `<eom>`: end of moss



## 注意

moss的

```py
    def convert_tokens_to_string(self, tokens):
        """Converts a sequence of tokens (string) in a single string."""
        text = "".join(tokens)
        text = bytearray([self.byte_decoder[c] for c in text]).decode("utf-8", errors=self.errors)
        return text
```


## troubleshooting