用于测试的极小语言模型,有90k、290k和1500k参数三个规格。
仅做了自回归预训练,上下文长度256,没有任何监督微调等后训练过程,因此只用于验证下一词元生成的可行性。
词表大小只有两千多,主要是汉字和ASCII常用字符,因此输入提示词中尽量不要太复杂,以免出现<|unknown|>导致推理提前停止。
建议只用“人类的本质是什么”这样的简单句子测试,且上下文长度不要超过256。
-