冒昧的问一句,能否开源微调和PPO的实现代码吗?
#1
by
xiao111
- opened
- 你好, 冒昧的问一句,能否开源微调和PPO的实现代码吗?
计划主模型300❤开源
感谢作者,我想多咨询一下,实现 ppo 是用 chatglm 自己单独训练了奖励模型吗?
不全是,是叠加自己训练的rm模型
不全是,是叠加自己训练的rm模型
那么最后的 ppo,是主要是 trl 库还是其他库实现的呀。
peft
计划主模型300❤开源
感谢作者,我想多咨询一下,实现 ppo 是用 chatglm 自己单独训练了奖励模型吗?
不全是,是叠加自己训练的rm模型
不全是,是叠加自己训练的rm模型
那么最后的 ppo,是主要是 trl 库还是其他库实现的呀。
peft