PRIME-RL
/

Eurus-2-7B-PRIME

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

hanbin commited on 7 days ago

Commit

fe7e4a8

·

verified ·

1 Parent(s): 72f316a

update cite

Files changed (1) hide show

README.md +8 -4

README.md CHANGED Viewed

@@ -139,10 +139,14 @@ We achieved this with only 1/10 data and model resources compared with Qwen-Math
 ## Citation
 ```latex
-@misc{cui2024process,
-  title={Process Reinforcement through Implicit Rewards},
-  author={Ganqu Cui and Lifan Yuan and Zefan Wang and Hanbin Wang and Wendi Li and Bingxiang He and Yuchen Fan and Tianyu Yu and Qixin Xu and Weize Chen and Jiarui Yuan and Huayu Chen and Kaiyan Zhang and Xingtai Lv and Shuo Wang and Yuan Yao and Hao Peng and Yu Cheng and Zhiyuan Liu and Maosong Sun and Bowen Zhou and Ning Ding},
-  year={2025}
 }
 ```

 ## Citation
 ```latex
+@misc{cui2025processreinforcementimplicitrewards,
+      title={Process Reinforcement through Implicit Rewards},
+      author={Ganqu Cui and Lifan Yuan and Zefan Wang and Hanbin Wang and Wendi Li and Bingxiang He and Yuchen Fan and Tianyu Yu and Qixin Xu and Weize Chen and Jiarui Yuan and Huayu Chen and Kaiyan Zhang and Xingtai Lv and Shuo Wang and Yuan Yao and Xu Han and Hao Peng and Yu Cheng and Zhiyuan Liu and Maosong Sun and Bowen Zhou and Ning Ding},
+      year={2025},
+      eprint={2502.01456},
+      archivePrefix={arXiv},
+      primaryClass={cs.LG},
+      url={https://arxiv.org/abs/2502.01456},
 }
 ```