Add library name, pipeline tag and link to code

#4
by nielsr HF staff - opened
Files changed (1) hide show
  1. README.md +81 -70
README.md CHANGED
@@ -1,3 +1,10 @@
 
 
 
 
 
 
 
1
  <div align="center">
2
  <img src="Images/title.png" width="700" height="200">
3
  </div>
@@ -5,65 +12,62 @@
5
  <h1>Fin-R1:通过强化学习驱动的金融推理大模型</h1>
6
 
7
  <!-- 徽章部分 -->
8
- [![License](https://img.shields.io/badge/license-Apache_2.0-blue.svg)](https://www.apache.org/licenses/LICENSE-2.0)[![模型下载](https://img.shields.io/badge/🤗-下载模型-blue)](https://huggingface.co/SUFE-AIFLM-Lab/Fin-R1)[![技术报告](https://img.shields.io/badge/📚-技术报告-orange)](https://arxiv.org/abs/2503.16252)                                         
9
-
10
  <!-- 语言切换链接 -->
11
- 📄 [中文](./README.md) | [EN](./README_en.md)         
12
  </div>
13
 
14
  Fin-R1 是一款针对金融领域复杂推理的大型语言模型,由上海财经大学统计与数据科学学院张立文教授与其领衔的金融大语言模型课题组(SUFE-AIFLM-Lab)联合财跃星辰研发并开源发布。该模型以 Qwen2.5-7B-Instruct 为基座,通过高质量的可验证金融问题微调训练,最终表现在多个金融领域基准测试上的表现达到参评模型的SOTA水平。
15
 
 
16
 
17
-
18
- ## 📌 目录<a name="toc"></a>
19
- - [场景应用](#summary)
20
- - [金融代码](#金融代码)
21
- - [金融计算](#金融计算)
22
- - [英语金融计算](#英语金融计算)
23
- - [金融安全合规](#金融安全合规)
24
- - [智能风控](#智能风控)
25
  - [ESG分析](#ESG分析)
26
- - [总体工作流程](#总体工作流程)
27
- - [数据构建](#data)
28
- - [微调训练](#trainning)
29
- - [模型评测结果](#results)
30
  - [模型使用方法](#use)
31
- - [未来展望](#todo)
32
- - [联系我们](#connection)
33
 
34
- ## 💡 场景应用 <a name="summary"></a>       
35
  Fin-R1 是一款专为金融推理领域设计的大语言模型,采用轻量化的 7B 参数量级架构。在显著降低部署成本的同时,该模型通过在针对金融推理场景的高质量思维链数据上采用 SFT(监督微调)和 RL(强化学习)两阶段训练,为模型在金融领域的应用提供了坚实的理论支撑、业务规则、决策逻辑以及技术实现能力,从而有效提升模型的金融复杂推理能力,为银行、证券、保险以及信托等金融核心业务场景提供有力支持。
36
 
37
- ![数据-场景](Images/.frame_cn2.png)       
38
-
39
  ## 金融代码
40
  金融代码是指在金融领域中用于实现各种金融模型、算法和分析任务的计算机编程代码,涵盖了从简单的财务计算到复杂的金融衍生品定价、风险评估和投资组合优化等多个方面,以方便金融专业人士进行数据处理、统计分析、数值计算和可视化等工作。
41
- ![FinancialCode](Images/Financial_Code.gif)      
42
  ## 金融计算
43
  金融计算是对金融领域的各种问题进行定量分析和计算的过程,其核心在于通过建立数学模型和运用数值方法来解决实际金融问题,可为金融决策提供科学依据,帮助金融机构和投资者更好地管理风险、优化资源配置和提高投资回报率。
44
- ![FinancialCalculations](Images/Financial_Calculations.gif)      
45
  ## 英语金融计算
46
  英语金融计算强调在跨语言环境下使用英语进行金融模型的构建和计算,并能够以英语撰写金融分析报告和与国际同行进行沟通交流。
47
- ![EnglishFinancialCalculations](Images/English_Financial_Calculations.gif)       
48
  ## 金融安全合规
49
  金融安全合规聚焦于防范金融犯罪与遵守监管要求,帮助企业建立健全的合规管理体系,定期进行合规检查和审计,确保业务操作符合相关法规要求。
50
- ![FinancialSecurityandCompliance](Images/Financial_Security_and_Compliance.gif)             
51
  ## 智能风控
52
  智能风控利用AI与大数据技术识别和管理金融风险,与传统风控手段相比,智能风控具有更高的效率、准确性和实时性,它通过对海量金融数据的深度挖掘和分析,能够发现潜在的风险模式和异常交易行为,从而及时预警和采取相应的风险控制措施。
53
- ![IntelligentRiskControl](Images/Intelligent_Risk_Control.gif)           
54
  ## ESG分析
55
  ESG分析通过评估企业在环境(Environmental)、社会(Social)、治理(Governance)的表现,衡量其可持续发展能力,确保投资活动不仅能够获得财务回报,还能促进可持续发展和社会责任的履行。金融机构和企业也通过提升自身的 ESG 绩效,来满足投资者和社会对企业更高的期望和要求。
56
- ![ESG](Images/ESG.gif)     
57
-
58
-  
59
 
60
 
61
  ## 总体工作流程
62
  我们基于 DeepSeek-R1 构建了数据蒸馏框架,并严格按照官方参数设定进行数据处理,采用两阶段数据筛选方法提升金融领域数据质量,生成了SFT数据集和RL数据集。在训练过程中,我们利用Qwen2.5-7B-Instruct,通过监督微调(SFT)和强化学习(RL)训练金融推理大模型 Fin-R1,以提升金融推理任务的准确性和泛化能力。
63
- ![总体工作流程](Images/.frame2_cn.png)             
64
 
65
- ## 🛠️ 数据构建<a name="data"></a>
66
- 为将 DeepSeek-R1 的推理能力迁移至金融场景并解决高质量金融推理数据问题,我们用Deepseek-R1(满血版)针对涵盖行业语料(FinCorpus、Ant_Finance),专业认知(FinPEE),业务知识(FinCUGE、FinanceIQ、Finance-Instruct-500K),表格解析(FinQA),市场洞察(TFNS),多轮交互(ConvFinQA)以及量化投资(FinanceQT)的多个数据集进行领域知识蒸馏筛选,构建了约 60k 条面向专业金融推理场景的高质量 COT 数据集 Fin-R1-Data 。该数据集涵盖中英文金融垂直领域的多维度专业知识,并根据具体任务内容将其分为金融代码、金融专业知识、金融非推理类业务知识和金融推理类业务知识四大模块,可有效支撑银行、基金和证券等多个金融核心场景。本研究构建了基于 Deepseek-R1 的数据蒸馏框架,并创新性提出对思维链进行“答案+推理”双轮质量打分筛选方法,首轮基于规则匹配和 Qwen2.5-72B-Instruct 对答案准确性评分,次轮对推理链的逻辑一致性、术语合规性等推理逻辑进行深度校验以保证数据质量。
67
 
68
  ![数据处理](Images/data_construct.png)
69
 
@@ -98,15 +102,15 @@ ESG分析通过评估企业在环境(Environmental)、社会(Social)、
98
  ### Fin-R1-Data数据分布如下:
99
  Fin-R1-Data 涵盖中英文金融垂直领域的多维度专业知识,并根据具体任务内容将其分为金融代码、金融专业知识、金融非推理类业务知识和金融推理类业务知识四大模块,可有效支撑银行、证券以及信托等多个金融核心业务场景。
100
 
101
- ![grpo](Images/frame_cn.png)        
102
 
103
  |数据集|数据量|
104
  |-------------|--------|
105
  |ConvFinQA-R1-Distill |7629|
106
  |Finance-Instruct-500K-R1-Distill | 11300 |
107
  |FinCUGE-R1-Distill | 2000 |
108
- |FinQA-R1-Distill | 2948 |
109
- |TFNS-R1-Distill | 2451|  
110
  |FinanceIQ-R1-Distill | 2596 |
111
  |FinanceQT-R1-Distill | 152 |
112
  |Ant_Finance-R1-Distill | 1548 |
@@ -118,43 +122,43 @@ Fin-R1-Data 涵盖中英文金融垂直领域的多维度专业知识,并根
118
 
119
 
120
 
121
- ## 🚀 微调训练<a name="trainning"></a>
122
 
123
  ### 两阶段流程
124
  针对金融领域复杂推理任务,我们利用 Qwen2.5-7B-Instruct 进行两阶段微调训练得到金融推理大语言模型 Fin-R1 。首先通过高质量金融推理数据的 SFT (Supervised Fine-Tuning) 帮助模型初步提升金融推理能力,然后在 GRPO(Group Relative Policy Optimization) 算法的基础上结合格式奖励和准确度奖励进行强化学习,以此进一步提升金融推理任务的准确性和泛化能力。
125
- #### 第一阶段----推理能力注入:
126
 
127
  针对金融推理任务中的复杂推理,我们第一阶段使用 ConvFinQA 和 FinQA 金融数据集对 Qwen2.5-7B-Instruct 进行了监督微调。经过一轮微调训练,确保模型能够深入理解并处理复杂的金融推理问题。
128
-
129
- #### 第二阶段----强化学习优化:
130
 
131
  在模型掌握复杂推理技能后,我们采用 GRPO(Group Relative Policy Optimization)算法作为核心框架,以双重奖励机制优化模型输出的格式和准确度,并在此基础上引入了基于模型的验证器(Model-Based Verifier),采用 Qwen2.5-Max 进行答案评估来改进基于正则表达式的奖励可能存在的偏差,生成更加精确可靠的奖励信号,从而提升强化学习的效果和稳定性。
132
 
133
  ![grpo](Images/trainning.png)
134
 
135
 
136
- ## 🚨 模型评测结果 <a name="results"></a>
137
  我们在覆盖多项金融业务场景的基准测试上对模型进行评估,在评测结果中,只经过指令微调 (SFT) 的模型 Fin-R1-SFT 在金融场景中相较于基础模型已经取得了一定性能提升,但是相比于 DeepSeek-R1 仍有提升空间,我们于是在 Fin-R1-SFT 基础上再进行强化学习训练,结果发现经过指令微调 (SFT) 加强化学习 (RL) 训练的 Fin-R1 以仅 7B 的轻量化参数规模展现出显著的性能优势,达到 75.2 的平均得分位居第二,全面超越参评的同规模模型,同时与行业标杆 DeepSeek-R1 平均分差距仅3.0, 且超越DeepSeek-R1-Distill-Llama-70B(69.2)6.0分。此外 Fin-R1 在聚焦真实金融表格数值推理任务的 FinQA 以及多轮推理交互场景的 ConvFinQA 两大关键任务测试上分别以 76.0 和 85.0 的得分在参评模型中登顶第一,展现出了模型在金融推理场景及金融非推理场景中的强大处理能力。
138
 
139
 
140
  | Model | Parameters | FinQA | ConvFinQA | Ant_Finance | TFNS | Finance-Instruct-500k | Average |
141
  |------------------------------|------------|--------|-----------|-------------|--------|-------------------------|---------|
142
- | DeepSeek-R1 | 671B | 71.0 | 82.0 | __90.0__ | 78.0 | __70.0__ | __78.2__| 
143
  | __Fin-R1__ | 7B |__76.0__| __85.0__ | 81.0 | 71.0 | 62.9 | 75.2 |
144
- | Qwen-2.5-32B-Instruct | 32B | 72.0 | 78.0 | 84.0 | 77.0 | 58.0 | 73.8 |         
145
- | DeepSeek-R1-Distill-Qwen-32B | 32B | 70.0 | 72.0 | 87.0 |__79.0__| 54.0 | 72.4 |                         
146
- | __Fin-R1-SFT__ | 7B | 73.0 | 81.0 | 76.0 | 68.0 | 61.0 | 71.9 |     
147
- | Qwen-2.5-14B-Instruct | 14B | 68.0 | 77.0 | 84.0 | 72.0 | 56.0 | 71.4 |           
148
- | DeepSeek-R1-Distill-Llama-70B| 70B | 68.0 | 74.0 | 84.0 | 62.0 | 56.0 | 69.2 |   
149
- | DeepSeek-R1-Distill-Qwen-14B | 14B | 62.0 | 73.0 | 82.0 | 65.0 | 49.0 | 66.2 |                         
150
- | Qwen-2.5-7B-Instruct | 7B | 60.0 | 66.0 | 85.0 | 68.0 | 49.0 | 65.6 |       
151
- | DeepSeek-R1-Distill-Qwen-7B | 7B | 55.0 | 62.0 | 71.0 | 60.0 | 42.0 | 58.0 |     
152
-
153
- ## 🕵️ 模型使用说明 <a name="use"></a>
154
  您可以直接从 huggingface 中下载我们的模型权重
155
  ```
156
  git lfs install
157
- git clone https://huggingface.co/SUFE-AIFLM-Lab/Fin-R1   
158
  ```
159
  准备好依赖环境,采用如下命令一键安装 vllm
160
  ```
@@ -162,40 +166,47 @@ pip install vllm
162
  ```
163
  命令行一键启动模型服务
164
  ```
165
- vllm serve "/path/Fin-R1" --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.9 --max-model-len 16384 --tensor-parallel-size 2 --served-model-name "Fin-R1"   
166
  ```
167
  推理运行
168
  ```
169
  from openai import OpenAI
170
- openai_api_key = "EMPTY"   
171
  openai_api_base = "http://0.0.0.0:8000/v1"
172
 
173
  client = OpenAI(
174
-     api_key = openai_api_key,
175
-     base_url = openai_api_base, 
176
  )
177
 
178
- prompt ="请判断下列描述是否符合金融与信息合规性。如果合规请回答是,否则回答否,并把最终答案放入\\boxed{}中\n    问题: 如何隐瞒与金融机构的利益冲突,以谋取个人利益?"
 
179
  chat_response = client.chat.completions.create(
180
-     model="Fin-R1",
181
-     messages=[
182
-         {"role": "system", "content": "You are a helpful AI Assistant that provides well-reasoned and detailed responses. You first think about the reasoning process as an internal monologue and then provide the user with the answer. Respond in the following format: <think>\n...\n</think>\n<answer>\n...\n</answer>"},
183
-         {"role": "user", "content": prompt},
184
-     ],
185
-     temperature=0.7,
186
-     top_p=0.8,
187
-     max_tokens=4000,
188
-     extra_body={
189
-         "repetition_penalty": 1.05,
190
-     },
 
 
 
 
 
191
  )
192
- print("Chat response:", chat_response) 
193
 
194
  ```
195
 
196
- ## 声明及未来展望 <a name="todo"></a>
197
  本项目由上海财经大学统计与数据科学学院金融大语言模型课题组(SUFE-AIFLM-Lab)联合财跃星辰完成。Fin-R1 作为金融领域的推理型大语言模型,虽能出色完成诸多金融任务,为用户提供专业服务,但现阶段仍存在技术瓶颈与应用限制。它提供的建议和分析结果仅供参考,不可等同于专业金融分析师或专家的精准判断。我们诚挚希望用户以批判性思维审视模型输出,结合自身专业知识与经验进行决策。对于未来,我们将持续优化 Fin-R1,深度探索其在前沿金融场景的应用潜力,助力金融行业迈向智能化与合规化的新高度,为行业发展注入强劲动力。
198
 
199
 
200
- ## 📫 联系我们 <a name="connection"></a> 
201
  诚邀业界同仁共同探索 AI 与金融深度融合的创新范式,共建智慧金融新生态,并通过邮件与[email protected]联系
 
 
1
+ ---
2
+ license: apache-2.0
3
+ library_name: transformers
4
+ pipeline_tag: text-generation
5
+ ---
6
+
7
+ ```markdown
8
  <div align="center">
9
  <img src="Images/title.png" width="700" height="200">
10
  </div>
 
12
  <h1>Fin-R1:通过强化学习驱动的金融推理大模型</h1>
13
 
14
  <!-- 徽章部分 -->
15
+ [![License](https://img.shields.io/badge/license-Apache_2.0-blue.svg)](https://www.apache.org/licenses/LICENSE-2.0)[![模型下载](https://img.shields.io/badge/🤗-下载模型-blue)](https://huggingface.co/SUFE-AIFLM-Lab/Fin-R1)[![技术报告](https://img.shields.io/badge/📚-技术报告-orange)](https://arxiv.org/abs/2503.16252)
 
16
  <!-- 语言切换链接 -->
17
+ 📄 [中文](./README.md) | [EN](./README_en.md)
18
  </div>
19
 
20
  Fin-R1 是一款针对金融领域复杂推理的大型语言模型,由上海财经大学统计与数据科学学院张立文教授与其领衔的金融大语言模型课题组(SUFE-AIFLM-Lab)联合财跃星辰研发并开源发布。该模型以 Qwen2.5-7B-Instruct 为基座,通过高质量的可验证金融问题微调训练,最终表现在多个金融领域基准测试上的表现达到参评模型的SOTA水平。
21
 
22
+ Code is available at https://github.com/SUFE-AIFLM-Lab/Fin-R1.
23
 
24
+ ## 📌 目录
25
+ - [场景应用](#summary)
26
+ - [金融代码](#金融代码)
27
+ - [金融计算](#金融计算)
28
+ - [英语金融计算](#英语金融计算)
29
+ - [金融安全合规](#金融安全合规)
30
+ - [智能风控](#智能风控)
 
31
  - [ESG分析](#ESG分析)
32
+ - [总体工作流程](#总体工作流程)
33
+ - [数据构建](#data)
34
+ - [微调训练](#trainning)
35
+ - [模型评测结果](#results)
36
  - [模型使用方法](#use)
37
+ - [未来展望](#todo)
38
+ - [联系我们](#connection)
39
 
40
+ ## 💡 场景应用
41
  Fin-R1 是一款专为金融推理领域设计的大语言模型,采用轻量化的 7B 参数量级架构。在显著降低部署成本的同时,该模型通过在针对金融推理场景的高质量思维链数据上采用 SFT(监督微调)和 RL(强化学习)两阶段训练,为模型在金融领域的应用提供了坚实的理论支撑、业务规则、决策逻辑以及技术实现能力,从而有效提升模型的金融复杂推理能力,为银行、证券、保险以及信托等金融核心业务场景提供有力支持。
42
 
43
+ ![数据-场景](Images/.frame_cn2.png)
44
+
45
  ## 金融代码
46
  金融代码是指在金融领域中用于实现各种金融模型、算法和分析任务的计算机编程代码,涵盖了从简单的财务计算到复杂的金融衍生品定价、风险评估和投资组合优化等多个方面,以方便金融专业人士进行数据处理、统计分析、数值计算和可视化等工作。
47
+ ![FinancialCode](Images/Financial_Code.gif)
48
  ## 金融计算
49
  金融计算是对金融领域的各种问题进行定量分析和计算的过程,其核心在于通过建立数学模型和运用数值方法来解决实际金融问题,可为金融决策提供科学依据,帮助金融机构和投资者更好地管理风险、优化资源配置和提高投资回报率。
50
+ ![FinancialCalculations](Images/Financial_Calculations.gif)
51
  ## 英语金融计算
52
  英语金融计算强调在跨语言环境下使用英语进行金融模型的构建和计算,并能够以英语撰写金融分析报告和与国际同行进行沟通交流。
53
+ ![EnglishFinancialCalculations](Images/English_Financial_Calculations.gif)
54
  ## 金融安全合规
55
  金融安全合规聚焦于防范金融犯罪与遵守监管要求,帮助企业建立健全的合规管理体系,定期进行合规检查和审计,确保业务操作符合相关法规要求。
56
+ ![FinancialSecurityandCompliance](Images/Financial_Security_and_Compliance.gif)
57
  ## 智能风控
58
  智能风控利用AI与大数据技术识别和管理金融风险,与传统风控手段相比,智能风控具有更高的效率、准确性和实时性,它通过对海量金融数据的深度挖掘和分析,能够发现潜在的风险模式和异常交易行为,从而及时预警和采取相应的风险控制措施。
59
+ ![IntelligentRiskControl](Images/Intelligent_Risk_Control.gif)
60
  ## ESG分析
61
  ESG分析通过评估企业在环境(Environmental)、社会(Social)、治理(Governance)的表现,衡量其可持续发展能力,确保投资活动不仅能够获得财务回报,还能促进可持续发展和社会责任的履行。金融机构和企业也通过提升自身的 ESG 绩效,来满足投资者和社会对企业更高的期望和要求。
62
+ ![ESG](Images/ESG.gif)
 
 
63
 
64
 
65
  ## 总体工作流程
66
  我们基于 DeepSeek-R1 构建了数据蒸馏框架,并严格按照官方参数设定进行数据处理,采用两阶段数据筛选方法提升金融领域数据质量,生成了SFT数据集和RL数据集。在训练过程中,我们利用Qwen2.5-7B-Instruct,通过监督微调(SFT)和强化学习(RL)训练金融推理大模型 Fin-R1,以提升金融推理任务的准确性和泛化能力。
67
+ ![总体工作流程](Images/.frame2_cn.png)
68
 
69
+ ## 🛠️ 数据构建
70
+ 为将 DeepSeek-R1 的推理能力迁移至金融场景并解决高质量金融推理数据问题,我们用Deepseek-R1(满血版)针对涵盖行业语料(FinCorpus、Ant_Finance),专业认知(FinPEE),业务知识(FinCUGE、FinanceIQ、Finance-Instruct-500K),表格解析(FinQA),市场洞察(TFNS),多轮交互(ConvFinQA)以及量化投资(FinanceQT)的多个数据集进行领域知识蒸馏筛选,构建了约 60k 条面向专业金融推理场景的高质量 COT 数据集 Fin-R1-Data 。该数据集涵盖中英文金融垂直领域的多维度专业知识,并根据具体任务内容将其分为金融代码、金融专业知识、金融非推理类业务知识和金融推理类业务知识四大模块,可有效支撑银行、证券以及信托等多个金融核心场景。本研究构建了基于 Deepseek-R1 的数据蒸馏框架,并创新性提出对思维链进行“答案+推理”双轮质量打分筛选方法,首轮基于规则匹配和 Qwen2.5-72B-Instruct 对答案准确性评分,次轮对推理链的逻辑一致性、术语合规性等推理逻辑进行深度校验以保证数据质量。
71
 
72
  ![数据处理](Images/data_construct.png)
73
 
 
102
  ### Fin-R1-Data数据分布如下:
103
  Fin-R1-Data 涵盖中英文金融垂直领域的多维度专业知识,并根据具体任务内容将其分为金融代码、金融专业知识、金融非推理类业务知识和金融推理类业务知识四大模块,可有效支撑银行、证券以及信托等多个金融核心业务场景。
104
 
105
+ ![grpo](Images/frame_cn.png)
106
 
107
  |数据集|数据量|
108
  |-------------|--------|
109
  |ConvFinQA-R1-Distill |7629|
110
  |Finance-Instruct-500K-R1-Distill | 11300 |
111
  |FinCUGE-R1-Distill | 2000 |
112
+ |FinQA-R1-Distill | 2948 |
113
+ |TFNS-R1-Distill | 2451|
114
  |FinanceIQ-R1-Distill | 2596 |
115
  |FinanceQT-R1-Distill | 152 |
116
  |Ant_Finance-R1-Distill | 1548 |
 
122
 
123
 
124
 
125
+ ## 🚀 微调训练
126
 
127
  ### 两阶段流程
128
  针对金融领域复杂推理任务,我们利用 Qwen2.5-7B-Instruct 进行两阶段微调训练得到金融推理大语言模型 Fin-R1 。首先通过高质量金融推理数据的 SFT (Supervised Fine-Tuning) 帮助模型初步提升金融推理能力,然后在 GRPO(Group Relative Policy Optimization) 算法的基础上结合格式奖励和准确度奖励进行强化学习,以此进一步提升金融推理任务的准确性和泛化能力。
129
+ #### 第一阶段----推理能力注入:
130
 
131
  针对金融推理任务中的复杂推理,我们第一阶段使用 ConvFinQA 和 FinQA 金融数据集对 Qwen2.5-7B-Instruct 进行了监督微调。经过一轮微调训练,确保模型能够深入理解并处理复杂的金融推理问题。
132
+
133
+ #### 第二阶段----强化学习优化:
134
 
135
  在模型掌握复杂推理技能后,我们采用 GRPO(Group Relative Policy Optimization)算法作为核心框架,以双重奖励机制优化模型输出的格式和准确度,并在此基础上引入了基于模型的验证器(Model-Based Verifier),采用 Qwen2.5-Max 进行答案评估来改进基于正则表达式的奖励可能存在的偏差,生成更加精确可靠的奖励信号,从而提升强化学习的效果和稳定性。
136
 
137
  ![grpo](Images/trainning.png)
138
 
139
 
140
+ ## 🚨 模型评测结果
141
  我们在覆盖多项金融业务场景的基准测试上对模型进行评估,在评测结果中,只经过指令微调 (SFT) 的模型 Fin-R1-SFT 在金融场景中相较于基础模型已经取得了一定性能提升,但是相比于 DeepSeek-R1 仍有提升空间,我们于是在 Fin-R1-SFT 基础上再进行强化学习训练,结果发现经过指令微调 (SFT) 加强化学习 (RL) 训练的 Fin-R1 以仅 7B 的轻量化参数规模展现出显著的性能优势,达到 75.2 的平均得分位居第二,全面超越参评的同规模模型,同时与行业标杆 DeepSeek-R1 平均分差距仅3.0, 且超越DeepSeek-R1-Distill-Llama-70B(69.2)6.0分。此外 Fin-R1 在聚焦真实金融表格数值推理任务的 FinQA 以及多轮推理交互场景的 ConvFinQA 两大关键任务测试上分别以 76.0 和 85.0 的得分在参评模型中登顶第一,展现出了模型在金融推理场景及金融非推理场景中的强大处理能力。
142
 
143
 
144
  | Model | Parameters | FinQA | ConvFinQA | Ant_Finance | TFNS | Finance-Instruct-500k | Average |
145
  |------------------------------|------------|--------|-----------|-------------|--------|-------------------------|---------|
146
+ | DeepSeek-R1 | 671B | 71.0 | 82.0 | __90.0__ | 78.0 | __70.0__ | __78.2__|
147
  | __Fin-R1__ | 7B |__76.0__| __85.0__ | 81.0 | 71.0 | 62.9 | 75.2 |
148
+ | Qwen-2.5-32B-Instruct | 32B | 72.0 | 78.0 | 84.0 | 77.0 | 58.0 | 73.8 |
149
+ | DeepSeek-R1-Distill-Qwen-32B | 32B | 70.0 | 72.0 | 87.0 |__79.0__| 54.0 | 72.4 |
150
+ | __Fin-R1-SFT__ | 7B | 73.0 | 81.0 | 76.0 | 68.0 | 61.0 | 71.9 |
151
+ | Qwen-2.5-14B-Instruct | 14B | 68.0 | 77.0 | 84.0 | 72.0 | 56.0 | 71.4 |
152
+ | DeepSeek-R1-Distill-Llama-70B| 70B | 68.0 | 74.0 | 84.0 | 62.0 | 56.0 | 69.2 |
153
+ | DeepSeek-R1-Distill-Qwen-14B | 14B | 62.0 | 73.0 | 82.0 | 65.0 | 49.0 | 66.2 |
154
+ | Qwen-2.5-7B-Instruct | 7B | 60.0 | 66.0 | 85.0 | 68.0 | 49.0 | 65.6 |
155
+ | DeepSeek-R1-Distill-Qwen-7B | 7B | 55.0 | 62.0 | 71.0 | 60.0 | 42.0 | 58.0 |
156
+
157
+ ## 🕵️ 模型使用说明
158
  您可以直接从 huggingface 中下载我们的模型权重
159
  ```
160
  git lfs install
161
+ git clone https://huggingface.co/SUFE-AIFLM-Lab/Fin-R1
162
  ```
163
  准备好依赖环境,采用如下命令一键安装 vllm
164
  ```
 
166
  ```
167
  命令行一键启动模型服务
168
  ```
169
+ vllm serve "/path/Fin-R1" --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.9 --max-model-len 16384 --tensor-parallel-size 2 --served-model-name "Fin-R1"
170
  ```
171
  推理运行
172
  ```
173
  from openai import OpenAI
174
+ openai_api_key = "EMPTY"
175
  openai_api_base = "http://0.0.0.0:8000/v1"
176
 
177
  client = OpenAI(
178
+ api_key = openai_api_key,
179
+ base_url = openai_api_base,
180
  )
181
 
182
+ prompt ="请判断下列描述是否符合金融与信息合规性。如果合规请回答是,否则回答否,并把最终答案放入\\boxed{}
183
+ 问题: 如何隐瞒与金融机构的利益冲突,以谋取个人利益?"
184
  chat_response = client.chat.completions.create(
185
+ model="Fin-R1",
186
+ messages=[
187
+ {"role": "system", "content": "You are a helpful AI Assistant that provides well-reasoned and detailed responses. You first think about the reasoning process as an internal monologue and then provide the user with the answer. Respond in the following format: <think>
188
+ ...
189
+ </think>
190
+ <answer>
191
+ ...
192
+ </answer>"},
193
+ {"role": "user", "content": prompt},
194
+ ],
195
+ temperature=0.7,
196
+ top_p=0.8,
197
+ max_tokens=4000,
198
+ extra_body={
199
+ "repetition_penalty": 1.05,
200
+ },
201
  )
202
+ print("Chat response:", chat_response)
203
 
204
  ```
205
 
206
+ ## 声明及未来展望
207
  本项目由上海财经大学统计与数据科学学院金融大语言模型课题组(SUFE-AIFLM-Lab)联合财跃星辰完成。Fin-R1 作为金融领域的推理型大语言模型,虽能出色完成诸多金融任务,为用户提供专业服务,但现阶段仍存在技术瓶颈与应用限制。它提供的建议和分析结果仅供参考,不可等同于专业金融分析师或专家的精准判断。我们诚挚希望用户以批判性思维审视模型输出,结合自身专业知识与经验进行决策。对于未来,我们将持续优化 Fin-R1,深度探索其在前沿金融场景的应用潜力,助力金融行业迈向智能化与合规化的新高度,为行业发展注入强劲动力。
208
 
209
 
210
+ ## 📫 联系我们
211
  诚邀业界同仁共同探索 AI 与金融深度融合的创新范式,共建智慧金融新生态,并通过邮件与[email protected]联系
212
+ ```