Update README.md
Browse files
README.md
CHANGED
@@ -1,5 +1,92 @@
|
|
1 |
---
|
2 |
tags:
|
3 |
- krx
|
|
|
|
|
|
|
|
|
4 |
---
|
5 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
---
|
2 |
tags:
|
3 |
- krx
|
4 |
+
- finance
|
5 |
+
license: mit
|
6 |
+
language:
|
7 |
+
- ko
|
8 |
---
|
9 |
+
|
10 |
+
# krx-llm-competition Model Card
|
11 |
+
|
12 |
+
๋ชจ๋ธ์ [KRX LLM ๊ฒฝ์ง๋ํ ๋ฆฌ๋๋ณด๋](https://krxbench.koscom.co.kr/)์์ ์ต์ข
3์๋ฅผ ํ ๋ชจ๋ธ์
๋๋ค. ๋ชจ๋ธ์ ๊ธ์ต, ํ๊ณ ๋ฑ ๊ธ์ต๊ด๋ จ ์ง์์ ๋ํ Text Generation์ ์ ๊ณตํฉ๋๋ค.
|
13 |
+
๋ฐ์ดํฐ์
์์ง ๋ฐ ํ์ต์ ๊ด๋ จ๋ ์ฝ๋๋ [https://github.com/aiqwe/krx-llm-competition](https://github.com/aiqwe/krx-llm-competition)์ ์์ธํ๊ฒ ๊ณต๊ฐ๋์ด ์์ต๋๋ค.
|
14 |
+
์์ธํ ๋ด์ฉ์ [krx_model_card.pdf](krx_model_card.pdf)๋ฅผ ์ฐธ์กฐํด์ฃผ์ธ์.
|
15 |
+
|
16 |
+
# Usage
|
17 |
+
[https://github.com/aiqwe/krx-llm-competition](https://github.com/aiqwe/krx-llm-competition)์ example์ ์ฐธ์กฐํ๋ฉด ์ฝ๊ฒ inference๋ฅผ ํด๋ณผ ์ ์์ต๋๋ค.
|
18 |
+
|
19 |
+
```shell
|
20 |
+
pip install vllm
|
21 |
+
```
|
22 |
+
|
23 |
+
```python
|
24 |
+
TBD
|
25 |
+
```
|
26 |
+
|
27 |
+
# Model Card
|
28 |
+
| Contents | Spec |
|
29 |
+
|--------------------------------|-------------------------------------|
|
30 |
+
| Base model | Qwen2.5-7B-Instruct |
|
31 |
+
| Machine | A100 SXM 80GB ร 2 |
|
32 |
+
| dtype | bfloat16 |
|
33 |
+
| PEFT | LoRA (r=8, alpha=64) |
|
34 |
+
| Learning Rate | 1e-5 (varies by further training) |
|
35 |
+
| LRScheduler | Cosine (warm-up: 0.05%) |
|
36 |
+
| Optimizer | AdamW |
|
37 |
+
| Distributed / Efficient Tuning | DeepSpeed v3, Flash Attention |
|
38 |
+
| Global Batch Size | 128 |
|
39 |
+
|
40 |
+
# Datset Card
|
41 |
+
Reference ๋ฐ์ดํฐ์
์ ์ผ๋ถ ์ ์๊ถ ์ด์๋ก ์ธํด Link๋ก ์ ๊ณตํฉ๋๋ค.
|
42 |
+
MCQA์ QA ๋ฐ์ดํฐ์
์ [https://huggingface.co/datasets/aiqwe/krx-llm-competition](https://huggingface.co/datasets/aiqwe/krx-llm-competition)์ผ๋ก ๊ณต๊ฐํฉ๋๋ค.
|
43 |
+
[https://github.com/aiqwe/krx-llm-competition](https://github.com/aiqwe/krx-llm-competition)๋ฅผ ์ด์ฉํ๋ฉด ๋ค์ํ ์ ํธ๋ฆฌํฐ ๊ธฐ๋ฅ์ ์ ๊ณตํ๋ฉฐ, ๋ฐ์ดํฐ ์์ฑ Pipeline์ ์ฌ์ฉํ ์ ์์ต๋๋ค.
|
44 |
+
|
45 |
+
## References
|
46 |
+
| ๋ฐ์ดํฐ๋ช
| url |
|
47 |
+
|-----------------------------------|------------------------------------------------------------------------------------------|
|
48 |
+
| ํ๊ตญ์ํ ๊ฒฝ์ ๊ธ์ต ์ฉ์ด 700์ | [Link](https://www.bok.or.kr/portal/bbs/B0000249/view.do?nttId=235017&menuNo=200765) |
|
49 |
+
| ์ฌ๋ฌดํ๊ณ ํฉ์ฑ ๋ฐ์ดํฐ | ์์ฒด ์ ์ |
|
50 |
+
| ๊ธ์ต๊ฐ๋
์ฉ์ด์ฌ์ | [Link](https://terms.naver.com/list.naver?cid=42088&categoryId=42088) |
|
51 |
+
| web-text.synthetic.dataset-50k | [Link](https://huggingface.co/datasets/Cartinoe5930/web_text_synthetic_dataset_50k) |
|
52 |
+
| ์ง์๊ฒฝ์ ์ฉ์ด์ฌ์ | [Link](https://terms.naver.com/list.naver?cid=43668&categoryId=43668) |
|
53 |
+
| ํ๊ตญ๊ฑฐ๋์ ๋น์ ๊ธฐ ๊ฐํ๋ฌผ | [Link](http://open.krx.co.kr/contents/OPN04/04020000/OPN04020000.jsp#b8943a5f87282cde0d653d1ae73431c9=1) |
|
54 |
+
| ํ๊ตญ๊ฑฐ๋์๊ท์ | [Link](https://law.krx.co.kr/las/TopFrame.jsp&KRX) |
|
55 |
+
| ์ด๋ณดํฌ์์ ์ฆ๊ถ๋ฐ๋ผ์ก๊ธฐ | [Link](https://main.krxverse.co.kr/_contents/ACA/02010200/file/220104_beginner.pdf) |
|
56 |
+
| ์ฒญ์๋
์ ์ํ ์ฆ๊ถํฌ์ | [Link](https://main.krxverse.co.kr/_contents/ACA/02010200/file/220104_teen.pdf) |
|
57 |
+
| ๊ธฐ์
์ฌ์
๋ณด๊ณ ์ ๊ณต์์๋ฃ | [Link](https://opendart.fss.or.kr/) |
|
58 |
+
| ์์ฌ๊ฒฝ์ ์ฉ์ด์ฌ์ | [Link](https://terms.naver.com/list.naver?cid=43668&categoryId=43668) |
|
59 |
+
|
60 |
+
## MCQA
|
61 |
+
MCQA ๋ฐ์ดํฐ๋ Reference๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ง์ ๋คํ ๋ฌธ์ ๋ฅผ ์์ฑํ ๋ฐ์ดํฐ์
์
๋๋ค. ๋ฌธ์ ์ ๋ต ๋ฟ๋ง ์๋๋ผ Reasoning ํ
์คํธ๊น์ง ์์ฑํ์ฌ ํ์ต์ ์ถ๊ฐํ์์ต๋๋ค.
|
62 |
+
ํ์ต์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ๋ ์ฝ 4.5๋ง๊ฐ ๋ฐ์ดํฐ์
์ด๋ฉฐ, tiktoken์ o200k_base(gpt-4o, gpt-4o-mini Tokenizer)๋ฅผ ๊ธฐ์ค์ผ๋ก ์ด 2์ฒ๋ง๊ฐ์ ํ ํฐ์ผ๋ก ํ์ต๋์์ต๋๋ค.
|
63 |
+
| ๋ฐ์ดํฐ๋ช
| ๋ฐ์ดํฐ ์ | ํ ํฐ ์ |
|
64 |
+
|--------------------------------------|-----------|--------------|
|
65 |
+
| ํ๊ตญ์ํ ๊ฒฝ์ ๊ธ์ต ์ฉ์ด 700์ | 1,203 | 277,114 |
|
66 |
+
| ์ฌ๋ฌดํ๊ณ ๋ชฉ์ฐจ๋ฅผ ์ด์ฉํ ํฉ์ฑ๋ฐ์ดํฐ | 451 | 99,770 |
|
67 |
+
| ๊ธ์ต๊ฐ๋
์ฉ์ด์ฌ์ | 827 | 214,297 |
|
68 |
+
| hf_web_text_synthetic_dataset_50k | 25,461 | 7,563,529 |
|
69 |
+
| ์ง์๊ฒฝ์ ์ฉ์ด์ฌ์ | 2,314 | 589,763 |
|
70 |
+
| ํ๊ตญ๊ฑฐ๋์ ๋น์ ๊ธฐ ๊ฐํ๋ฌผ | 1,183 | 230,148 |
|
71 |
+
| ํ๊ตญ๊ฑฐ๋์๊ท์ | 3,015 | 580,556 |
|
72 |
+
| ์ด๋ณดํฌ์์ ์ฆ๊ถ๋ฐ๋ผ์ก๊ธฐ | 599 | 116,472 |
|
73 |
+
| ์ฒญ์๋
์ ์ํ ์ฆ๊ถ ํฌ์ | 408 | 77,037 |
|
74 |
+
| ๊ธฐ์
์ฌ์
๋ณด๊ณ ์ ๊ณต์์๋ฃ | 3,574 | 629,807 |
|
75 |
+
| ์์ฌ๊ฒฝ์ ์ฉ์ด์ฌ์ | 7,410 | 1,545,842 |
|
76 |
+
| **ํฉ๊ณ** | **46,445**| **19,998,931**|
|
77 |
+
|
78 |
+
## QA
|
79 |
+
QA ๋ฐ์ดํฐ๋ Reference์ ์ง๋ฌธ์ ํจ๊ป Input์ผ๋ก ๋ฐ์ ์์ฑํ ๋ต๋ณ๊ณผ Reference ์์ด ์ง๋ฌธ๋ง์ Input์ผ๋ก ๋ฐ์ ์์ฑํ ๋ต๋ณ 2๊ฐ์ง๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
|
80 |
+
Reference๋ฅผ ์ ๊ณต๋ฐ์ผ๋ฉด ๋ชจ๋ธ์ ๋ณด๋ค ์ ํํ ๋ต๋ณ์ ํ์ง๋ง ๋ชจ๋ธ๋ง์ ์ง์์ด ์ ํ๋์ด ๋ต๋ณ์ด ์ข๋ ์งง์์ง๊ฑฐ๋ ๋ค์์ฑ์ด ์ค์ด๋ค๊ฒ ๋ฉ๋๋ค.
|
81 |
+
์ด 4.8๋ง๊ฐ์ ๋ฐ์ดํฐ์
๊ณผ 2์ต๊ฐ์ ํ ํฐ์ผ๋ก ํ์ต๋์์ต๋๋ค.
|
82 |
+
| ๋ฐ์ดํฐ๋ช
| ๋ฐ์ดํฐ ์ | ํ ํฐ ์ |
|
83 |
+
|--------------------------------------|-----------|--------------|
|
84 |
+
| ํ๊ตญ์ํ ๊ฒฝ์ ๊ธ์ต ์ฉ์ด 700์ | 1,023 | 846,970 |
|
85 |
+
| ๊ธ์ต๊ฐ๋
์ฉ์ด์ฌ์ | 4,128 | 3,181,831 |
|
86 |
+
| ์ง์๊ฒฝ์ ์ฉ์ด์ฌ์ | 6,526 | 5,311,890 |
|
87 |
+
| ํ๊ตญ๊ฑฐ๋์ ๋น์ ๊ธฐ ๊ฐํ๋ฌผ | 1,510 | 1,089,342 |
|
88 |
+
| ํ๊ตญ๊ฑฐ๋์๊ท์ | 4,858 | 3,587,059 |
|
89 |
+
| ๊ธฐ์
์ฌ์
๋ณด๊ณ ์ ๊ณต์์๋ฃ | 3,574 | 629,807 |
|
90 |
+
| ์์ฌ๊ฒฝ์ ์ฉ์ด์ฌ์ | 29,920 | 5,981,839 |
|
91 |
+
| **ํฉ๊ณ** | **47,965**| **199,998,931**|
|
92 |
+
|