ruatnec commited on
Commit
12d67e2
1 Parent(s): 3deb7b3

Add model files

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ *.gguf filter=lfs diff=lfs merge=lfs -text
README.md CHANGED
@@ -1,3 +1,211 @@
1
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2
  license: apache-2.0
 
 
3
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
+ language:
3
+ - ko
4
+ - en
5
+ library_name: sentence-transformers
6
+ metrics:
7
+ - cosine_accuracy@1
8
+ - cosine_accuracy@3
9
+ - cosine_accuracy@5
10
+ - cosine_accuracy@10
11
+ - cosine_precision@1
12
+ - cosine_precision@3
13
+ - cosine_precision@5
14
+ - cosine_precision@10
15
+ - cosine_recall@1
16
+ - cosine_recall@3
17
+ - cosine_recall@5
18
+ - cosine_recall@10
19
+ - cosine_ndcg@10
20
+ - cosine_mrr@10
21
+ - cosine_map@100
22
+ - dot_accuracy@1
23
+ - dot_accuracy@3
24
+ - dot_accuracy@5
25
+ - dot_accuracy@10
26
+ - dot_precision@1
27
+ - dot_precision@3
28
+ - dot_precision@5
29
+ - dot_precision@10
30
+ - dot_recall@1
31
+ - dot_recall@3
32
+ - dot_recall@5
33
+ - dot_recall@10
34
+ - dot_ndcg@10
35
+ - dot_mrr@10
36
+ - dot_map@100
37
+ pipeline_tag: sentence-similarity
38
+ tags:
39
+ - sentence-transformers
40
+ - sentence-similarity
41
+ - feature-extraction
42
+ - generated_from_trainer
43
+ widget:
44
+ - source_sentence: 대한지적공사 관계자는 "오랜 진통 끝에 지적재조사사업을 추진하게 돼 기쁘다"면서도 뭐라고 말했어?
45
+ sentences:
46
+ - >-
47
+ 2018 평창 동계올림픽이 개막하기 전 '공공의 적'은 영하 10도를 넘는 추위였다. 개막을 즈음해 추위는 조금 수그러드는가 싶더니
48
+ 바람이 멈추지 않아 대회 2일 차부터 경기가 잇달아 연기·취소됐다.
49
+ 올림픽 조직위원회와 국제스키연맹(FIS)은 11일 오전 11시 정선 알파인 경기장에서 열릴 예정이던 알파인 스키 남자 활강 경기를
50
+ 강풍으로 연기하기로 했다고 밝혔다. FIS는 “강풍이 경기장에 하루 종일 계속 불 것으로 전망돼 일정을 연기했다”고 밝혔다. 조직위는
51
+ 연기된 남자 활강 경기를 오는 15일 오전 11시에 치르고, 이 시간대에 원래 열릴 예정이던 남자 슈퍼대회전 경기 시간을 하루 뒤인
52
+ 16일 오전 11시로 순연하기로 했다.
53
+
54
+ 이어 이날 오후 1시30분부터 열릴 예정이던 스노보드 여자 슬로프스타일 예선 경기는 연기를 거듭하다 취소됐다. 조직위는 예선 없이 다음
55
+ 날 결선에서 참가자 27명이 한번에 경기해 순위를 가리기로 했다.
56
+
57
+ 강풍이 경기 진행에 영향을 미칠 것이란 예상은 대회 전부터 있었다. 올림픽 대회 슬로프가 설치된 정선·용평 알파인 경기장과 휘닉스 스노
58
+ 경기장은 슬로프 상단부의 해발고도가 900m가 넘는다. 임장호 조직위 기상기후팀장은 “알파인 스키는 상단부에 강한 바람이 불면, 선수들을
59
+ 실어나르는 곤돌라를 움직이기 어렵다”며 “스노보드나 프리스타일 스키는 순간적인 돌풍이 불 때 선수들이 다칠 가능성도 있다”고 말했다.
60
+
61
+ 바람이 경기에 미치는 영향을 알기에 조직위도 강풍을 비롯한 5가지 긴급 기상 상황을 가정해 경기 운영 매뉴얼을 만들었다. 이날 경기
62
+ 취소도 매뉴얼에 따른 조치였다. 임 팀장은 “12~13일 바람이 잦아들다가 14일에 다시 강풍이 불겠지만, 15일부터는 다시 잦아들
63
+ 것으로 보고 있다”며 “향후 강풍으로 경기가 연기돼도 올림픽 폐막 전 최대한 모든 경기를 끝내려 하고 있다”고 했다. 다만 경기 일정이
64
+ 바뀌면 참가 선수들과 코칭스태프가 어떻게 컨디션을 조절하며 경기를 준비할지 깊은 고민에 빠질 것으로 보인다.
65
+ - >-
66
+ 지적도면과 실제 경계가 맞지 않는 '지적불부합지'에 대한 재조사가 실시된다. 국토해양부는 지적도상 경계와 실제 경계가 일치하지 않는
67
+ 지적불부합지에 대해 2030년까지 지적재조사를 추진한다고 지난달 30일 밝혔다. 이와 관련 김기현 의원이 대표발의한 지적재조사특별법안이
68
+ 이날 국회 상임위를 통과했다. 지적불부합지는 경계분쟁과 민원의 대상이 되고 있는데, 현재 전체 필지의 약 15%(554만필지)에 이를
69
+ 것으로 추정된다. 특히 상당수는 지적측량이 불가능해 소유권 이전이나 건축행위 등 재산권 행사가 불가능하거나 제한받고 있어 조정이 시급한
70
+ 상황이다. 이에 따라 1995년 지적재조사사업추진 기본계획이 수립되고, 이듬해 지적재조사특별법이 입법예고됐지만 관련 부처들의 반대로
71
+ 무산됐다. 이후 2000년 다시 재조사사업 기본계획이 수립되고, 2006년 토지조사특별법안이 제출됐으나 성사되지 못한 채 오늘에 이르고
72
+ 있다. 지적불부합지는 100년 전 낙후된 기술로 만든 종이지적을 계속 사용하면서 종이도면의 신축, 경계선의 굵기, 개인오차 등으로
73
+ 생겨났다. 또 대장이 토지·임야대장으로 이원화돼 있고, 도면도 7종의 축척으로 등록된 것도 원인으로 꼽힌다. 일례로 1:1200 축척의
74
+ 압구정동 대지(280㎡, 1000만원/㎡)의 경우 지적도상 경계가 0.8mm 오차가 나면 실제 면적에선 27㎡의 차이가 발생, 약
75
+ 2억7000만원의 땅값이 차이나게 된다. 6·25전쟁으로 전국 106만1000필지의 지적공부가 분·소실되고, 약 80%의 지적측량기준점을
76
+ 잃어버린 것도 한 원인이다. 토지공법학회는 2005년 지적불부합에 따른 경계분쟁으로 연간 약 3800억원의 소송비용이 발생한 것으로
77
+ 추정했다. 또 경계확인측량으로 연간 900억원의 비용이 지출되고 있다. 정부는 총 8410억원을 투입, 2020년까지 280만필지를,
78
+ 나머지 274만필지는 2030년까지 정비할 계획이다. 국토부 관계자는 "지적불부합지가 정비되면 경계분쟁이 해소돼 사회적 비용을 절감할 수
79
+ 있고, 개인의 재산권 행사도 수월해 질 것"이라고 기대했다. 그러나 전국에 걸친 전면적인 지적재조사가 아니라 불부합지를 중심으로 한
80
+ 단계적 추진이어서 한계가 있다는 지적이다. 앞으로 재조사가 진행되면 불부합지가 계속 나타나게 될 것인데 그 때마다 경계조정을 해야 하는
81
+ 번거로움이 있다는 것. 특히 불부합지에 대한 경계조정은 이해가 첨예하게 충돌하다 보니 사업추진이 매우 어렵다. 이 때문에 전면적인
82
+ 재조사를 통해 한 번에 마무리하는 것이 수월하다는 설명이다. 대한지적공사 관계자는 "오랜 진통 끝에 지적재조사사업을 추진하게 돼
83
+ 기쁘다"면서도 "원래 전면적인 사업추진을 원했으나 예산 등의 문제로 단계적으로 진행하게 돼 아쉽다"고 말했다.
84
+ model-index:
85
+ - name: SentenceTransformer
86
+ results:
87
+ - task:
88
+ type: information-retrieval
89
+ name: Information Retrieval
90
+ dataset:
91
+ name: miracl
92
+ type: miracl
93
+ metrics:
94
+ - type: cosine_accuracy@1
95
+ value: 0.6103286384976526
96
+ name: Cosine Accuracy@1
97
+ - type: cosine_accuracy@3
98
+ value: 0.8169014084507042
99
+ name: Cosine Accuracy@3
100
+ - type: cosine_accuracy@5
101
+ value: 0.8732394366197183
102
+ name: Cosine Accuracy@5
103
+ - type: cosine_accuracy@10
104
+ value: 0.92018779342723
105
+ name: Cosine Accuracy@10
106
+ - type: cosine_precision@1
107
+ value: 0.6103286384976526
108
+ name: Cosine Precision@1
109
+ - type: cosine_precision@3
110
+ value: 0.378716744913928
111
+ name: Cosine Precision@3
112
+ - type: cosine_precision@5
113
+ value: 0.27605633802816903
114
+ name: Cosine Precision@5
115
+ - type: cosine_precision@10
116
+ value: 0.17276995305164322
117
+ name: Cosine Precision@10
118
+ - type: cosine_recall@1
119
+ value: 0.3846655691726114
120
+ name: Cosine Recall@1
121
+ - type: cosine_recall@3
122
+ value: 0.5901991071005155
123
+ name: Cosine Recall@3
124
+ - type: cosine_recall@5
125
+ value: 0.6794216477315068
126
+ name: Cosine Recall@5
127
+ - type: cosine_recall@10
128
+ value: 0.7694903427297795
129
+ name: Cosine Recall@10
130
+ - type: cosine_ndcg@10
131
+ value: 0.6723275985412543
132
+ name: Cosine Ndcg@10
133
+ - type: cosine_mrr@10
134
+ value: 0.7262426410313736
135
+ name: Cosine Mrr@10
136
+ - type: cosine_map@100
137
+ value: 0.6073885234240499
138
+ name: Cosine Map@100
139
+ - type: dot_accuracy@1
140
+ value: 0.6103286384976526
141
+ name: Dot Accuracy@1
142
+ - type: dot_accuracy@3
143
+ value: 0.8169014084507042
144
+ name: Dot Accuracy@3
145
+ - type: dot_accuracy@5
146
+ value: 0.8732394366197183
147
+ name: Dot Accuracy@5
148
+ - type: dot_accuracy@10
149
+ value: 0.92018779342723
150
+ name: Dot Accuracy@10
151
+ - type: dot_precision@1
152
+ value: 0.6103286384976526
153
+ name: Dot Precision@1
154
+ - type: dot_precision@3
155
+ value: 0.378716744913928
156
+ name: Dot Precision@3
157
+ - type: dot_precision@5
158
+ value: 0.27605633802816903
159
+ name: Dot Precision@5
160
+ - type: dot_precision@10
161
+ value: 0.17276995305164322
162
+ name: Dot Precision@10
163
+ - type: dot_recall@1
164
+ value: 0.3846655691726114
165
+ name: Dot Recall@1
166
+ - type: dot_recall@3
167
+ value: 0.5901991071005155
168
+ name: Dot Recall@3
169
+ - type: dot_recall@5
170
+ value: 0.6794216477315068
171
+ name: Dot Recall@5
172
+ - type: dot_recall@10
173
+ value: 0.7694903427297795
174
+ name: Dot Recall@10
175
+ - type: dot_ndcg@10
176
+ value: 0.6723275985412543
177
+ name: Dot Ndcg@10
178
+ - type: dot_mrr@10
179
+ value: 0.7262426410313736
180
+ name: Dot Mrr@10
181
+ - type: dot_map@100
182
+ value: 0.6073885234240499
183
+ name: Dot Map@100
184
  license: apache-2.0
185
+ base_model:
186
+ - BAAI/bge-m3
187
  ---
188
+ # SentenceTransformer
189
+
190
+ This is a [sentence-transformers](https://www.SBERT.net) model trained on the train_set dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
191
+ ## Model Details
192
+ - Learning other languages ​​besides Chinese and English is insufficient, so additional learning is needed to optimize use of other languages.
193
+ - This model is additionally trained on the Korean dataset.
194
+ ### Model Description
195
+ - **Model Type:** Sentence Transformer
196
+ Transformer Encoder
197
+ - **Maximum Sequence Length:** 8192 tokens
198
+ - **Output Dimensionality:** 1024 tokens
199
+ - **Similarity Function:** Cosine Similarity
200
+ ### Model Sources
201
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
202
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
203
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
204
+ ### Full Model Architecture
205
+ ```
206
+ SentenceTransformer(
207
+ (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
208
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
209
+ (2): Normalize()
210
+ )
211
+ ```
colbert_linear.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f8328343ada4594c8cb2225eb78e190bcf5f3a819c0602e62331cd41854c8956
3
+ size 4199874
config.json ADDED
@@ -0,0 +1,30 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "/data/ephemeral/home/.cache/huggingface/hub/models--BAAI--bge-m3/snapshots/5617a9f61b028005a4858fdac845db406aefb181",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 8194,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_experts": 4,
20
+ "num_experts_per_tok": 2,
21
+ "num_hidden_layers": 24,
22
+ "output_past": true,
23
+ "pad_token_id": 1,
24
+ "position_embedding_type": "absolute",
25
+ "torch_dtype": "float32",
26
+ "transformers_version": "4.45.2",
27
+ "type_vocab_size": 1,
28
+ "use_cache": true,
29
+ "vocab_size": 250002
30
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f763c27c05ba23eddc1161388b045ad015cc5579043d1dc1f08a182b2ce9afdf
3
+ size 2271064456
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
sparse_linear.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:652e8ecf583d518bd91ffac51ab87edfc87f499b41b6b61303ab66be2f77afed
3
+ size 5564
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "model_max_length": 8192,
50
+ "pad_token": "<pad>",
51
+ "sep_token": "</s>",
52
+ "sp_model_kwargs": {},
53
+ "tokenizer_class": "XLMRobertaTokenizer",
54
+ "unk_token": "<unk>"
55
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:86bc326550a5dd8d9e228df75c904c3eddc32f1a16ae4262a7a07a65d1aebd4e
3
+ size 5560