Add model files

Browse files

Files changed (10) hide show

.gitattributes +1 -0
README.md +208 -0
colbert_linear.pt +3 -0
config.json +30 -0
model.safetensors +3 -0
sentencepiece.bpe.model +3 -0
sparse_linear.pt +3 -0
special_tokens_map.json +51 -0
tokenizer_config.json +55 -0
training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+*.gguf filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,3 +1,211 @@
 ---
 license: apache-2.0
 ---

 ---
+language:
+- ko
+- en
+library_name: sentence-transformers
+metrics:
+- cosine_accuracy@1
+- cosine_accuracy@3
+- cosine_accuracy@5
+- cosine_accuracy@10
+- cosine_precision@1
+- cosine_precision@3
+- cosine_precision@5
+- cosine_precision@10
+- cosine_recall@1
+- cosine_recall@3
+- cosine_recall@5
+- cosine_recall@10
+- cosine_ndcg@10
+- cosine_mrr@10
+- cosine_map@100
+- dot_accuracy@1
+- dot_accuracy@3
+- dot_accuracy@5
+- dot_accuracy@10
+- dot_precision@1
+- dot_precision@3
+- dot_precision@5
+- dot_precision@10
+- dot_recall@1
+- dot_recall@3
+- dot_recall@5
+- dot_recall@10
+- dot_ndcg@10
+- dot_mrr@10
+- dot_map@100
+pipeline_tag: sentence-similarity
+tags:
+- sentence-transformers
+- sentence-similarity
+- feature-extraction
+- generated_from_trainer
+widget:
+- source_sentence: 대한지적공사 관계자는 "오랜 진통 끝에 지적재조사사업을 추진하게 돼 기쁘다"면서도 뭐라고 말했어?
+  sentences:
+  - >-
+    2018 평창 동계올림픽이 개막하기 전 '공공의 적'은 영하 10도를 넘는 추위였다. 개막을 즈음해 추위는 조금 수그러드는가 싶더니
+    바람이 멈추지 않아 대회 2일 차부터 경기가 잇달아 연기·취소됐다.
+    올림픽 조직위원회와 국제스키연맹(FIS)은 11일 오전 11시 정선 알파인 경기장에서 열릴 예정이던 알파인 스키 남자 활강 경기를
+    강풍으로 연기하기로 했다고 밝혔다. FIS는 “강풍이 경기장에 하루 종일 계속 불 것으로 전망돼 일정을 연기했다”고 밝혔다. 조직위는
+    연기된 남자 활강 경기를 오는 15일 오전 11시에 치르고, 이 시간대에 원래 열릴 예정이던 남자 슈퍼대회전 경기 시간을 하루 뒤인
+    16일 오전 11시로 순연하기로 했다.
+    이어 이날 오후 1시30분부터 열릴 예정이던 스노보드 여자 슬로프스타일 예선 경기는 연기를 거듭하다 취소됐다. 조직위는 예선 없이 다음
+    날 결선에서 참가자 27명이 한번에 경기해 순위를 가리기로 했다.
+    강풍이 경기 진행에 영향을 미칠 것이란 예상은 대회 전부터 있었다. 올림픽 대회 슬로프가 설치된 정선·용평 알파인 경기장과 휘닉스 스노
+    경기장은 슬로프 상단부의 해발고도가 900m가 넘는다. 임장호 조직위 기상기후팀장은 “알파인 스키는 상단부에 강한 바람이 불면, 선수들을
+    실어나르는 곤돌라를 움직이기 어렵다”며 “스노보드나 프리스타일 스키는 순간적인 돌풍이 불 때 선수들이 다칠 가능성도 있다”고 말했다.
+    바람이 경기에 미치는 영향을 알기에 조직위도 강풍을 비롯한 5가지 긴급 기상 상황을 가정해 경기 운영 매뉴얼을 만들었다. 이날 경기
+    취소도 매뉴얼에 따른 조치였다. 임 팀장은 “12~13일 바람이 잦아들다가 14일에 다시 강풍이 불겠지만, 15일부터는 다시 잦아들
+    것으로 보고 있다”며 “향후 강풍으로 경기가 연기돼도 올림픽 폐막 전 최대한 모든 경기를 끝내려 하고 있다”고 했다. 다만 경기 일정이
+    바뀌면 참가 선수들과 코칭스태프가 어떻게 컨디션을 조절하며 경기를 준비할지 깊은 고민에 빠질 것으로 보인다.
+  - >-
+    지적도면과 실제 경계가 맞지 않는 '지적불부합지'에 대한 재조사가 실시된다. 국토해양부는 지적도상 경계와 실제 경계가 일치하지 않는
+    지적불부합지에 대해 2030년까지 지적재조사를 추진한다고 지난달 30일 밝혔다. 이와 관련 김기현 의원이 대표발의한 지적재조사특별법안이
+    이날 국회 상임위를 통과했다. 지적불부합지는 경계분쟁과 민원의 대상이 되고 있는데, 현재 전체 필지의 약 15%(554만필지)에 이를
+    것으로 추정된다. 특히 상당수는 지적측량이 불가능해 소유권 이전이나 건축행위 등 재산권 행사가 불가능하거나 제한받고 있어 조정이 시급한
+    상황이다. 이에 따라 1995년 지적재조사사업추진 기본계획이 수립되고, 이듬해 지적재조사특별법이 입법예고됐지만 관련 부처들의 반대로
+    무산됐다. 이후 2000년 다시 재조사사업 기본계획이 수립되고, 2006년 토지조사특별법안이 제출됐으나 성사되지 못한 채 오늘에 이르고
+    있다. 지적불부합지는 100년 전 낙후된 기술로 만든 종이지적을 계속 사용하면서 종이도면의 신축, 경계선의 굵기, 개인오차 등으로
+    생겨났다. 또 대장이 토지·임야대장으로 이원화돼 있고, 도면도 7종의 축척으로 등록된 것도 원인으로 꼽힌다. 일례로 1:1200 축척의
+    압구정동 대지(280㎡, 1000만원/㎡)의 경우 지적도상 경계가 0.8mm 오차가 나면 실제 면적에선 27㎡의 차이가 발생, 약
+    2억7000만원의 땅값이 차이나게 된다. 6·25전쟁으로 전국 106만1000필지의 지적공부가 분·소실되고, 약 80%의 지적측량기준점을
+    잃어버린 것도 한 원인이다. 토지공법학회는 2005년 지적불부합에 따른 경계분쟁으로 연간 약 3800억원의 소송비용이 발생한 것으로
+    추정했다. 또 경계확인측량으로 연간 900억원의 비용이 지출되고 있다. 정부는 총 8410억원을 투입, 2020년까지 280만필지를,
+    나머지 274만필지는 2030년까지 정비할 계획이다. 국토부 관계자는 "지적불부합지가 정비되면 경계분쟁이 해소돼 사회적 비용을 절감할 수
+    있고, 개인의 재산권 행사도 수월해 질 것"이라고 기대했다. 그러나 전국에 걸친 전면적인 지적재조사가 아니라 불부합지를 중심으로 한
+    단계적 추진이어서 한계가 있다는 지적이다. 앞으로 재조사가 진행되면 불부합지가 계속 나타나게 될 것인데 그 때마다 경계조정을 해야 하는
+    번거로움이 있다는 것. 특히 불부합지에 대한 경계조정은 이해가 첨예하게 충돌하다 보니 사업추진이 매우 어렵다. 이 때문에 전면적인
+    재조사를 통해 한 번에 마무리하는 것이 수월하다는 설명이다. 대한지적공사 관계자는 "오랜 진통 끝에 지적재조사사업을 추진하게 돼
+    기쁘다"면서도 "원래 전면적인 사업추진을 원했으나 예산 등의 문제로 단계적으로 진행하게 돼 아쉽다"고 말했다.
+model-index:
+- name: SentenceTransformer
+  results:
+  - task:
+      type: information-retrieval
+      name: Information Retrieval
+    dataset:
+      name: miracl
+      type: miracl
+    metrics:
+    - type: cosine_accuracy@1
+      value: 0.6103286384976526
+      name: Cosine Accuracy@1
+    - type: cosine_accuracy@3
+      value: 0.8169014084507042
+      name: Cosine Accuracy@3
+    - type: cosine_accuracy@5
+      value: 0.8732394366197183
+      name: Cosine Accuracy@5
+    - type: cosine_accuracy@10
+      value: 0.92018779342723
+      name: Cosine Accuracy@10
+    - type: cosine_precision@1
+      value: 0.6103286384976526
+      name: Cosine Precision@1
+    - type: cosine_precision@3
+      value: 0.378716744913928
+      name: Cosine Precision@3
+    - type: cosine_precision@5
+      value: 0.27605633802816903
+      name: Cosine Precision@5
+    - type: cosine_precision@10
+      value: 0.17276995305164322
+      name: Cosine Precision@10
+    - type: cosine_recall@1
+      value: 0.3846655691726114
+      name: Cosine Recall@1
+    - type: cosine_recall@3
+      value: 0.5901991071005155
+      name: Cosine Recall@3
+    - type: cosine_recall@5
+      value: 0.6794216477315068
+      name: Cosine Recall@5
+    - type: cosine_recall@10
+      value: 0.7694903427297795
+      name: Cosine Recall@10
+    - type: cosine_ndcg@10
+      value: 0.6723275985412543
+      name: Cosine Ndcg@10
+    - type: cosine_mrr@10
+      value: 0.7262426410313736
+      name: Cosine Mrr@10
+    - type: cosine_map@100
+      value: 0.6073885234240499
+      name: Cosine Map@100
+    - type: dot_accuracy@1
+      value: 0.6103286384976526
+      name: Dot Accuracy@1
+    - type: dot_accuracy@3
+      value: 0.8169014084507042
+      name: Dot Accuracy@3
+    - type: dot_accuracy@5
+      value: 0.8732394366197183
+      name: Dot Accuracy@5
+    - type: dot_accuracy@10
+      value: 0.92018779342723
+      name: Dot Accuracy@10
+    - type: dot_precision@1
+      value: 0.6103286384976526
+      name: Dot Precision@1
+    - type: dot_precision@3
+      value: 0.378716744913928
+      name: Dot Precision@3
+    - type: dot_precision@5
+      value: 0.27605633802816903
+      name: Dot Precision@5
+    - type: dot_precision@10
+      value: 0.17276995305164322
+      name: Dot Precision@10
+    - type: dot_recall@1
+      value: 0.3846655691726114
+      name: Dot Recall@1
+    - type: dot_recall@3
+      value: 0.5901991071005155
+      name: Dot Recall@3
+    - type: dot_recall@5
+      value: 0.6794216477315068
+      name: Dot Recall@5
+    - type: dot_recall@10
+      value: 0.7694903427297795
+      name: Dot Recall@10
+    - type: dot_ndcg@10
+      value: 0.6723275985412543
+      name: Dot Ndcg@10
+    - type: dot_mrr@10
+      value: 0.7262426410313736
+      name: Dot Mrr@10
+    - type: dot_map@100
+      value: 0.6073885234240499
+      name: Dot Map@100
 license: apache-2.0
+base_model:
+- BAAI/bge-m3
 ---
+# SentenceTransformer
+This is a [sentence-transformers](https://www.SBERT.net) model trained on the train_set dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
+## Model Details
+- Learning other languages besides Chinese and English is insufficient, so additional learning is needed to optimize use of other languages.
+- This model is additionally trained on the Korean dataset.
+### Model Description
+- **Model Type:** Sentence Transformer
+  Transformer Encoder
+- **Maximum Sequence Length:** 8192 tokens
+- **Output Dimensionality:** 1024 tokens
+- **Similarity Function:** Cosine Similarity
+### Model Sources
+- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
+- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
+- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
+### Full Model Architecture
+```
+SentenceTransformer(
+  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
+  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
+  (2): Normalize()
+)
+```

colbert_linear.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f8328343ada4594c8cb2225eb78e190bcf5f3a819c0602e62331cd41854c8956
+size 4199874

config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "/data/ephemeral/home/.cache/huggingface/hub/models--BAAI--bge-m3/snapshots/5617a9f61b028005a4858fdac845db406aefb181",
+  "architectures": [
+    "XLMRobertaModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 8194,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 16,
+  "num_experts": 4,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 24,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 250002
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f763c27c05ba23eddc1161388b045ad015cc5579043d1dc1f08a182b2ce9afdf
+size 2271064456

sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
+size 5069051

sparse_linear.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:652e8ecf583d518bd91ffac51ab87edfc87f499b41b6b61303ab66be2f77afed
+size 5564

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "250001": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "model_max_length": 8192,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86bc326550a5dd8d9e228df75c904c3eddc32f1a16ae4262a7a07a65d1aebd4e
+size 5560