AbdulkaderSaoud commited on
Commit
98c0a67
1 Parent(s): 47f7f88

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +23 -6
README.md CHANGED
@@ -1,13 +1,24 @@
1
-
2
  ---
3
  tags:
4
  - Turkish
5
  - turkish
 
6
  license: mit
7
  language:
8
  - tr
9
  base_model: ytu-ce-cosmos/turkish-base-bert-uncased
10
  ---
 
 
 
 
 
 
 
 
 
 
 
11
 
12
  ## Example Usage
13
 
@@ -28,11 +39,15 @@ docs = [
28
  "Nikola Tesla, alternatif akım (AC) sistemini geliştirmiştir. Elektrik mühendisliği alanında devrim niteliğinde çalışmalar yapmıştır. Kablosuz enerji aktarımı üzerine projeleriyle tanınır."
29
  ]
30
 
31
- rag.index(docs, index_name="smapleTest")
 
 
 
 
 
32
 
33
- query = query = "Birden fazla Nobel Ödülü alan bilim insanı kimdir?"
34
  results = rag.search(query, k= 1)
35
- print(results[0]['content']) # "Marie Curie, radyoaktivite üzerine yaptığı çalışmalarla bilim dünyasına büyük katkılar sağlamıştır. Polonyum ve radyum elementlerini keşfetmiştir. İki farklı dalda Nobel Ödülü alan ilk kişi olmuştur."
36
  ```
37
 
38
  # Acknowledgments
@@ -49,5 +64,7 @@ print(results[0]['content']) # "Marie Curie, radyoaktivite üzerine yaptığı
49
  }
50
  ```
51
 
52
- license: mit
53
-
 
 
 
 
1
  ---
2
  tags:
3
  - Turkish
4
  - turkish
5
+ - passage-retrieval
6
  license: mit
7
  language:
8
  - tr
9
  base_model: ytu-ce-cosmos/turkish-base-bert-uncased
10
  ---
11
+ # Turkish-ColBERT
12
+ This is a Turkish passage retrieval model based on the [ColBERT](https://doi.org/10.48550/arXiv.2112.01488) architecture.
13
+
14
+ The [Comos Turkish Base BERT](https://huggingface.co/ytu-ce-cosmos/turkish-base-bert-uncased) model was fine-tuned on 500k triplets (query, positive passage, negative passage) from a Turkish-translated version of the [MS MARCO dataset](https://huggingface.co/datasets/BeIR/msmarco).
15
+
16
+ #### ⚠ Uncased use requires manual lowercase conversion
17
+ Convert your text to lower case as follows:
18
+ ```python
19
+ text.replace("I", "ı").lower()
20
+ ```
21
+ This is due to a [known issue](https://github.com/huggingface/transformers/issues/6680) with the tokenizer.
22
 
23
  ## Example Usage
24
 
 
39
  "Nikola Tesla, alternatif akım (AC) sistemini geliştirmiştir. Elektrik mühendisliği alanında devrim niteliğinde çalışmalar yapmıştır. Kablosuz enerji aktarımı üzerine projeleriyle tanınır."
40
  ]
41
 
42
+ docs = [doc.replace("I", "ı").lower() for doc in docs]
43
+
44
+ rag.index(docs, index_name="sampleTest")
45
+
46
+ query = "Birden fazla Nobel Ödülü alan bilim insanı kimdir?"
47
+ query = query.replace("I", "ı").lower()
48
 
 
49
  results = rag.search(query, k= 1)
50
+ print(results[0]['content']) # "marie curie, radyoaktivite üzerine yaptığı çalışmalarla bilim dünyasına büyük katkılar sağlamıştır. polonyum ve radyum elementlerini keşfetmiştir. i̇ki farklı dalda nobel ödülü alan ilk kişi olmuştur."
51
  ```
52
 
53
  # Acknowledgments
 
64
  }
65
  ```
66
 
67
+ ### Contact
68
+ COSMOS AI Research Group, Yildiz Technical University Computer Engineering Department <br>
69
+ https://cosmos.yildiz.edu.tr/ <br>
70