Commit
•
071fb85
1
Parent(s):
47f7f88
Update README.md (#1)
Browse files- Update README.md (98c0a67f6cb4688fd234e516aba722e486a737c8)
Co-authored-by: Abdulkader Saoud <[email protected]>
README.md
CHANGED
@@ -1,13 +1,24 @@
|
|
1 |
-
|
2 |
---
|
3 |
tags:
|
4 |
- Turkish
|
5 |
- turkish
|
|
|
6 |
license: mit
|
7 |
language:
|
8 |
- tr
|
9 |
base_model: ytu-ce-cosmos/turkish-base-bert-uncased
|
10 |
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
11 |
|
12 |
## Example Usage
|
13 |
|
@@ -28,11 +39,15 @@ docs = [
|
|
28 |
"Nikola Tesla, alternatif akım (AC) sistemini geliştirmiştir. Elektrik mühendisliği alanında devrim niteliğinde çalışmalar yapmıştır. Kablosuz enerji aktarımı üzerine projeleriyle tanınır."
|
29 |
]
|
30 |
|
31 |
-
|
|
|
|
|
|
|
|
|
|
|
32 |
|
33 |
-
query = query = "Birden fazla Nobel Ödülü alan bilim insanı kimdir?"
|
34 |
results = rag.search(query, k= 1)
|
35 |
-
print(results[0]['content']) # "
|
36 |
```
|
37 |
|
38 |
# Acknowledgments
|
@@ -49,5 +64,7 @@ print(results[0]['content']) # "Marie Curie, radyoaktivite üzerine yaptığı
|
|
49 |
}
|
50 |
```
|
51 |
|
52 |
-
|
53 |
-
|
|
|
|
|
|
|
|
1 |
---
|
2 |
tags:
|
3 |
- Turkish
|
4 |
- turkish
|
5 |
+
- passage-retrieval
|
6 |
license: mit
|
7 |
language:
|
8 |
- tr
|
9 |
base_model: ytu-ce-cosmos/turkish-base-bert-uncased
|
10 |
---
|
11 |
+
# Turkish-ColBERT
|
12 |
+
This is a Turkish passage retrieval model based on the [ColBERT](https://doi.org/10.48550/arXiv.2112.01488) architecture.
|
13 |
+
|
14 |
+
The [Comos Turkish Base BERT](https://huggingface.co/ytu-ce-cosmos/turkish-base-bert-uncased) model was fine-tuned on 500k triplets (query, positive passage, negative passage) from a Turkish-translated version of the [MS MARCO dataset](https://huggingface.co/datasets/BeIR/msmarco).
|
15 |
+
|
16 |
+
#### ⚠ Uncased use requires manual lowercase conversion
|
17 |
+
Convert your text to lower case as follows:
|
18 |
+
```python
|
19 |
+
text.replace("I", "ı").lower()
|
20 |
+
```
|
21 |
+
This is due to a [known issue](https://github.com/huggingface/transformers/issues/6680) with the tokenizer.
|
22 |
|
23 |
## Example Usage
|
24 |
|
|
|
39 |
"Nikola Tesla, alternatif akım (AC) sistemini geliştirmiştir. Elektrik mühendisliği alanında devrim niteliğinde çalışmalar yapmıştır. Kablosuz enerji aktarımı üzerine projeleriyle tanınır."
|
40 |
]
|
41 |
|
42 |
+
docs = [doc.replace("I", "ı").lower() for doc in docs]
|
43 |
+
|
44 |
+
rag.index(docs, index_name="sampleTest")
|
45 |
+
|
46 |
+
query = "Birden fazla Nobel Ödülü alan bilim insanı kimdir?"
|
47 |
+
query = query.replace("I", "ı").lower()
|
48 |
|
|
|
49 |
results = rag.search(query, k= 1)
|
50 |
+
print(results[0]['content']) # "marie curie, radyoaktivite üzerine yaptığı çalışmalarla bilim dünyasına büyük katkılar sağlamıştır. polonyum ve radyum elementlerini keşfetmiştir. i̇ki farklı dalda nobel ödülü alan ilk kişi olmuştur."
|
51 |
```
|
52 |
|
53 |
# Acknowledgments
|
|
|
64 |
}
|
65 |
```
|
66 |
|
67 |
+
### Contact
|
68 |
+
COSMOS AI Research Group, Yildiz Technical University Computer Engineering Department <br>
|
69 |
+
https://cosmos.yildiz.edu.tr/ <br>
|
70 |
+
[email protected] <br>
|