File size: 3,436 Bytes
e27af98
 
 
 
98c0a67
e27af98
 
 
47f7f88
e27af98
98c0a67
 
 
 
 
 
 
 
 
 
 
e27af98
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
98c0a67
 
 
 
 
 
e27af98
 
98c0a67
e27af98
 
47f7f88
 
 
 
 
 
 
 
 
 
 
 
 
 
98c0a67
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
---
tags:
- Turkish
- turkish
- passage-retrieval
license: mit
language:
- tr
base_model: ytu-ce-cosmos/turkish-base-bert-uncased
---
# Turkish-ColBERT
This is a Turkish passage retrieval model based on the [ColBERT](https://doi.org/10.48550/arXiv.2112.01488) architecture.

The [Comos Turkish Base BERT](https://huggingface.co/ytu-ce-cosmos/turkish-base-bert-uncased) model was fine-tuned on 500k triplets (query, positive passage, negative passage) from a Turkish-translated version of the [MS MARCO dataset](https://huggingface.co/datasets/BeIR/msmarco).

#### ⚠ Uncased use requires manual lowercase conversion
Convert your text to lower case as follows: 
```python
text.replace("I", "ı").lower()
```
This is due to a [known issue](https://github.com/huggingface/transformers/issues/6680) with the tokenizer.

## Example Usage

```bash
!pip install ragatouille
```

```python
from ragatouille import RAGPretrainedModel

rag = RAGPretrainedModel.from_pretrained("ytu-ce-cosmos/turkish-colbert")

docs = [
    "Marie Curie, radyoaktivite üzerine yaptığı çalışmalarla bilim dünyasına büyük katkılar sağlamıştır. Polonyum ve radyum elementlerini keşfetmiştir. İki farklı dalda Nobel Ödülü alan ilk kişi olmuştur.",
    "Isaac Newton, fizik ve matematik alanında yaptığı çalışmalarla bilinir. Yerçekimi teorisi ve hareket yasaları, bilim dünyasında çığır açmıştır. Ayrıca, matematiksel analiz üzerinde de önemli katkıları vardır.",
    "Albert Einstein, izafiyet teorisini geliştirerek modern fiziğin temellerini atmıştır. 1921 yılında Nobel Fizik Ödülü'nü kazanmıştır. Kütle-enerji eşitliği (E=mc²) onun en ünlü formülüdür.",
    "Alexander Fleming, 1928 yılında penisilini keşfederek modern tıpta devrim yaratmıştır. Bu keşfi sayesinde 1945 yılında Nobel Tıp Ödülü kazanmıştır. Fleming'in çalışmaları antibiyotiklerin gelişimine öncülük etmiştir.",
    "Nikola Tesla, alternatif akım (AC) sistemini geliştirmiştir. Elektrik mühendisliği alanında devrim niteliğinde çalışmalar yapmıştır. Kablosuz enerji aktarımı üzerine projeleriyle tanınır."
]

docs = [doc.replace("I", "ı").lower() for doc in docs]

rag.index(docs, index_name="sampleTest")

query = "Birden fazla Nobel Ödülü alan bilim insanı kimdir?"
query = query.replace("I", "ı").lower()

results = rag.search(query, k= 1)
print(results[0]['content']) # "marie curie, radyoaktivite üzerine yaptığı çalışmalarla bilim dünyasına büyük katkılar sağlamıştır. polonyum ve radyum elementlerini keşfetmiştir. i̇ki farklı dalda nobel ödülü alan ilk kişi olmuştur."
```

# Acknowledgments
- Research supported with Cloud TPUs from [Google's TensorFlow Research Cloud](https://sites.research.google/trc/about/) (TFRC). Thanks for providing access to the TFRC ❤️
- Thanks to the generous support from the Hugging Face team, it is possible to download models from their S3 storage 🤗

# Citations
```bibtex
@article{kesgin2023developing,
  title={Developing and Evaluating Tiny to Medium-Sized Turkish BERT Models},
  author={Kesgin, Himmet Toprak and Yuce, Muzaffer Kaan and Amasyali, Mehmet Fatih},
  journal={arXiv preprint arXiv:2307.14134},
  year={2023}
}
```

### Contact 
COSMOS AI Research Group, Yildiz Technical University Computer Engineering Department   <br>
https://cosmos.yildiz.edu.tr/ <br>
[email protected] <br>