UmarRamzan
commited on
Commit
•
f7997cf
1
Parent(s):
24a855a
Upload folder using huggingface_hub
Browse files- README.md +12 -31
- added_tokens.json +2 -2
- alphabet.json +1 -1
- config.json +3 -3
- language_model/5gram.bin +2 -2
- language_model/unigrams.txt +17 -47
- model.safetensors +2 -2
- runs/May13_11-47-53_46d74bf08513/events.out.tfevents.1715601028.46d74bf08513.381.0 +3 -0
- runs/May13_12-54-01_46d74bf08513/events.out.tfevents.1715604999.46d74bf08513.381.1 +3 -0
- runs/May13_13-36-09_46d74bf08513/events.out.tfevents.1715607526.46d74bf08513.381.2 +3 -0
- tokenizer_config.json +4 -4
- training_args.bin +1 -1
- vocab.json +22 -38
README.md
CHANGED
@@ -1,26 +1,13 @@
|
|
1 |
---
|
|
|
|
|
2 |
tags:
|
3 |
- generated_from_trainer
|
4 |
-
datasets:
|
5 |
-
- common_voice_17_0
|
6 |
metrics:
|
7 |
- wer
|
8 |
model-index:
|
9 |
- name: w2v2-bert-urdu
|
10 |
-
results:
|
11 |
-
- task:
|
12 |
-
name: Automatic Speech Recognition
|
13 |
-
type: automatic-speech-recognition
|
14 |
-
dataset:
|
15 |
-
name: common_voice_17_0
|
16 |
-
type: common_voice_17_0
|
17 |
-
config: ur
|
18 |
-
split: test[:100]
|
19 |
-
args: ur
|
20 |
-
metrics:
|
21 |
-
- name: Wer
|
22 |
-
type: wer
|
23 |
-
value: 0.2502732240437158
|
24 |
---
|
25 |
|
26 |
<!-- This model card has been generated automatically according to the information the Trainer had access to. You
|
@@ -28,10 +15,10 @@ should probably proofread and complete it, then remove this comment. -->
|
|
28 |
|
29 |
# w2v2-bert-urdu
|
30 |
|
31 |
-
This model
|
32 |
It achieves the following results on the evaluation set:
|
33 |
-
- Loss: 0.
|
34 |
-
- Wer: 0.
|
35 |
|
36 |
## Model description
|
37 |
|
@@ -59,24 +46,18 @@ The following hyperparameters were used during training:
|
|
59 |
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
|
60 |
- lr_scheduler_type: linear
|
61 |
- lr_scheduler_warmup_steps: 100
|
62 |
-
- num_epochs:
|
63 |
- mixed_precision_training: Native AMP
|
64 |
|
65 |
### Training results
|
66 |
|
67 |
| Training Loss | Epoch | Step | Validation Loss | Wer |
|
68 |
|:-------------:|:------:|:----:|:---------------:|:------:|
|
69 |
-
| 0.
|
70 |
-
| 0.
|
71 |
-
| 0.
|
72 |
-
| 0.
|
73 |
-
| 0.
|
74 |
-
| 0.3779 | 1.0169 | 300 | 0.3292 | 0.2852 |
|
75 |
-
| 0.3167 | 1.1864 | 350 | 0.3230 | 0.2820 |
|
76 |
-
| 0.3578 | 1.3559 | 400 | 0.3825 | 0.2940 |
|
77 |
-
| 0.4189 | 1.5254 | 450 | 0.4225 | 0.3104 |
|
78 |
-
| 0.4803 | 1.6949 | 500 | 0.4248 | 0.3311 |
|
79 |
-
| 0.4612 | 1.8644 | 550 | 0.4246 | 0.3301 |
|
80 |
|
81 |
|
82 |
### Framework versions
|
|
|
1 |
---
|
2 |
+
license: mit
|
3 |
+
base_model: UmarRamzan/w2v2-bert-urdu
|
4 |
tags:
|
5 |
- generated_from_trainer
|
|
|
|
|
6 |
metrics:
|
7 |
- wer
|
8 |
model-index:
|
9 |
- name: w2v2-bert-urdu
|
10 |
+
results: []
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
11 |
---
|
12 |
|
13 |
<!-- This model card has been generated automatically according to the information the Trainer had access to. You
|
|
|
15 |
|
16 |
# w2v2-bert-urdu
|
17 |
|
18 |
+
This model is a fine-tuned version of [UmarRamzan/w2v2-bert-urdu](https://huggingface.co/UmarRamzan/w2v2-bert-urdu) on an unknown dataset.
|
19 |
It achieves the following results on the evaluation set:
|
20 |
+
- Loss: 0.3681
|
21 |
+
- Wer: 0.2929
|
22 |
|
23 |
## Model description
|
24 |
|
|
|
46 |
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
|
47 |
- lr_scheduler_type: linear
|
48 |
- lr_scheduler_warmup_steps: 100
|
49 |
+
- num_epochs: 1
|
50 |
- mixed_precision_training: Native AMP
|
51 |
|
52 |
### Training results
|
53 |
|
54 |
| Training Loss | Epoch | Step | Validation Loss | Wer |
|
55 |
|:-------------:|:------:|:----:|:---------------:|:------:|
|
56 |
+
| 0.4362 | 0.1695 | 50 | 0.4144 | 0.3213 |
|
57 |
+
| 0.3776 | 0.3390 | 100 | 0.4029 | 0.3137 |
|
58 |
+
| 0.3918 | 0.5085 | 150 | 0.4095 | 0.3060 |
|
59 |
+
| 0.3968 | 0.6780 | 200 | 0.3961 | 0.3060 |
|
60 |
+
| 0.3685 | 0.8475 | 250 | 0.3681 | 0.2929 |
|
|
|
|
|
|
|
|
|
|
|
|
|
61 |
|
62 |
|
63 |
### Framework versions
|
added_tokens.json
CHANGED
@@ -1,4 +1,4 @@
|
|
1 |
{
|
2 |
-
"</s>":
|
3 |
-
"<s>":
|
4 |
}
|
|
|
1 |
{
|
2 |
+
"</s>": 48,
|
3 |
+
"<s>": 47
|
4 |
}
|
alphabet.json
CHANGED
@@ -1 +1 @@
|
|
1 |
-
{"labels": [" ", "\u0623", "\u0624", "\u0626", "\u0627", "\u0628", "\u062a", "\u062b", "\u062c", "\u062d", "\u062e", "\u062f", "\u0630", "\u0631", "\u0632", "\u0633", "\u0634", "\u0635", "\u0636", "\u0637", "\u0638", "\u0639", "\u063a", "\u0641", "\u0642", "\
|
|
|
1 |
+
{"labels": [" ", "\u0623", "\u0624", "\u0626", "\u0627", "\u0628", "\u062a", "\u062b", "\u062c", "\u062d", "\u062e", "\u062f", "\u0630", "\u0631", "\u0632", "\u0633", "\u0634", "\u0635", "\u0636", "\u0637", "\u0638", "\u0639", "\u063a", "\u0641", "\u0642", "\u0644", "\u0645", "\u0646", "\u0648", "\u0679", "\u067e", "\u0686", "\u0688", "\u0691", "\u0698", "\u06a9", "\u06af", "\u06ba", "\u06be", "\u06c1", "\u06c2", "\u06c3", "\u06cc", "\u06d2", "\u06d3", "\u2047", "", "<s>", "</s>"], "is_bpe": false}
|
config.json
CHANGED
@@ -1,5 +1,5 @@
|
|
1 |
{
|
2 |
-
"_name_or_path": "w2v2-bert-urdu",
|
3 |
"activation_dropout": 0.0,
|
4 |
"adapter_act": "relu",
|
5 |
"adapter_kernel_size": 3,
|
@@ -47,7 +47,7 @@
|
|
47 |
"num_hidden_layers": 24,
|
48 |
"num_negatives": 100,
|
49 |
"output_hidden_size": 1024,
|
50 |
-
"pad_token_id":
|
51 |
"position_embeddings_type": "relative_key",
|
52 |
"proj_codevector_dim": 768,
|
53 |
"right_max_position_embeddings": 8,
|
@@ -77,6 +77,6 @@
|
|
77 |
"transformers_version": "4.40.2",
|
78 |
"use_intermediate_ffn_before_adapter": false,
|
79 |
"use_weighted_layer_sum": false,
|
80 |
-
"vocab_size":
|
81 |
"xvector_output_dim": 512
|
82 |
}
|
|
|
1 |
{
|
2 |
+
"_name_or_path": "UmarRamzan/w2v2-bert-urdu",
|
3 |
"activation_dropout": 0.0,
|
4 |
"adapter_act": "relu",
|
5 |
"adapter_kernel_size": 3,
|
|
|
47 |
"num_hidden_layers": 24,
|
48 |
"num_negatives": 100,
|
49 |
"output_hidden_size": 1024,
|
50 |
+
"pad_token_id": 46,
|
51 |
"position_embeddings_type": "relative_key",
|
52 |
"proj_codevector_dim": 768,
|
53 |
"right_max_position_embeddings": 8,
|
|
|
77 |
"transformers_version": "4.40.2",
|
78 |
"use_intermediate_ffn_before_adapter": false,
|
79 |
"use_weighted_layer_sum": false,
|
80 |
+
"vocab_size": 49,
|
81 |
"xvector_output_dim": 512
|
82 |
}
|
language_model/5gram.bin
CHANGED
@@ -1,3 +1,3 @@
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
-
oid sha256:
|
3 |
-
size
|
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:2124926db0c62d63b3b1c5d20d7f2365c7c6a547cfdf1d3cf6755bc5e9033eea
|
3 |
+
size 6363255
|
language_model/unigrams.txt
CHANGED
@@ -10,6 +10,7 @@ wafa
|
|
10 |
ؤجاؤ
|
11 |
ئرلینڈ
|
12 |
ئرلینڈمتوقع
|
|
|
13 |
ئل
|
14 |
ئلینڈ
|
15 |
ئلینڈز
|
@@ -34,29 +35,24 @@ wafa
|
|
34 |
ئے
|
35 |
ا
|
36 |
ائرلینڈ
|
37 |
-
ائرن
|
38 |
ائل
|
39 |
-
ائن
|
40 |
ائندہ
|
41 |
ائی
|
42 |
ائیر
|
43 |
ائیرپورٹ
|
44 |
ائیسویں
|
45 |
-
ائیں
|
46 |
ائے
|
|
|
47 |
اانسان
|
48 |
اب
|
49 |
اباد
|
50 |
ابادمیںیوم
|
51 |
-
ابادنیو
|
52 |
-
ابادی
|
53 |
ابتدا
|
54 |
ابتدائی
|
55 |
ابد
|
56 |
ابر
|
57 |
ابراھیم
|
58 |
ابراہیم
|
59 |
-
ابروئے
|
60 |
ابستر
|
61 |
ابصار
|
62 |
ابلاغ
|
@@ -94,7 +90,6 @@ wafa
|
|
94 |
اتھارٹی
|
95 |
اتھارٹیز
|
96 |
اتی
|
97 |
-
اتے
|
98 |
اثاثہ
|
99 |
اثاثے
|
100 |
اثبات
|
@@ -236,8 +231,6 @@ wafa
|
|
236 |
اروبا
|
237 |
ارڈرز
|
238 |
ارڑان
|
239 |
-
ارہی
|
240 |
-
ارہے
|
241 |
اری
|
242 |
اریٹیریا
|
243 |
ارے
|
@@ -437,7 +430,6 @@ wafa
|
|
437 |
اغاز
|
438 |
اغیار
|
439 |
اف
|
440 |
-
افتاب
|
441 |
افتتاح
|
442 |
افتخار
|
443 |
افراتفریح
|
@@ -536,7 +528,6 @@ wafa
|
|
536 |
الفت
|
537 |
الفیل
|
538 |
القادری
|
539 |
-
الله
|
540 |
اللہ
|
541 |
الم
|
542 |
المبارک
|
@@ -548,7 +539,6 @@ wafa
|
|
548 |
النجوم
|
549 |
الو
|
550 |
الواقع
|
551 |
-
الود
|
552 |
الوداع
|
553 |
الوطنی
|
554 |
الوقت
|
@@ -586,7 +576,6 @@ wafa
|
|
586 |
امراض
|
587 |
امرالہی
|
588 |
امرتسر
|
589 |
-
امريکا
|
590 |
امریکا
|
591 |
امریکہ
|
592 |
امریکی
|
@@ -737,7 +726,6 @@ wafa
|
|
737 |
انکشاف
|
738 |
انکم
|
739 |
انکو
|
740 |
-
انکھ
|
741 |
انکھوں
|
742 |
انکھیں
|
743 |
انکی
|
@@ -892,10 +880,6 @@ wafa
|
|
892 |
اوکھے
|
893 |
اوگرا
|
894 |
اویس
|
895 |
-
ايجاد
|
896 |
-
ايسے
|
897 |
-
ايشيا
|
898 |
-
اينڈرائيڈ
|
899 |
اٹ
|
900 |
اٹالو
|
901 |
اٹالین
|
@@ -937,7 +921,6 @@ wafa
|
|
937 |
اپر
|
938 |
اپریشن
|
939 |
اپریل
|
940 |
-
اپس
|
941 |
اپلائنسز
|
942 |
اپلے
|
943 |
اپن
|
@@ -962,7 +945,6 @@ wafa
|
|
962 |
اچھی
|
963 |
اچھے
|
964 |
اڈہ
|
965 |
-
اڈیشنزمیں
|
966 |
اڑ
|
967 |
اڑا
|
968 |
اڑانے
|
@@ -982,7 +964,6 @@ wafa
|
|
982 |
اکثریت
|
983 |
اکجا
|
984 |
اکرم
|
985 |
-
اکسائیڈ
|
986 |
اکسایا
|
987 |
اکستان
|
988 |
اکشے
|
@@ -1006,7 +987,6 @@ wafa
|
|
1006 |
اگائے
|
1007 |
اگاتے
|
1008 |
اگانے
|
1009 |
-
اگاہ
|
1010 |
اگر
|
1011 |
اگرغیر
|
1012 |
اگرچہ
|
@@ -1095,6 +1075,7 @@ wafa
|
|
1095 |
اینٹلیجنس
|
1096 |
اینٹی
|
1097 |
اینڈ
|
|
|
1098 |
اینڈرسن
|
1099 |
اینکر
|
1100 |
اینیمیٹیڈ
|
@@ -1141,7 +1122,6 @@ wafa
|
|
1141 |
ایکڑبحریہ
|
1142 |
ایگزیکٹو
|
1143 |
اے
|
1144 |
-
اﷲ
|
1145 |
ب
|
1146 |
با
|
1147 |
بائبل
|
@@ -1167,6 +1147,7 @@ wafa
|
|
1167 |
بادبان
|
1168 |
بادشاہ
|
1169 |
بادل
|
|
|
1170 |
بادہ
|
1171 |
بادۂ
|
1172 |
بادی
|
@@ -1220,7 +1201,7 @@ wafa
|
|
1220 |
باغات
|
1221 |
باغبانی
|
1222 |
باغی
|
1223 |
-
|
1224 |
باقاعدگی
|
1225 |
باقاعدہ
|
1226 |
باقی
|
@@ -2404,7 +2385,6 @@ wafa
|
|
2404 |
جایے
|
2405 |
جاے
|
2406 |
جاۓ
|
2407 |
-
جاﺅ
|
2408 |
جب
|
2409 |
جبر
|
2410 |
جبری
|
@@ -3344,6 +3324,7 @@ wafa
|
|
3344 |
دھک
|
3345 |
دھکا
|
3346 |
دھیان
|
|
|
3347 |
دھےگھنٹے
|
3348 |
دہ
|
3349 |
دہائی
|
@@ -3552,7 +3533,6 @@ wafa
|
|
3552 |
رسنل
|
3553 |
رسوائی
|
3554 |
رسول
|
3555 |
-
رسولﷺ
|
3556 |
رسی
|
3557 |
رسیدہ
|
3558 |
رسیوں
|
@@ -3894,7 +3874,6 @@ wafa
|
|
3894 |
زون
|
3895 |
زونز
|
3896 |
زونگ
|
3897 |
-
زينت
|
3898 |
زپر
|
3899 |
زڈیسک
|
3900 |
زڈیسکپورا
|
@@ -3917,6 +3896,7 @@ wafa
|
|
3917 |
زیرو
|
3918 |
زیریں
|
3919 |
زینب
|
|
|
3920 |
زیورات
|
3921 |
زیورخ
|
3922 |
زیڈ
|
@@ -5572,10 +5552,6 @@ wafa
|
|
5572 |
قیمتی
|
5573 |
قیمتیں
|
5574 |
قیو
|
5575 |
-
كرنے
|
5576 |
-
كو
|
5577 |
-
كوعطیہ
|
5578 |
-
كے
|
5579 |
ل
|
5580 |
لؤ
|
5581 |
لئیے
|
@@ -5682,8 +5658,8 @@ wafa
|
|
5682 |
لفظوں
|
5683 |
لفظیات
|
5684 |
لقب
|
5685 |
-
لله
|
5686 |
للکار
|
|
|
5687 |
لمبی
|
5688 |
لمبے
|
5689 |
لمحات
|
@@ -5704,6 +5680,7 @@ wafa
|
|
5704 |
لواحقین
|
5705 |
لواری
|
5706 |
لوح
|
|
|
5707 |
لودگی
|
5708 |
لودھی
|
5709 |
لودہ
|
@@ -5973,6 +5950,7 @@ wafa
|
|
5973 |
مایوس
|
5974 |
مایوسی
|
5975 |
مایہ
|
|
|
5976 |
مباحث
|
5977 |
مبادل
|
5978 |
مبادلہ
|
@@ -5987,7 +5965,6 @@ wafa
|
|
5987 |
مبہم
|
5988 |
مبہوت
|
5989 |
مبینہ
|
5990 |
-
مبﷺ
|
5991 |
مت
|
5992 |
متاثر
|
5993 |
متاثرہ
|
@@ -6047,10 +6024,10 @@ wafa
|
|
6047 |
مجموعہ
|
6048 |
مجموعی
|
6049 |
مجنوں
|
6050 |
-
مجهے
|
6051 |
مجھ
|
6052 |
مجھے
|
6053 |
مجھےلگتا
|
|
|
6054 |
مجیب
|
6055 |
مجید
|
6056 |
مجیدکامفہوم
|
@@ -6678,8 +6655,6 @@ wafa
|
|
6678 |
موڈ
|
6679 |
موڈرچ
|
6680 |
موڑ
|
6681 |
-
ميٹر
|
6682 |
-
ميں
|
6683 |
مٹا
|
6684 |
مٹانے
|
6685 |
مٹھائی
|
@@ -7370,7 +7345,6 @@ wafa
|
|
7370 |
ووٹنگ
|
7371 |
ووڈ
|
7372 |
وویمن
|
7373 |
-
ويئر
|
7374 |
وٹ
|
7375 |
وٹامن
|
7376 |
وٹو
|
@@ -7389,6 +7363,7 @@ wafa
|
|
7389 |
وہی
|
7390 |
وہیں
|
7391 |
وی
|
|
|
7392 |
ویب
|
7393 |
ویبسائٹ
|
7394 |
ویتنام
|
@@ -7504,7 +7479,6 @@ wafa
|
|
7504 |
ٹوک
|
7505 |
ٹوکیو
|
7506 |
ٹویٹ
|
7507 |
-
ٹيکنالوجی
|
7508 |
ٹپ
|
7509 |
ٹپکتا
|
7510 |
ٹک
|
@@ -7531,6 +7505,7 @@ wafa
|
|
7531 |
ٹھنڈی
|
7532 |
ٹھنڈے
|
7533 |
ٹھوس
|
|
|
7534 |
ٹھکانہ
|
7535 |
ٹھکانے
|
7536 |
ٹھگنی
|
@@ -7893,11 +7868,11 @@ wafa
|
|
7893 |
پٹھوں
|
7894 |
پٹے
|
7895 |
پچاس
|
7896 |
-
پچيس
|
7897 |
پچھاڑدیا
|
7898 |
پچھتاوا
|
7899 |
پچھلی
|
7900 |
پچھلے
|
|
|
7901 |
پڑ
|
7902 |
پڑا
|
7903 |
پڑاو
|
@@ -8120,7 +8095,6 @@ wafa
|
|
8120 |
پیکج
|
8121 |
پیہم
|
8122 |
پے
|
8123 |
-
پﷺ
|
8124 |
چ
|
8125 |
چاؤ
|
8126 |
چائنہ
|
@@ -8255,7 +8229,6 @@ wafa
|
|
8255 |
چوک
|
8256 |
چوں
|
8257 |
چوہدری
|
8258 |
-
چينی
|
8259 |
چپ
|
8260 |
چڑ
|
8261 |
چڑا
|
@@ -8461,9 +8434,9 @@ wafa
|
|
8461 |
ڈور
|
8462 |
ڈوس
|
8463 |
ڈومنیکا
|
8464 |
-
ڈومينيکن
|
8465 |
ڈومیلینڈ
|
8466 |
ڈومین
|
|
|
8467 |
ڈونلڈ
|
8468 |
ڈوپ
|
8469 |
ڈوڈل
|
@@ -8517,6 +8490,7 @@ wafa
|
|
8517 |
ڈیسکا
|
8518 |
ڈیسکبرطانیہ
|
8519 |
ڈیسکگوگل
|
|
|
8520 |
ڈیل
|
8521 |
ڈیلن
|
8522 |
ڈیلپوٹرو
|
@@ -9000,6 +8974,7 @@ wafa
|
|
9000 |
کوشش
|
9001 |
کوششوں
|
9002 |
کوششیں
|
|
|
9003 |
کول
|
9004 |
کولاراڈو
|
9005 |
کولر
|
@@ -9039,7 +9014,6 @@ wafa
|
|
9039 |
کویت
|
9040 |
کویتی
|
9041 |
کویٹکوسکی
|
9042 |
-
کيا
|
9043 |
کٹ
|
9044 |
کٹاکانا
|
9045 |
کٹس
|
@@ -9799,7 +9773,6 @@ wafa
|
|
9799 |
ہوہے
|
9800 |
ہوے
|
9801 |
ہوۓ
|
9802 |
-
ہيں
|
9803 |
ہٹ
|
9804 |
ہٹا
|
9805 |
ہٹانا
|
@@ -9952,6 +9925,3 @@ wafa
|
|
9952 |
یے
|
9953 |
ے
|
9954 |
ۓ
|
9955 |
-
ﭨﮭﻮﻧﺲ
|
9956 |
-
ﺗﮭﮯ
|
9957 |
-
ﺩﯾﺘﮯ
|
|
|
10 |
ؤجاؤ
|
11 |
ئرلینڈ
|
12 |
ئرلینڈمتوقع
|
13 |
+
ئرن
|
14 |
ئل
|
15 |
ئلینڈ
|
16 |
ئلینڈز
|
|
|
35 |
ئے
|
36 |
ا
|
37 |
ائرلینڈ
|
|
|
38 |
ائل
|
|
|
39 |
ائندہ
|
40 |
ائی
|
41 |
ائیر
|
42 |
ائیرپورٹ
|
43 |
ائیسویں
|
|
|
44 |
ائے
|
45 |
+
االلہ
|
46 |
اانسان
|
47 |
اب
|
48 |
اباد
|
49 |
ابادمیںیوم
|
|
|
|
|
50 |
ابتدا
|
51 |
ابتدائی
|
52 |
ابد
|
53 |
ابر
|
54 |
ابراھیم
|
55 |
ابراہیم
|
|
|
56 |
ابستر
|
57 |
ابصار
|
58 |
ابلاغ
|
|
|
90 |
اتھارٹی
|
91 |
اتھارٹیز
|
92 |
اتی
|
|
|
93 |
اثاثہ
|
94 |
اثاثے
|
95 |
اثبات
|
|
|
231 |
اروبا
|
232 |
ارڈرز
|
233 |
ارڑان
|
|
|
|
|
234 |
اری
|
235 |
اریٹیریا
|
236 |
ارے
|
|
|
430 |
اغاز
|
431 |
اغیار
|
432 |
اف
|
|
|
433 |
افتتاح
|
434 |
افتخار
|
435 |
افراتفریح
|
|
|
528 |
الفت
|
529 |
الفیل
|
530 |
القادری
|
|
|
531 |
اللہ
|
532 |
الم
|
533 |
المبارک
|
|
|
539 |
النجوم
|
540 |
الو
|
541 |
الواقع
|
|
|
542 |
الوداع
|
543 |
الوطنی
|
544 |
الوقت
|
|
|
576 |
امراض
|
577 |
امرالہی
|
578 |
امرتسر
|
|
|
579 |
امریکا
|
580 |
امریکہ
|
581 |
امریکی
|
|
|
726 |
انکشاف
|
727 |
انکم
|
728 |
انکو
|
|
|
729 |
انکھوں
|
730 |
انکھیں
|
731 |
انکی
|
|
|
880 |
اوکھے
|
881 |
اوگرا
|
882 |
اویس
|
|
|
|
|
|
|
|
|
883 |
اٹ
|
884 |
اٹالو
|
885 |
اٹالین
|
|
|
921 |
اپر
|
922 |
اپریشن
|
923 |
اپریل
|
|
|
924 |
اپلائنسز
|
925 |
اپلے
|
926 |
اپن
|
|
|
945 |
اچھی
|
946 |
اچھے
|
947 |
اڈہ
|
|
|
948 |
اڑ
|
949 |
اڑا
|
950 |
اڑانے
|
|
|
964 |
اکثریت
|
965 |
اکجا
|
966 |
اکرم
|
|
|
967 |
اکسایا
|
968 |
اکستان
|
969 |
اکشے
|
|
|
987 |
اگائے
|
988 |
اگاتے
|
989 |
اگانے
|
|
|
990 |
اگر
|
991 |
اگرغیر
|
992 |
اگرچہ
|
|
|
1075 |
اینٹلیجنس
|
1076 |
اینٹی
|
1077 |
اینڈ
|
1078 |
+
اینڈرائیڈ
|
1079 |
اینڈرسن
|
1080 |
اینکر
|
1081 |
اینیمیٹیڈ
|
|
|
1122 |
ایکڑبحریہ
|
1123 |
ایگزیکٹو
|
1124 |
اے
|
|
|
1125 |
ب
|
1126 |
با
|
1127 |
بائبل
|
|
|
1147 |
بادبان
|
1148 |
بادشاہ
|
1149 |
بادل
|
1150 |
+
بادنیو
|
1151 |
بادہ
|
1152 |
بادۂ
|
1153 |
بادی
|
|
|
1201 |
باغات
|
1202 |
باغبانی
|
1203 |
باغی
|
1204 |
+
بافیا
|
1205 |
باقاعدگی
|
1206 |
باقاعدہ
|
1207 |
باقی
|
|
|
2385 |
جایے
|
2386 |
جاے
|
2387 |
جاۓ
|
|
|
2388 |
جب
|
2389 |
جبر
|
2390 |
جبری
|
|
|
3324 |
دھک
|
3325 |
دھکا
|
3326 |
دھیان
|
3327 |
+
دھے
|
3328 |
دھےگھنٹے
|
3329 |
دہ
|
3330 |
دہائی
|
|
|
3533 |
رسنل
|
3534 |
رسوائی
|
3535 |
رسول
|
|
|
3536 |
رسی
|
3537 |
رسیدہ
|
3538 |
رسیوں
|
|
|
3874 |
زون
|
3875 |
زونز
|
3876 |
زونگ
|
|
|
3877 |
زپر
|
3878 |
زڈیسک
|
3879 |
زڈیسکپورا
|
|
|
3896 |
زیرو
|
3897 |
زیریں
|
3898 |
زینب
|
3899 |
+
زینت
|
3900 |
زیورات
|
3901 |
زیورخ
|
3902 |
زیڈ
|
|
|
5552 |
قیمتی
|
5553 |
قیمتیں
|
5554 |
قیو
|
|
|
|
|
|
|
|
|
5555 |
ل
|
5556 |
لؤ
|
5557 |
لئیے
|
|
|
5658 |
لفظوں
|
5659 |
لفظیات
|
5660 |
لقب
|
|
|
5661 |
للکار
|
5662 |
+
للہ
|
5663 |
لمبی
|
5664 |
لمبے
|
5665 |
لمحات
|
|
|
5680 |
لواحقین
|
5681 |
لواری
|
5682 |
لوح
|
5683 |
+
لود
|
5684 |
لودگی
|
5685 |
لودھی
|
5686 |
لودہ
|
|
|
5950 |
مایوس
|
5951 |
مایوسی
|
5952 |
مایہ
|
5953 |
+
مب
|
5954 |
مباحث
|
5955 |
مبادل
|
5956 |
مبادلہ
|
|
|
5965 |
مبہم
|
5966 |
مبہوت
|
5967 |
مبینہ
|
|
|
5968 |
مت
|
5969 |
متاثر
|
5970 |
متاثرہ
|
|
|
6024 |
مجموعہ
|
6025 |
مجموعی
|
6026 |
مجنوں
|
|
|
6027 |
مجھ
|
6028 |
مجھے
|
6029 |
مجھےلگتا
|
6030 |
+
مجہے
|
6031 |
مجیب
|
6032 |
مجید
|
6033 |
مجیدکامفہوم
|
|
|
6655 |
موڈ
|
6656 |
موڈرچ
|
6657 |
موڑ
|
|
|
|
|
6658 |
مٹا
|
6659 |
مٹانے
|
6660 |
مٹھائی
|
|
|
7345 |
ووٹنگ
|
7346 |
ووڈ
|
7347 |
وویمن
|
|
|
7348 |
وٹ
|
7349 |
وٹامن
|
7350 |
وٹو
|
|
|
7363 |
وہی
|
7364 |
وہیں
|
7365 |
وی
|
7366 |
+
ویئر
|
7367 |
ویب
|
7368 |
ویبسائٹ
|
7369 |
ویتنام
|
|
|
7479 |
ٹوک
|
7480 |
ٹوکیو
|
7481 |
ٹویٹ
|
|
|
7482 |
ٹپ
|
7483 |
ٹپکتا
|
7484 |
ٹک
|
|
|
7505 |
ٹھنڈی
|
7506 |
ٹھنڈے
|
7507 |
ٹھوس
|
7508 |
+
ٹھونس
|
7509 |
ٹھکانہ
|
7510 |
ٹھکانے
|
7511 |
ٹھگنی
|
|
|
7868 |
پٹھوں
|
7869 |
پٹے
|
7870 |
پچاس
|
|
|
7871 |
پچھاڑدیا
|
7872 |
پچھتاوا
|
7873 |
پچھلی
|
7874 |
پچھلے
|
7875 |
+
پچیس
|
7876 |
پڑ
|
7877 |
پڑا
|
7878 |
پڑاو
|
|
|
8095 |
پیکج
|
8096 |
پیہم
|
8097 |
پے
|
|
|
8098 |
چ
|
8099 |
چاؤ
|
8100 |
چائنہ
|
|
|
8229 |
چوک
|
8230 |
چوں
|
8231 |
چوہدری
|
|
|
8232 |
چپ
|
8233 |
چڑ
|
8234 |
چڑا
|
|
|
8434 |
ڈور
|
8435 |
ڈوس
|
8436 |
ڈومنیکا
|
|
|
8437 |
ڈومیلینڈ
|
8438 |
ڈومین
|
8439 |
+
ڈومینیکن
|
8440 |
ڈونلڈ
|
8441 |
ڈوپ
|
8442 |
ڈوڈل
|
|
|
8490 |
ڈیسکا
|
8491 |
ڈیسکبرطانیہ
|
8492 |
ڈیسکگوگل
|
8493 |
+
ڈیشنزمیں
|
8494 |
ڈیل
|
8495 |
ڈیلن
|
8496 |
ڈیلپوٹرو
|
|
|
8974 |
کوشش
|
8975 |
کوششوں
|
8976 |
کوششیں
|
8977 |
+
کوعطیہ
|
8978 |
کول
|
8979 |
کولاراڈو
|
8980 |
کولر
|
|
|
9014 |
کویت
|
9015 |
کویتی
|
9016 |
کویٹکوسکی
|
|
|
9017 |
کٹ
|
9018 |
کٹاکانا
|
9019 |
کٹس
|
|
|
9773 |
ہوہے
|
9774 |
ہوے
|
9775 |
ہوۓ
|
|
|
9776 |
ہٹ
|
9777 |
ہٹا
|
9778 |
ہٹانا
|
|
|
9925 |
یے
|
9926 |
ے
|
9927 |
ۓ
|
|
|
|
|
|
model.safetensors
CHANGED
@@ -1,3 +1,3 @@
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
-
oid sha256:
|
3 |
-
size
|
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:b84f6a62596d999a4c9cb8f813aa5cd259ef737cbe422a7031a40d81f225095e
|
3 |
+
size 2423015460
|
runs/May13_11-47-53_46d74bf08513/events.out.tfevents.1715601028.46d74bf08513.381.0
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:b902b3ddffd8d82c93f612f465e4f4d8d6fdd1cf28b655b4e5ae1d7e82c54ae3
|
3 |
+
size 12090
|
runs/May13_12-54-01_46d74bf08513/events.out.tfevents.1715604999.46d74bf08513.381.1
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:1d689a4f6b7fe90d995042c28483b1ad7fc0cd3490ad1059b7d414f275103756
|
3 |
+
size 8921
|
runs/May13_13-36-09_46d74bf08513/events.out.tfevents.1715607526.46d74bf08513.381.2
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:c43f1c451d00cf42a553b8bef8d2153ecdadbc7d39836ed18830a647804f73a2
|
3 |
+
size 8921
|
tokenizer_config.json
CHANGED
@@ -1,6 +1,6 @@
|
|
1 |
{
|
2 |
"added_tokens_decoder": {
|
3 |
-
"
|
4 |
"content": "[UNK]",
|
5 |
"lstrip": true,
|
6 |
"normalized": false,
|
@@ -8,7 +8,7 @@
|
|
8 |
"single_word": false,
|
9 |
"special": false
|
10 |
},
|
11 |
-
"
|
12 |
"content": "[PAD]",
|
13 |
"lstrip": true,
|
14 |
"normalized": false,
|
@@ -16,7 +16,7 @@
|
|
16 |
"single_word": false,
|
17 |
"special": false
|
18 |
},
|
19 |
-
"
|
20 |
"content": "<s>",
|
21 |
"lstrip": false,
|
22 |
"normalized": false,
|
@@ -24,7 +24,7 @@
|
|
24 |
"single_word": false,
|
25 |
"special": true
|
26 |
},
|
27 |
-
"
|
28 |
"content": "</s>",
|
29 |
"lstrip": false,
|
30 |
"normalized": false,
|
|
|
1 |
{
|
2 |
"added_tokens_decoder": {
|
3 |
+
"45": {
|
4 |
"content": "[UNK]",
|
5 |
"lstrip": true,
|
6 |
"normalized": false,
|
|
|
8 |
"single_word": false,
|
9 |
"special": false
|
10 |
},
|
11 |
+
"46": {
|
12 |
"content": "[PAD]",
|
13 |
"lstrip": true,
|
14 |
"normalized": false,
|
|
|
16 |
"single_word": false,
|
17 |
"special": false
|
18 |
},
|
19 |
+
"47": {
|
20 |
"content": "<s>",
|
21 |
"lstrip": false,
|
22 |
"normalized": false,
|
|
|
24 |
"single_word": false,
|
25 |
"special": true
|
26 |
},
|
27 |
+
"48": {
|
28 |
"content": "</s>",
|
29 |
"lstrip": false,
|
30 |
"normalized": false,
|
training_args.bin
CHANGED
@@ -1,3 +1,3 @@
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
-
oid sha256:
|
3 |
size 4984
|
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:abb49419e4927f07be4606193f5306a381e0aa131c3565a6ed2a790470c4cabc
|
3 |
size 4984
|
vocab.json
CHANGED
@@ -1,6 +1,6 @@
|
|
1 |
{
|
2 |
-
"[PAD]":
|
3 |
-
"[UNK]":
|
4 |
"|": 0,
|
5 |
"أ": 1,
|
6 |
"ؤ": 2,
|
@@ -26,40 +26,24 @@
|
|
26 |
"غ": 22,
|
27 |
"ف": 23,
|
28 |
"ق": 24,
|
29 |
-
"
|
30 |
-
"
|
31 |
-
"
|
32 |
-
"
|
33 |
-
"
|
34 |
-
"
|
35 |
-
"
|
36 |
-
"
|
37 |
-
"
|
38 |
-
"
|
39 |
-
"
|
40 |
-
"
|
41 |
-
"
|
42 |
-
"
|
43 |
-
"
|
44 |
-
"
|
45 |
-
"
|
46 |
-
"
|
47 |
-
"
|
48 |
-
"
|
49 |
-
"ی": 45,
|
50 |
-
"ے": 46,
|
51 |
-
"ۓ": 47,
|
52 |
-
"ﭨ": 48,
|
53 |
-
"ﮭ": 49,
|
54 |
-
"ﮯ": 50,
|
55 |
-
"ﯾ": 51,
|
56 |
-
"ﷲ": 52,
|
57 |
-
"ﷺ": 53,
|
58 |
-
"ﺅ": 54,
|
59 |
-
"ﺗ": 55,
|
60 |
-
"ﺘ": 56,
|
61 |
-
"ﺩ": 57,
|
62 |
-
"ﺲ": 58,
|
63 |
-
"ﻧ": 59,
|
64 |
-
"ﻮ": 60
|
65 |
}
|
|
|
1 |
{
|
2 |
+
"[PAD]": 46,
|
3 |
+
"[UNK]": 45,
|
4 |
"|": 0,
|
5 |
"أ": 1,
|
6 |
"ؤ": 2,
|
|
|
26 |
"غ": 22,
|
27 |
"ف": 23,
|
28 |
"ق": 24,
|
29 |
+
"ل": 25,
|
30 |
+
"م": 26,
|
31 |
+
"ن": 27,
|
32 |
+
"و": 28,
|
33 |
+
"ٹ": 29,
|
34 |
+
"پ": 30,
|
35 |
+
"چ": 31,
|
36 |
+
"ڈ": 32,
|
37 |
+
"ڑ": 33,
|
38 |
+
"ژ": 34,
|
39 |
+
"ک": 35,
|
40 |
+
"گ": 36,
|
41 |
+
"ں": 37,
|
42 |
+
"ھ": 38,
|
43 |
+
"ہ": 39,
|
44 |
+
"ۂ": 40,
|
45 |
+
"ۃ": 41,
|
46 |
+
"ی": 42,
|
47 |
+
"ے": 43,
|
48 |
+
"ۓ": 44
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
49 |
}
|