ruthuvikas1998
/

kannada-tokenizer

English

Kannada

language

kannada

Model card Files Files and versions Community

ruthuvikas1998 commited on 28 days ago

Commit

01d3c74

verified ·

1 Parent(s): ec3dcf7

Update README.md

Browse files

Files changed (1) hide show

README.md +15 -17

README.md CHANGED Viewed

@@ -40,37 +40,35 @@ The tokenizer has been tested on multiple text categories:
 #### Test Case 1: Basic sentence
 **Original text:** ನಮಸ್ಕಾರ ಕನ್ನಡ ಭಾಷೆ
-**Encoded tokens:** ['<s>', 'à²¨à²®à²¸', 'à³į', 'à²ķ', 'à²¾', 'à²°', 'Ġà²ķà²¨', 'à³į', 'à²¨à²¡', 'Ġà²Ń', 'à²¾', 'à²·', 'à³Ĩ', '</s>']
-**Token IDs:** [0, 1461, 264, 278, 270, 272, 738, 264, 407, 386, 270, 323, 268, 1]
 **Decoded text:** ನಮಸ್ಕಾರ ಕನ್ನಡ ಭಾಷೆ
 **Analysis:**
-- Number of tokens: 14
-- Average token length: 1.29 characters
-- Reconstruction: Perfect
 #### Test Case 2: Complex sentence
 **Original text:** ಕನ್ನಡ ನಾಡಿನ ಸಂಸ್ಕೃತಿ ಮತ್ತು ಪರಂಪರೆ
-**Encoded tokens:** ['<s>', 'à²ķà²¨', 'à³į', 'à²¨à²¡', 'Ġà²¨', 'à²¾', 'à²¡', 'à²¿', 'à²¨', 'Ġà²¸', 'à²Ĥ', 'à²¸', 'à³į', 'à²ķ', 'à³ĥ', 'à²¤', 'à²¿', 'Ġà²®à²¤', 'à³į', 'à²¤', 'à³ģ', 'Ġà²ªà²°', 'à²Ĥ', 'à²ªà²°', 'à³Ĩ', '</s>']
-**Token IDs:** [0, 754, 264, 407, 298, 270, 280, 267, 266, 300, 275, 281, 264, 278, 412, 271, 267, 382, 264, 271, 265, 360, 275, 524, 268, 1]
 **Decoded text:** ಕನ್ನಡ ನಾಡಿನ ಸಂಸ್ಕೃತಿ ಮತ್ತು ಪರಂಪರೆ
 **Analysis:**
-- Number of tokens: 26
-- Average token length: 1.27 characters
-- Reconstruction: Perfect
 ### Category: Mixed Language
 #### Test Case 1: Kannada with English
 **Original text:** ನನ್ನ email ID ಇದು [email protected] ಆಗಿದೆ
-**Encoded tokens:** ['<s>', 'à²¨à²¨', 'à³į', 'à²¨', 'Ġ', 'e', 'm', 'a', 'i', 'l', 'Ġ', 'I', 'D', 'Ġà²ĩà²¦', 'à³ģ', 'Ġ', 'e', 'x', 'a', 'm', 'p', 'l', 'e', '@', 'e', 'm', 'a', 'i', 'l', '.', 'com', 'Ġà²Ĩà²Ĺ', 'à²¿', 'à²¦', 'à³Ĩ', '</s>']
-**Token IDs:** [0, 306, 264, 266, 225, 73, 81, 69, 77, 80, 225, 45, 40, 493, 265, 225, 73, 92, 69, 81, 84, 80, 73, 36, 73, 81, 69, 77, 80, 18, 469, 408, 267, 269, 268, 1]
 **Decoded text:** ನನ್ನ email ID ಇದು [email protected] ಆಗಿದೆ
 **Analysis:**
-- Number of tokens: 36
-- Average token length: 1.14 characters
-- Reconstruction: Perfect
-(Additional test cases can be added following the same format)
 ## Repository Structure
 The repository consists of tokenizer files, configuration files, and documentation:

 #### Test Case 1: Basic sentence
 **Original text:** ನಮಸ್ಕಾರ ಕನ್ನಡ ಭಾಷೆ
+**Encoded tokens:** `['<s>', 'à²¨à²®à²¸', 'à³į', 'à²ķ', 'à²¾', 'à²°', 'Ġà²ķà²¨', 'à³į', 'à²¨à²¡', 'Ġà²Ń', 'à²¾', 'à²·', 'à³Ĩ', '</s>']`
+**Token IDs:** `[0, 1461, 264, 278, 270, 272, 738, 264, 407, 386, 270, 323, 268, 1]`
 **Decoded text:** ನಮಸ್ಕಾರ ಕನ್ನಡ ಭಾಷೆ
 **Analysis:**
+- **Number of tokens:** 14
+- **Average token length:** 1.29 characters
+- **Reconstruction:** Perfect
 #### Test Case 2: Complex sentence
 **Original text:** ಕನ್ನಡ ನಾಡಿನ ಸಂಸ್ಕೃತಿ ಮತ್ತು ಪರಂಪರೆ
+**Encoded tokens:** `['<s>', 'à²ķà²¨', 'à³į', 'à²¨à²¡', 'Ġà²¨', 'à²¾', 'à²¡', 'à²¿', 'à²¨', 'Ġà²¸', 'à²Ĥ', 'à²¸', 'à³į', 'à²ķ', 'à³ĥ', 'à²¤', 'à²¿', 'Ġà²®à²¤', 'à³į', 'à²¤', 'à³ģ', 'Ġà²ªà²°', 'à²Ĥ', 'à²ªà²°', 'à³Ĩ', '</s>']`
+**Token IDs:** `[0, 754, 264, 407, 298, 270, 280, 267, 266, 300, 275, 281, 264, 278, 412, 271, 267, 382, 264, 271, 265, 360, 275, 524, 268, 1]`
 **Decoded text:** ಕನ್ನಡ ನಾಡಿನ ಸಂಸ್ಕೃತಿ ಮತ್ತು ಪರಂಪರೆ
 **Analysis:**
+- **Number of tokens:** 26
+- **Average token length:** 1.27 characters
+- **Reconstruction:** Perfect
 ### Category: Mixed Language
 #### Test Case 1: Kannada with English
 **Original text:** ನನ್ನ email ID ಇದು [email protected] ಆಗಿದೆ
+**Encoded tokens:** `['<s>', 'à²¨à²¨', 'à³į', 'à²¨', 'Ġ', 'e', 'm', 'a', 'i', 'l', 'Ġ', 'I', 'D', 'Ġà²ĩà²¦', 'à³ģ', 'Ġ', 'e', 'x', 'a', 'm', 'p', 'l', 'e', '@', 'e', 'm', 'a', 'i', 'l', '.', 'com', 'Ġà²Ĩà²Ĺ', 'à²¿', 'à²¦', 'à³Ĩ', '</s>']`
+**Token IDs:** `[0, 306, 264, 266, 225, 73, 81, 69, 77, 80, 225, 45, 40, 493, 265, 225, 73, 92, 69, 81, 84, 80, 73, 36, 73, 81, 69, 77, 80, 18, 469, 408, 267, 269, 268, 1]`
 **Decoded text:** ನನ್ನ email ID ಇದು [email protected] ಆಗಿದೆ
 **Analysis:**
+- **Number of tokens:** 36
+- **Average token length:** 1.14 characters
+- **Reconstruction:** Perfect
 ## Repository Structure
 The repository consists of tokenizer files, configuration files, and documentation: