Spaces:
Runtime error
Runtime error
File size: 10,746 Bytes
74fc30d |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 |
{
"metadata": {
"name": ""
},
"nbformat": 3,
"nbformat_minor": 0,
"worksheets": [
{
"cells": [
{
"cell_type": "code",
"collapsed": false,
"input": [
"!pwd"
],
"language": "python",
"metadata": {},
"outputs": [
{
"output_type": "stream",
"stream": "stdout",
"text": [
"/home/anoop/src/python/indic_nlp_library/src/indicnlp/transliterate\r\n"
]
}
],
"prompt_number": 9
},
{
"cell_type": "code",
"collapsed": false,
"input": [
"import sys\n",
"sys.path.append('/home/anoop/src/python/indic_nlp_library/src')"
],
"language": "python",
"metadata": {},
"outputs": [],
"prompt_number": 10
},
{
"cell_type": "code",
"collapsed": false,
"input": [
"from indicnlp.transliterate import itrans_transliterator\n",
"from indicnlp.transliterate import unicode_transliterate\n",
"from indicnlp.normalize import indic_normalize"
],
"language": "python",
"metadata": {},
"outputs": [],
"prompt_number": 3
},
{
"cell_type": "code",
"collapsed": false,
"input": [
"print itrans_transliterator.transliterate('chakra', 'itrans',\n",
" 'devanagari', {'outputASCIIEncoded' : False})\n",
" "
],
"language": "python",
"metadata": {},
"outputs": [
{
"output_type": "stream",
"stream": "stdout",
"text": [
"\u091a\u0915\u094d\u0930\n"
]
}
],
"prompt_number": 13
},
{
"cell_type": "code",
"collapsed": false,
"input": [
"text='jammuH pAk sainyattinR.e .ozhippiccu Sh.e .eTT perkk . parikkeR.hRu atirtta .eTT perkk parikkeRRu. atirtti grAma~N~NaLil ninn AyirattoLa.n per.e .ozhippiccu. jammu atirttiyil yuddhAntarIkShamAN nilanilkkunnat. atirtti grAma~N~NaLeyu.n sainika posRRukaLeyu.n lakShya.nvacc pAkistAnR.e AkramaNa.n tuTarukayAN. jammu kashmIril.e atirtti jillakaLAya kAtva, sAmpa .enniviTa~N~NaLilAN AkramaNa.n naTakkunnat.'\n",
"print unicode_transliterate.ItransTransliterator.from_itrans(text,'te')"
],
"language": "python",
"metadata": {},
"outputs": [
{
"output_type": "stream",
"stream": "stdout",
"text": [
"\u0c1c\u0c2e\u0c4d\u0c2e\u0c41\u0c03 \u0c2a\u0c3e\u0c15\u0c4d \u0c38\u0c48\u0c28\u0c4d\u0c2f\u0c24\u0c4d\u0c24\u0c3f\u0c28\u0c4d\u0c31\u0c46 \u0c12\u0c34\u0c3f\u0c2a\u0c4d\u0c2a\u0c3f\u0c1a\u0c4d\u0c1a\u0c41 \u0c37\u0c46 \u0c0e\u0c1f\u0c4d\u0c1f\u0c4d \u0c2a\u0c47\u0c30\u0c4d\u0c15\u0c4d\u0c15\u0c4d \u0c64 \u0c2a\u0c30\u0c3f\u0c15\u0c4d\u0c15\u0c47\u0c31\u0c03\u0c31\u0c41 \u0c05\u0c24\u0c3f\u0c30\u0c4d\u0c24\u0c4d\u0c24 \u0c0e\u0c1f\u0c4d\u0c1f\u0c4d \u0c2a\u0c47\u0c30\u0c4d\u0c15\u0c4d\u0c15\u0c4d \u0c2a\u0c30\u0c3f\u0c15\u0c4d\u0c15\u0c47RR\u0c09\u0c64 \u0c05\u0c24\u0c3f\u0c30\u0c4d\u0c24\u0c4d\u0c24\u0c3f \u0c17\u0c4d\u0c30\u0c3e\u0c2e\u0c19\u0c4d\u0c19\u0c33\u0c3f\u0c32\u0c4d \u0c28\u0c3f\u0c28\u0c4d\u0c28\u0c4d \u0c06\u0c2f\u0c3f\u0c30\u0c24\u0c4d\u0c24\u0c4b\u0c33\u0c02 \u0c2a\u0c47\u0c30\u0c46 \u0c12\u0c34\u0c3f\u0c2a\u0c4d\u0c2a\u0c3f\u0c1a\u0c4d\u0c1a\u0c41\u0c64 \u0c1c\u0c2e\u0c4d\u0c2e\u0c41 \u0c05\u0c24\u0c3f\u0c30\u0c4d\u0c24\u0c4d\u0c24\u0c3f\u0c2f\u0c3f\u0c32\u0c4d \u0c2f\u0c41\u0c26\u0c4d\u0c27\u0c3e\u0c28\u0c4d\u0c24\u0c30\u0c40\u0c15\u0c4d\u0c37\u0c2e\u0c3e\u0c23\u0c4d \u0c28\u0c3f\u0c32\u0c28\u0c3f\u0c32\u0c4d\u0c15\u0c4d\u0c15\u0c41\u0c28\u0c4d\u0c28\u0c24\u0c64 \u0c05\u0c24\u0c3f\u0c30\u0c4d\u0c24\u0c4d\u0c24\u0c3f \u0c17\u0c4d\u0c30\u0c3e\u0c2e\u0c19\u0c4d\u0c19\u0c33\u0c47\u0c2f\u0c41\u0c02 \u0c38\u0c48\u0c28\u0c3f\u0c15 \u0c2a\u0c4b\u0c38\u0c4dRR\u0c09\u0c15\u0c33\u0c47\u0c2f\u0c41\u0c02 \u0c32\u0c15\u0c4d\u0c37\u0c4d\u0c2f\u0c02\u0c35\u0c1a\u0c4d\u0c1a\u0c4d \u0c2a\u0c3e\u0c15\u0c3f\u0c38\u0c4d\u0c24\u0c3e\u0c28\u0c4d\u0c31\u0c46 \u0c06\u0c15\u0c4d\u0c30\u0c2e\u0c23\u0c02 \u0c24\u0c41\u0c1f\u0c30\u0c41\u0c15\u0c2f\u0c3e\u0c23\u0c64 \u0c1c\u0c2e\u0c4d\u0c2e\u0c41 \u0c15\u0c36\u0c4d\u0c2e\u0c40\u0c30\u0c3f\u0c32\u0c46 \u0c05\u0c24\u0c3f\u0c30\u0c4d\u0c24\u0c4d\u0c24\u0c3f \u0c1c\u0c3f\u0c32\u0c4d\u0c32\u0c15\u0c33\u0c3e\u0c2f \u0c15\u0c3e\u0c24\u0c4d\u0c35, \u0c38\u0c3e\u0c2e\u0c4d\u0c2a \u0c0e\u0c28\u0c4d\u0c28\u0c3f\u0c35\u0c3f\u0c1f\u0c19\u0c4d\u0c19\u0c33\u0c3f\u0c32\u0c3e\u0c23\u0c4d \u0c06\u0c15\u0c4d\u0c30\u0c2e\u0c23\u0c02 \u0c28\u0c1f\u0c15\u0c4d\u0c15\u0c41\u0c28\u0c4d\u0c28\u0c24\u0c64\n"
]
}
],
"prompt_number": 19
},
{
"cell_type": "code",
"collapsed": false,
"input": [
"#mal=u'\u0d1c\u0d2e\u0d4d\u0d2e\u0d41: \u0d2a\u0d3e\u0d15\u0d4d \u0d38\u0d48\u0d28\u0d4d\u0d2f\u0d24\u0d4d\u0d24\u0d3f\u0d28\u0d4d\u0d31\u0d46 \u0d12\u0d34\u0d3f\u0d2a\u0d4d\u0d2a\u0d3f\u0d1a\u0d4d\u0d1a\u0d41 \u0d37\u0d46 \u0d0e\u0d1f\u0d4d\u0d1f\u0d4d \u0d2a\u0d47\u0d30\u0d4d\u200d\u0d15\u0d4d\u0d15\u0d4d . \u0d2a\u0d30\u0d3f\u0d15\u0d4d\u0d15\u0d47\u0d31\u0d4d\u0d31\u0d41 \u0d05\u0d24\u0d3f\u0d30\u0d4d\u200d\u0d24\u0d4d\u0d24 \u0d0e\u0d1f\u0d4d\u0d1f\u0d4d \u0d2a\u0d47\u0d30\u0d4d\u200d\u0d15\u0d4d\u0d15\u0d4d \u0d2a\u0d30\u0d3f\u0d15\u0d4d\u0d15\u0d47\u0d31\u0d4d\u0d31\u0d41. \u0d05\u0d24\u0d3f\u0d30\u0d4d\u200d\u0d24\u0d4d\u0d24\u0d3f \u0d17\u0d4d\u0d30\u0d3e\u0d2e\u0d19\u0d4d\u0d19\u0d33\u0d3f\u0d32\u0d4d\u200d \u0d28\u0d3f\u0d28\u0d4d\u0d28\u0d4d \u0d06\u0d2f\u0d3f\u0d30\u0d24\u0d4d\u0d24\u0d4b\u0d33\u0d02 \u0d2a\u0d47\u0d30\u0d46 \u0d12\u0d34\u0d3f\u0d2a\u0d4d\u0d2a\u0d3f\u0d1a\u0d4d\u0d1a\u0d41. \u0d1c\u0d2e\u0d4d\u0d2e\u0d41 \u0d05\u0d24\u0d3f\u0d30\u0d4d\u200d\u0d24\u0d4d\u0d24\u0d3f\u0d2f\u0d3f\u0d32\u0d4d\u200d \u0d2f\u0d41\u0d26\u0d4d\u0d27\u0d3e\u0d28\u0d4d\u0d24\u0d30\u0d40\u0d15\u0d4d\u0d37\u0d2e\u0d3e\u0d23\u0d4d \u0d28\u0d3f\u0d32\u0d28\u0d3f\u0d32\u0d4d\u200d\u0d15\u0d4d\u0d15\u0d41\u0d28\u0d4d\u0d28\u0d24\u0d4d. \u0d05\u0d24\u0d3f\u0d30\u0d4d\u200d\u0d24\u0d4d\u0d24\u0d3f \u0d17\u0d4d\u0d30\u0d3e\u0d2e\u0d19\u0d4d\u0d19\u0d33\u0d47\u0d2f\u0d41\u0d02 \u0d38\u0d48\u0d28\u0d3f\u0d15 \u0d2a\u0d4b\u0d38\u0d4d\u0d31\u0d4d\u0d31\u0d41\u0d15\u0d33\u0d47\u0d2f\u0d41\u0d02 \u0d32\u0d15\u0d4d\u0d37\u0d4d\u0d2f\u0d02\u0d35\u0d1a\u0d4d\u0d1a\u0d4d \u0d2a\u0d3e\u0d15\u0d3f\u0d38\u0d4d\u0d24\u0d3e\u0d28\u0d4d\u0d31\u0d46 \u0d06\u0d15\u0d4d\u0d30\u0d2e\u0d23\u0d02 \u0d24\u0d41\u0d1f\u0d30\u0d41\u0d15\u0d2f\u0d3e\u0d23\u0d4d. \u0d1c\u0d2e\u0d4d\u0d2e\u0d41 \u0d15\u0d36\u0d4d\u0d2e\u0d40\u0d30\u0d3f\u0d32\u0d46 \u0d05\u0d24\u0d3f\u0d30\u0d4d\u200d\u0d24\u0d4d\u0d24\u0d3f \u0d1c\u0d3f\u0d32\u0d4d\u0d32\u0d15\u0d33\u0d3e\u0d2f \u0d15\u0d3e\u0d24\u0d4d\u0d35, \u0d38\u0d3e\u0d2e\u0d4d\u0d2a \u0d0e\u0d28\u0d4d\u0d28\u0d3f\u0d35\u0d3f\u0d1f\u0d19\u0d4d\u0d19\u0d33\u0d3f\u0d32\u0d3e\u0d23\u0d4d \u0d06\u0d15\u0d4d\u0d30\u0d2e\u0d23\u0d02 \u0d28\u0d1f\u0d15\u0d4d\u0d15\u0d41\u0d28\u0d4d\u0d28\u0d24\u0d4d.'\n",
"\n",
"text=u'\u09ac\u09be\u09b0\u09ac\u09be\u09b0 \u09b8\u0982\u0998\u09b0\u09cd\u09b7-\u09ac\u09bf\u09b0\u09a4\u09bf \u099a\u09c1\u0995\u09cd\u09a4\u09bf \u09b2\u0999\u09cd\u0998\u09a8 \u0995\u09b0\u099b\u09c7 \u09aa\u09be\u0995\u09bf\u09b8\u09cd\u09a4\u09be\u09a8\u0964 \u09ae\u09a8\u09c7 \u09b0\u09be\u0996\u09a4\u09c7 \u09b9\u09ac\u09c7, \u09ad\u09be\u09b0\u09a4\u09c7\u09b0\u0993 \u09b8\u09b9\u09cd\u09af \u0995\u09b0\u09be\u09b0 \u09b8\u09c0\u09ae\u09be \u0986\u099b\u09c7\u0964 \u098f\u0987 \u09ae\u09b0\u09cd\u09ae\u09c7 \u0987\u09b8\u09b2\u09be\u09ae\u09be\u09ac\u09be\u09a6\u0995\u09c7 \u09b9\u09c1\u0981\u09b6\u09bf\u09df\u09be\u09b0\u09bf \u09a6\u09bf\u09b2\u09c7\u09a8 \u09b8\u09cd\u09ac\u09b0\u09be\u09b7\u09cd\u099f\u09cd\u09b0\u09ae\u09a8\u09cd\u09a4\u09cd\u09b0\u09c0 \u09b0\u09be\u099c\u09a8\u09be\u09a5 \u09b8\u09bf\u0982\u0964 \u09e8\u09e6\u09e7\u09ea \u09b8\u09be\u09b2\u09c7 \u09eb\u09eb\u09e6 \u09ac\u09be\u09b0 \u09b8\u0982\u0998\u09b0\u09cd\u09b7-\u09ac\u09bf\u09b0\u09a4\u09bf \u09b2\u0999\u09cd\u0998\u09a8 \u0995\u09b0\u09c7 \u09b8\u09c0\u09ae\u09be\u09a8\u09cd\u09a4\u09c7 \u0997\u09cb\u09b2\u09be\u0997\u09c1\u09b2\u09bf \u099a\u09be\u09b2\u09bf\u09df\u09c7\u099b\u09c7 \u09aa\u09be\u0995\u09bf\u09b8\u09cd\u09a4\u09be\u09a8\u0964 \u09a8\u09a4\u09c1\u09a8 \u09ac\u099b\u09b0\u09c7\u09b0 \u09aa\u09cd\u09b0\u09a5\u09ae \u09a4\u09bf\u09a8\u09a6\u09bf\u09a8\u09c7 \u0987\u09a4\u09bf\u09ae\u09a7\u09cd\u09af\u09c7 \u09aa\u09be\u0981\u099a\u09ac\u09be\u09b0 \u09a4\u09c7\u09ae\u09a8 \u0998\u099f\u09a8\u09be \u0998\u099f\u09c7\u099b\u09c7\u0964 \u09af\u09a6\u09bf\u0993 \u09b8\u09c7-\u09a6\u09c7\u09b6\u09c7\u09b0 \u09aa\u09cd\u09b0\u09a7\u09be\u09a8\u09ae\u09a8\u09cd\u09a4\u09cd\u09b0\u09c0 \u09a8\u0993\u09df\u09be\u099c \u09b6\u09b0\u09bf\u09ab, \u09aa\u09cd\u09b0\u09a4\u09bf\u09b0\u0995\u09cd\u09b7\u09be\u09ae\u09a8\u09cd\u09a4\u09cd\u09b0\u09c0 \u0996\u09cb\u09df\u09be\u099c\u09be \u0986\u09b8\u09bf\u09ab \u09aa\u09cd\u09b0\u09ae\u09c1\u0996 \u09ac\u09b2\u09c7\u099b\u09c7\u09a8, \u09ad\u09be\u09b0\u09a4\u0987 \u09ac\u09bf\u09a8\u09be \u09aa\u09cd\u09b0\u09b0\u09cb\u099a\u09a8\u09be\u09df \u09b9\u09be\u09ae\u09b2\u09be \u099a\u09be\u09b2\u09be\u099a\u09cd\u099b\u09c7\u0964'\n",
"lang='bn'\n",
"\n",
"n=indic_normalize.IndicNormalizerFactory().get_normalizer(lang)\n",
"text=n.normalize(text)\n",
"\n",
"print unicode_transliterate.ItransTransliterator.to_itrans(text,lang)"
],
"language": "python",
"metadata": {},
"outputs": [
{
"output_type": "stream",
"stream": "stdout",
"text": [
"bArabAra sa.ngharSha-birati cukti la~Nghana karaChe pAkistAna. mane rAkhate habe, bhAratero sahya karAra sImA AChe. ei marme isalAmAbAdake hu\u0901shiya\u093cAri dilena sbarAShTramantrI rAjanAtha si.n. 2014 sAle 550 bAra sa.ngharSha-birati la~Nghana kare sImAnte golAguli cAliya\u093ceChe pAkistAna. natuna baCharera prathama tinadine itimadhye pA\u0901cabAra temana ghaTanA ghaTeChe. yadio se-deshera pradhAnamantrI noya\u093cAja sharipha, pratirakShAmantrI khoya\u093cAjA Asipha pramukha baleChena, bhArati binA prarocanAya\u093c hAmalA cAlAcChe.\n"
]
}
],
"prompt_number": 31
},
{
"cell_type": "code",
"collapsed": false,
"input": [
"x=u'\u0b9a\u0bc6\u0ba9\u0bcd\u0ba9\u0bc8'\n",
"\n",
"for c in x:\n",
" print u'{} {:x}'.format(c,ord(c))"
],
"language": "python",
"metadata": {},
"outputs": [
{
"output_type": "stream",
"stream": "stdout",
"text": [
"\u0b9a b9a\n",
"\u0bc6 bc6\n",
"\u0ba9 ba9\n",
"\u0bcd bcd\n",
"\u0ba9 ba9\n",
"\u0bc8 bc8\n"
]
}
],
"prompt_number": 28
}
],
"metadata": {}
}
]
} |