File size: 10,746 Bytes
74fc30d
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
{
 "metadata": {
  "name": ""
 },
 "nbformat": 3,
 "nbformat_minor": 0,
 "worksheets": [
  {
   "cells": [
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "!pwd"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "stream",
       "stream": "stdout",
       "text": [
        "/home/anoop/src/python/indic_nlp_library/src/indicnlp/transliterate\r\n"
       ]
      }
     ],
     "prompt_number": 9
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "import sys\n",
      "sys.path.append('/home/anoop/src/python/indic_nlp_library/src')"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 10
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "from indicnlp.transliterate import itrans_transliterator\n",
      "from indicnlp.transliterate import unicode_transliterate\n",
      "from indicnlp.normalize import indic_normalize"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 3
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "print itrans_transliterator.transliterate('chakra', 'itrans',\n",
      "                        'devanagari', {'outputASCIIEncoded' : False})\n",
      "    "
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "stream",
       "stream": "stdout",
       "text": [
        "\u091a\u0915\u094d\u0930\n"
       ]
      }
     ],
     "prompt_number": 13
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "text='jammuH pAk sainyattinR.e  .ozhippiccu Sh.e .eTT perkk . parikkeR.hRu atirtta .eTT perkk parikkeRRu. atirtti grAma~N~NaLil ninn AyirattoLa.n per.e .ozhippiccu. jammu atirttiyil yuddhAntarIkShamAN nilanilkkunnat. atirtti grAma~N~NaLeyu.n sainika posRRukaLeyu.n lakShya.nvacc pAkistAnR.e AkramaNa.n tuTarukayAN. jammu kashmIril.e atirtti jillakaLAya kAtva, sAmpa .enniviTa~N~NaLilAN AkramaNa.n naTakkunnat.'\n",
      "print unicode_transliterate.ItransTransliterator.from_itrans(text,'te')"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "stream",
       "stream": "stdout",
       "text": [
        "\u0c1c\u0c2e\u0c4d\u0c2e\u0c41\u0c03 \u0c2a\u0c3e\u0c15\u0c4d \u0c38\u0c48\u0c28\u0c4d\u0c2f\u0c24\u0c4d\u0c24\u0c3f\u0c28\u0c4d\u0c31\u0c46  \u0c12\u0c34\u0c3f\u0c2a\u0c4d\u0c2a\u0c3f\u0c1a\u0c4d\u0c1a\u0c41 \u0c37\u0c46 \u0c0e\u0c1f\u0c4d\u0c1f\u0c4d \u0c2a\u0c47\u0c30\u0c4d\u0c15\u0c4d\u0c15\u0c4d \u0c64 \u0c2a\u0c30\u0c3f\u0c15\u0c4d\u0c15\u0c47\u0c31\u0c03\u0c31\u0c41 \u0c05\u0c24\u0c3f\u0c30\u0c4d\u0c24\u0c4d\u0c24 \u0c0e\u0c1f\u0c4d\u0c1f\u0c4d \u0c2a\u0c47\u0c30\u0c4d\u0c15\u0c4d\u0c15\u0c4d \u0c2a\u0c30\u0c3f\u0c15\u0c4d\u0c15\u0c47RR\u0c09\u0c64 \u0c05\u0c24\u0c3f\u0c30\u0c4d\u0c24\u0c4d\u0c24\u0c3f \u0c17\u0c4d\u0c30\u0c3e\u0c2e\u0c19\u0c4d\u0c19\u0c33\u0c3f\u0c32\u0c4d \u0c28\u0c3f\u0c28\u0c4d\u0c28\u0c4d \u0c06\u0c2f\u0c3f\u0c30\u0c24\u0c4d\u0c24\u0c4b\u0c33\u0c02 \u0c2a\u0c47\u0c30\u0c46 \u0c12\u0c34\u0c3f\u0c2a\u0c4d\u0c2a\u0c3f\u0c1a\u0c4d\u0c1a\u0c41\u0c64 \u0c1c\u0c2e\u0c4d\u0c2e\u0c41 \u0c05\u0c24\u0c3f\u0c30\u0c4d\u0c24\u0c4d\u0c24\u0c3f\u0c2f\u0c3f\u0c32\u0c4d \u0c2f\u0c41\u0c26\u0c4d\u0c27\u0c3e\u0c28\u0c4d\u0c24\u0c30\u0c40\u0c15\u0c4d\u0c37\u0c2e\u0c3e\u0c23\u0c4d \u0c28\u0c3f\u0c32\u0c28\u0c3f\u0c32\u0c4d\u0c15\u0c4d\u0c15\u0c41\u0c28\u0c4d\u0c28\u0c24\u0c64 \u0c05\u0c24\u0c3f\u0c30\u0c4d\u0c24\u0c4d\u0c24\u0c3f \u0c17\u0c4d\u0c30\u0c3e\u0c2e\u0c19\u0c4d\u0c19\u0c33\u0c47\u0c2f\u0c41\u0c02 \u0c38\u0c48\u0c28\u0c3f\u0c15 \u0c2a\u0c4b\u0c38\u0c4dRR\u0c09\u0c15\u0c33\u0c47\u0c2f\u0c41\u0c02 \u0c32\u0c15\u0c4d\u0c37\u0c4d\u0c2f\u0c02\u0c35\u0c1a\u0c4d\u0c1a\u0c4d \u0c2a\u0c3e\u0c15\u0c3f\u0c38\u0c4d\u0c24\u0c3e\u0c28\u0c4d\u0c31\u0c46 \u0c06\u0c15\u0c4d\u0c30\u0c2e\u0c23\u0c02 \u0c24\u0c41\u0c1f\u0c30\u0c41\u0c15\u0c2f\u0c3e\u0c23\u0c64 \u0c1c\u0c2e\u0c4d\u0c2e\u0c41 \u0c15\u0c36\u0c4d\u0c2e\u0c40\u0c30\u0c3f\u0c32\u0c46 \u0c05\u0c24\u0c3f\u0c30\u0c4d\u0c24\u0c4d\u0c24\u0c3f \u0c1c\u0c3f\u0c32\u0c4d\u0c32\u0c15\u0c33\u0c3e\u0c2f \u0c15\u0c3e\u0c24\u0c4d\u0c35, \u0c38\u0c3e\u0c2e\u0c4d\u0c2a \u0c0e\u0c28\u0c4d\u0c28\u0c3f\u0c35\u0c3f\u0c1f\u0c19\u0c4d\u0c19\u0c33\u0c3f\u0c32\u0c3e\u0c23\u0c4d \u0c06\u0c15\u0c4d\u0c30\u0c2e\u0c23\u0c02 \u0c28\u0c1f\u0c15\u0c4d\u0c15\u0c41\u0c28\u0c4d\u0c28\u0c24\u0c64\n"
       ]
      }
     ],
     "prompt_number": 19
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "#mal=u'\u0d1c\u0d2e\u0d4d\u0d2e\u0d41: \u0d2a\u0d3e\u0d15\u0d4d \u0d38\u0d48\u0d28\u0d4d\u0d2f\u0d24\u0d4d\u0d24\u0d3f\u0d28\u0d4d\u0d31\u0d46  \u0d12\u0d34\u0d3f\u0d2a\u0d4d\u0d2a\u0d3f\u0d1a\u0d4d\u0d1a\u0d41 \u0d37\u0d46 \u0d0e\u0d1f\u0d4d\u0d1f\u0d4d \u0d2a\u0d47\u0d30\u0d4d\u200d\u0d15\u0d4d\u0d15\u0d4d . \u0d2a\u0d30\u0d3f\u0d15\u0d4d\u0d15\u0d47\u0d31\u0d4d\u0d31\u0d41 \u0d05\u0d24\u0d3f\u0d30\u0d4d\u200d\u0d24\u0d4d\u0d24 \u0d0e\u0d1f\u0d4d\u0d1f\u0d4d \u0d2a\u0d47\u0d30\u0d4d\u200d\u0d15\u0d4d\u0d15\u0d4d \u0d2a\u0d30\u0d3f\u0d15\u0d4d\u0d15\u0d47\u0d31\u0d4d\u0d31\u0d41. \u0d05\u0d24\u0d3f\u0d30\u0d4d\u200d\u0d24\u0d4d\u0d24\u0d3f \u0d17\u0d4d\u0d30\u0d3e\u0d2e\u0d19\u0d4d\u0d19\u0d33\u0d3f\u0d32\u0d4d\u200d \u0d28\u0d3f\u0d28\u0d4d\u0d28\u0d4d \u0d06\u0d2f\u0d3f\u0d30\u0d24\u0d4d\u0d24\u0d4b\u0d33\u0d02 \u0d2a\u0d47\u0d30\u0d46 \u0d12\u0d34\u0d3f\u0d2a\u0d4d\u0d2a\u0d3f\u0d1a\u0d4d\u0d1a\u0d41. \u0d1c\u0d2e\u0d4d\u0d2e\u0d41 \u0d05\u0d24\u0d3f\u0d30\u0d4d\u200d\u0d24\u0d4d\u0d24\u0d3f\u0d2f\u0d3f\u0d32\u0d4d\u200d \u0d2f\u0d41\u0d26\u0d4d\u0d27\u0d3e\u0d28\u0d4d\u0d24\u0d30\u0d40\u0d15\u0d4d\u0d37\u0d2e\u0d3e\u0d23\u0d4d \u0d28\u0d3f\u0d32\u0d28\u0d3f\u0d32\u0d4d\u200d\u0d15\u0d4d\u0d15\u0d41\u0d28\u0d4d\u0d28\u0d24\u0d4d. \u0d05\u0d24\u0d3f\u0d30\u0d4d\u200d\u0d24\u0d4d\u0d24\u0d3f \u0d17\u0d4d\u0d30\u0d3e\u0d2e\u0d19\u0d4d\u0d19\u0d33\u0d47\u0d2f\u0d41\u0d02 \u0d38\u0d48\u0d28\u0d3f\u0d15 \u0d2a\u0d4b\u0d38\u0d4d\u0d31\u0d4d\u0d31\u0d41\u0d15\u0d33\u0d47\u0d2f\u0d41\u0d02 \u0d32\u0d15\u0d4d\u0d37\u0d4d\u0d2f\u0d02\u0d35\u0d1a\u0d4d\u0d1a\u0d4d \u0d2a\u0d3e\u0d15\u0d3f\u0d38\u0d4d\u0d24\u0d3e\u0d28\u0d4d\u0d31\u0d46 \u0d06\u0d15\u0d4d\u0d30\u0d2e\u0d23\u0d02 \u0d24\u0d41\u0d1f\u0d30\u0d41\u0d15\u0d2f\u0d3e\u0d23\u0d4d. \u0d1c\u0d2e\u0d4d\u0d2e\u0d41 \u0d15\u0d36\u0d4d\u0d2e\u0d40\u0d30\u0d3f\u0d32\u0d46 \u0d05\u0d24\u0d3f\u0d30\u0d4d\u200d\u0d24\u0d4d\u0d24\u0d3f \u0d1c\u0d3f\u0d32\u0d4d\u0d32\u0d15\u0d33\u0d3e\u0d2f \u0d15\u0d3e\u0d24\u0d4d\u0d35, \u0d38\u0d3e\u0d2e\u0d4d\u0d2a \u0d0e\u0d28\u0d4d\u0d28\u0d3f\u0d35\u0d3f\u0d1f\u0d19\u0d4d\u0d19\u0d33\u0d3f\u0d32\u0d3e\u0d23\u0d4d \u0d06\u0d15\u0d4d\u0d30\u0d2e\u0d23\u0d02 \u0d28\u0d1f\u0d15\u0d4d\u0d15\u0d41\u0d28\u0d4d\u0d28\u0d24\u0d4d.'\n",
      "\n",
      "text=u'\u09ac\u09be\u09b0\u09ac\u09be\u09b0 \u09b8\u0982\u0998\u09b0\u09cd\u09b7-\u09ac\u09bf\u09b0\u09a4\u09bf \u099a\u09c1\u0995\u09cd\u09a4\u09bf \u09b2\u0999\u09cd\u0998\u09a8 \u0995\u09b0\u099b\u09c7 \u09aa\u09be\u0995\u09bf\u09b8\u09cd\u09a4\u09be\u09a8\u0964 \u09ae\u09a8\u09c7 \u09b0\u09be\u0996\u09a4\u09c7 \u09b9\u09ac\u09c7, \u09ad\u09be\u09b0\u09a4\u09c7\u09b0\u0993 \u09b8\u09b9\u09cd\u09af \u0995\u09b0\u09be\u09b0 \u09b8\u09c0\u09ae\u09be \u0986\u099b\u09c7\u0964 \u098f\u0987 \u09ae\u09b0\u09cd\u09ae\u09c7 \u0987\u09b8\u09b2\u09be\u09ae\u09be\u09ac\u09be\u09a6\u0995\u09c7 \u09b9\u09c1\u0981\u09b6\u09bf\u09df\u09be\u09b0\u09bf \u09a6\u09bf\u09b2\u09c7\u09a8 \u09b8\u09cd\u09ac\u09b0\u09be\u09b7\u09cd\u099f\u09cd\u09b0\u09ae\u09a8\u09cd\u09a4\u09cd\u09b0\u09c0 \u09b0\u09be\u099c\u09a8\u09be\u09a5 \u09b8\u09bf\u0982\u0964 \u09e8\u09e6\u09e7\u09ea \u09b8\u09be\u09b2\u09c7 \u09eb\u09eb\u09e6 \u09ac\u09be\u09b0 \u09b8\u0982\u0998\u09b0\u09cd\u09b7-\u09ac\u09bf\u09b0\u09a4\u09bf \u09b2\u0999\u09cd\u0998\u09a8 \u0995\u09b0\u09c7 \u09b8\u09c0\u09ae\u09be\u09a8\u09cd\u09a4\u09c7 \u0997\u09cb\u09b2\u09be\u0997\u09c1\u09b2\u09bf \u099a\u09be\u09b2\u09bf\u09df\u09c7\u099b\u09c7 \u09aa\u09be\u0995\u09bf\u09b8\u09cd\u09a4\u09be\u09a8\u0964 \u09a8\u09a4\u09c1\u09a8 \u09ac\u099b\u09b0\u09c7\u09b0 \u09aa\u09cd\u09b0\u09a5\u09ae \u09a4\u09bf\u09a8\u09a6\u09bf\u09a8\u09c7 \u0987\u09a4\u09bf\u09ae\u09a7\u09cd\u09af\u09c7 \u09aa\u09be\u0981\u099a\u09ac\u09be\u09b0 \u09a4\u09c7\u09ae\u09a8 \u0998\u099f\u09a8\u09be \u0998\u099f\u09c7\u099b\u09c7\u0964 \u09af\u09a6\u09bf\u0993 \u09b8\u09c7-\u09a6\u09c7\u09b6\u09c7\u09b0 \u09aa\u09cd\u09b0\u09a7\u09be\u09a8\u09ae\u09a8\u09cd\u09a4\u09cd\u09b0\u09c0 \u09a8\u0993\u09df\u09be\u099c \u09b6\u09b0\u09bf\u09ab, \u09aa\u09cd\u09b0\u09a4\u09bf\u09b0\u0995\u09cd\u09b7\u09be\u09ae\u09a8\u09cd\u09a4\u09cd\u09b0\u09c0 \u0996\u09cb\u09df\u09be\u099c\u09be \u0986\u09b8\u09bf\u09ab \u09aa\u09cd\u09b0\u09ae\u09c1\u0996 \u09ac\u09b2\u09c7\u099b\u09c7\u09a8, \u09ad\u09be\u09b0\u09a4\u0987 \u09ac\u09bf\u09a8\u09be \u09aa\u09cd\u09b0\u09b0\u09cb\u099a\u09a8\u09be\u09df \u09b9\u09be\u09ae\u09b2\u09be \u099a\u09be\u09b2\u09be\u099a\u09cd\u099b\u09c7\u0964'\n",
      "lang='bn'\n",
      "\n",
      "n=indic_normalize.IndicNormalizerFactory().get_normalizer(lang)\n",
      "text=n.normalize(text)\n",
      "\n",
      "print unicode_transliterate.ItransTransliterator.to_itrans(text,lang)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "stream",
       "stream": "stdout",
       "text": [
        "bArabAra sa.ngharSha-birati cukti la~Nghana karaChe pAkistAna. mane rAkhate habe, bhAratero sahya karAra sImA AChe. ei marme isalAmAbAdake hu\u0901shiya\u093cAri dilena sbarAShTramantrI rAjanAtha si.n. 2014 sAle 550 bAra sa.ngharSha-birati la~Nghana kare sImAnte golAguli cAliya\u093ceChe pAkistAna. natuna baCharera prathama tinadine itimadhye pA\u0901cabAra temana ghaTanA ghaTeChe. yadio se-deshera pradhAnamantrI noya\u093cAja sharipha, pratirakShAmantrI khoya\u093cAjA Asipha pramukha baleChena, bhArati binA prarocanAya\u093c hAmalA cAlAcChe.\n"
       ]
      }
     ],
     "prompt_number": 31
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "x=u'\u0b9a\u0bc6\u0ba9\u0bcd\u0ba9\u0bc8'\n",
      "\n",
      "for c in x:\n",
      "    print u'{} {:x}'.format(c,ord(c))"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "stream",
       "stream": "stdout",
       "text": [
        "\u0b9a b9a\n",
        "\u0bc6 bc6\n",
        "\u0ba9 ba9\n",
        "\u0bcd bcd\n",
        "\u0ba9 ba9\n",
        "\u0bc8 bc8\n"
       ]
      }
     ],
     "prompt_number": 28
    }
   ],
   "metadata": {}
  }
 ]
}