turkish-named-entity-recognition-tests

Runtime error

App Files Files Community

akdeniz27 commited on Jun 25, 2022

Commit

bc06b7e

1 Parent(s): 32e294e

Update for TNER Model and Aggregation simplification

Browse files

Files changed (1) hide show

app.py +7 -24

app.py CHANGED Viewed

@@ -8,10 +8,9 @@ import spacy
 example_list = [
     "Mustafa Kemal Atatürk 1919 yılında Samsun'a çıktı.",
-    """Dünya çapında 40 milyondan fazla insana bulaşan ve 1.1 milyondan fazla insanın ölümüne sebep olan corona virüsüne karşı Pfizer ile BioNTech'in geliştirdiği aşının ilk görüntüleri ortaya çıktı. Aşının fabrikadaki ilk görüntülerini değerlendiren Pfizer'ın Birleşik Krallık CEO'su, "Üretim bandında aşıyı görmek beni neşelendirdi" dedi.
-ABD merkezli çokuluslu ilaç şirketi Pfizer ile Türk bilim insanlarının kurduğu BioNTech’in geliştirdiği corona virüsü aşısında sona gelindi… Pfizer, paylaştığı video ile bütün dünyayı heyecanlandıran gelişmeyi duyurdu.
-Şirket, Belçika’daki Puurs’ta geliştirilen Covid-19 aşılarının seri üretim bandındaki üretim aşamasını uluslararası kamuoyu ile paylaştı. Almanya’nın Mainz kentinde Türk profesör Uğur Şahin ile eşi Özlem Türeci’nin kurduğu ve yönettiği biyoteknoloji şirketi BioNTech ile aşı sürecini sürdüren Pfizer’ın küçük şişelerde binlerce corona virüsü aşısı üretmeye başladığı belirtildi.
-Pfizer, aşının güvenli ve etkili olduğunun klinik olarak da kanıtlanması ve resmi mercilerden de onay alınması durumunda üretilen aşının dağıtılacağını duyurdu."""
 ]
 st.set_page_config(layout="wide")
@@ -30,25 +29,15 @@ model_checkpoint = st.sidebar.radio("", model_list)
 st.sidebar.write("For details of models: 'https://huggingface.co/akdeniz27/")
 st.sidebar.write("")
-# xlm_agg_strategy_info = "'aggregation_strategy' can be selected as 'simple' or 'none' for 'xlm-roberta' because of the RoBERTa model's tokenization approach."
-# st.sidebar.header("Select Aggregation Strategy Type")
 if model_checkpoint == "akdeniz27/xlm-roberta-base-turkish-ner":
     aggregation = "simple"
-    # aggregation = st.sidebar.radio("", ('simple', 'none'))
-    # st.sidebar.write(xlm_agg_strategy_info)
 elif model_checkpoint == "xlm-roberta-large-finetuned-conll03-english" or model_checkpoint == "tner/tner-xlm-roberta-base-ontonotes5":
     aggregation = "simple"
-    # aggregation = st.sidebar.radio("", ('simple', 'none'))
-    # st.sidebar.write(xlm_agg_strategy_info)
     st.sidebar.write("")
-    st.sidebar.write("This English NER model is included just to show the zero-shot transfer learning capability of XLM-Roberta.")
 else:
     aggregation = "first"
-    # aggregation = st.sidebar.radio("", ('first', 'simple', 'average', 'max', 'none'))
-st.sidebar.write("Please refer 'https://huggingface.co/transformers/_modules/transformers/pipelines/token_classification.html' for entity grouping with aggregation_strategy parameter.")
 st.subheader("Select Text Input Method")
 input_method = st.radio("", ('Select from Examples', 'Write or Paste New Text'))
 if input_method == 'Select from Examples':
@@ -88,10 +77,7 @@ if Run_Button == True:
             output_comb.append(entity)
     df = pd.DataFrame.from_dict(output_comb)
-    if aggregation != "none":
-        cols_to_keep = ['word','entity_group','score','start','end']
-    else:
-        cols_to_keep = ['word','entity','score','start','end']
     df_final = df[cols_to_keep]
     st.subheader("Recognized Entities")
@@ -104,11 +90,8 @@ if Run_Button == True:
     spacy_display["title"] = None
     for entity in output_comb:
-        if aggregation != "none":
-            spacy_display["ents"].append({"start": entity["start"], "end": entity["end"], "label": entity["entity_group"]})
-        else:
-            spacy_display["ents"].append({"start": entity["start"], "end": entity["end"], "label": entity["entity"]})
     tner_entity_list = ["person", "group", "facility", "organization", "geopolitical area", "location", "product", "event", "work of art", "law", "language", "date", "time", "percent", "money", "quantity", "ordinal number", "cardinal number"]
     spacy_entity_list = ["PERSON", "NORP", "FAC", "ORG", "GPE", "LOC", "PRODUCT", "EVENT", "WORK_OF_ART", "LAW", "LANGUAGE", "DATE", "TIME", "PERCENT", "MONEY", "QUANTITY", "ORDINAL", "CARDINAL", "MISC"]

 example_list = [
     "Mustafa Kemal Atatürk 1919 yılında Samsun'a çıktı.",
+    """Mustafa Kemal Atatürk, Türk asker, devlet adamı ve Türkiye Cumhuriyeti'nin kurucusudur.
+Birinci Dünya Savaşı sırasında Osmanlı ordusunda görev yapan Atatürk, Çanakkale Cephesi'nde miralaylığa, Sina ve Filistin Cephesi'nde ise Yıldırım Orduları komutanlığına atandı. Savaşın sonunda, Osmanlı İmparatorluğu'nun yenilgisini takiben Kurtuluş Savaşı ile simgelenen Türk Ulusal Hareketi'ne öncülük ve önderlik etti.
+Türk Kurtuluş Savaşı sürecinde Ankara Hükümeti'ni kurdu, Türk Orduları Başkomutanı olarak Sakarya Meydan Muharebesi'ndeki başarısından dolayı 19 Eylül 1921 tarihinde "Gazi" unvanını aldı ve mareşallik rütbesine yükseldi. Askeri ve siyasi eylemleriyle İtilaf Devletleri ve destekçilerine karşı zafer kazandı. Savaşın ardından Cumhuriyet Halk Partisi'ni Halk Fırkası adıyla kurdu ve ilk genel başkanı oldu. 29 Ekim 1923'te Cumhuriyetin İlanı akabinde Cumhurbaşkanı seçildi. 1938'deki ölümüne dek dört dönem bu görevi yürüterek Türkiye 'de en uzun süre cumhurbaşkanlığı yapmış kişi oldu."""
 ]
 st.set_page_config(layout="wide")
 st.sidebar.write("For details of models: 'https://huggingface.co/akdeniz27/")
 st.sidebar.write("")
 if model_checkpoint == "akdeniz27/xlm-roberta-base-turkish-ner":
     aggregation = "simple"
 elif model_checkpoint == "xlm-roberta-large-finetuned-conll03-english" or model_checkpoint == "tner/tner-xlm-roberta-base-ontonotes5":
     aggregation = "simple"
     st.sidebar.write("")
+    st.sidebar.write("This English NER model is included just to show the zero-shot transfer learning capability of XLM-Roberta pretrained language model.")
 else:
     aggregation = "first"
 st.subheader("Select Text Input Method")
 input_method = st.radio("", ('Select from Examples', 'Write or Paste New Text'))
 if input_method == 'Select from Examples':
             output_comb.append(entity)
     df = pd.DataFrame.from_dict(output_comb)
+    cols_to_keep = ['word','entity','score','start','end']
     df_final = df[cols_to_keep]
     st.subheader("Recognized Entities")
     spacy_display["title"] = None
     for entity in output_comb:
+        spacy_display["ents"].append({"start": entity["start"], "end": entity["end"], "label": entity["entity_group"]})
     tner_entity_list = ["person", "group", "facility", "organization", "geopolitical area", "location", "product", "event", "work of art", "law", "language", "date", "time", "percent", "money", "quantity", "ordinal number", "cardinal number"]
     spacy_entity_list = ["PERSON", "NORP", "FAC", "ORG", "GPE", "LOC", "PRODUCT", "EVENT", "WORK_OF_ART", "LAW", "LANGUAGE", "DATE", "TIME", "PERCENT", "MONEY", "QUANTITY", "ORDINAL", "CARDINAL", "MISC"]