FakeQA

Sleeping

Charles Chan commited on Feb 11

Commit

a054c10

1 Parent(s): 630d3f4

coding

Files changed (2) hide show

app.py CHANGED Viewed

@@ -4,14 +4,13 @@ from langchain_community.llms import HuggingFaceHub
 from langchain_community.embeddings import SentenceTransformerEmbeddings
 from langchain_community.vectorstores import FAISS
 from datasets import load_dataset
-from transformers import pipeline
 # 使用 進擊的巨人 数据集
 try:
-    converter = pipeline("translation_zh_tw_zh_cn")
     dataset = load_dataset("rorubyy/attack_on_titan_wiki_chinese")
-    answer_list = [converter(example["Answer"])[0]["translation_text"] for example in dataset["train"]]
 except Exception as e:
     st.error(f"读取数据集失败：{e}")
     st.stop()
@@ -82,9 +81,9 @@ with col3:
         random_index = random.randint(0, dataset_size - 1)
         # 读取随机问题
         random_question = dataset["train"][random_index]["Question"]
-        random_question = converter(random_question)[0]["translation_text"]
         origin_answer = dataset["train"][random_index]["Answer"]
-        origin_answer = converter(origin_answer)[0]["translation_text"]
         print('[]' + str(random_index) + '/' + str(dataset_size) + ']random_question: ' + random_question)
         print('origin_answer: ' + origin_answer)

 from langchain_community.embeddings import SentenceTransformerEmbeddings
 from langchain_community.vectorstores import FAISS
 from datasets import load_dataset
+from opencc import OpenCC
 # 使用 進擊的巨人 数据集
 try:
+    converter = OpenCC('tw2s.json') # 'tw2s.json' 表示繁体中文到简体中文的转换
     dataset = load_dataset("rorubyy/attack_on_titan_wiki_chinese")
+    answer_list = [converter.convert(example["Answer"]) for example in dataset["train"]]
 except Exception as e:
     st.error(f"读取数据集失败：{e}")
     st.stop()
         random_index = random.randint(0, dataset_size - 1)
         # 读取随机问题
         random_question = dataset["train"][random_index]["Question"]
+        random_question = converter.convert(random_question)
         origin_answer = dataset["train"][random_index]["Answer"]
+        origin_answer = converter.convert(origin_answer)
         print('[]' + str(random_index) + '/' + str(dataset_size) + ']random_question: ' + random_question)
         print('origin_answer: ' + origin_answer)

requirements.txt CHANGED Viewed

@@ -6,3 +6,4 @@ langchain-huggingface
 sentence_transformers
 faiss-cpu
 datasets

 sentence_transformers
 faiss-cpu
 datasets
+opencc-python-reimplemented