FakeQA

Sleeping

App Files Files Community

Charles Chan commited on Feb 11

Commit

51c0f15

1 Parent(s): 10b5e55

coding

Browse files

Files changed (2) hide show

app.py +6 -11
requirements.txt +0 -1

app.py CHANGED Viewed

@@ -4,10 +4,8 @@ from langchain_community.llms import HuggingFaceHub
 from langchain_community.embeddings import SentenceTransformerEmbeddings
 from langchain_community.vectorstores import FAISS
 from datasets import load_dataset
-from opencc import OpenCC
-# 使用 進擊的巨人 数据集
-# 原数据集是是繁体中文，为了调试方便，将其转换成简体中文之后使用
 if "data_list" not in st.session_state:
     st.session_state.data_list = []
     st.session_state.answer_list = []
@@ -15,15 +13,12 @@ if "data_list" not in st.session_state:
 if not st.session_state.data_list:
     try:
         with st.spinner("正在读取数据库..."):
-            converter = OpenCC('tw2s') # 'tw2s.json' 表示繁体中文到简体中文的转换
-            dataset = load_dataset("rorubyy/attack_on_titan_wiki_chinese")
             data_list = []
             answer_list = []
             for example in dataset["train"]:
-                converted_answer = converter.convert(example["Answer"])
-                converted_question = converter.convert(example["Question"])
-                answer_list.append(converted_answer)
-                data_list.append({"Question": converted_question, "Answer": converted_answer})
             st.session_state.answer_list = answer_list
             st.session_state.data_list = data_list
             st.success("数据库读取完成！")
@@ -112,7 +107,7 @@ def answer_question(repo_id, temperature, max_length, question):
         return {"prompt": "", "answer": "An error occurred during the answering process.", "pure_answer": ""}
 # Streamlit 界面
-st.title("進擊的巨人 知识库问答系统")
 col1, col2 = st.columns(2)
 with col1:
@@ -154,7 +149,7 @@ with col3:
         generate_answer(gemma, float(temperature), int(max_length), random_question)
 with col4:
-    question = st.text_area("请输入问题", "《进击的巨人》中都有哪些主要角色？")
     if st.button("提交输入的问题"):
         if not question:
             st.warning("请输入问题！")

 from langchain_community.embeddings import SentenceTransformerEmbeddings
 from langchain_community.vectorstores import FAISS
 from datasets import load_dataset
+# 使用 假知识 数据集
 if "data_list" not in st.session_state:
     st.session_state.data_list = []
     st.session_state.answer_list = []
 if not st.session_state.data_list:
     try:
         with st.spinner("正在读取数据库..."):
+            dataset = load_dataset("zeerd/fake_knowledge")
             data_list = []
             answer_list = []
             for example in dataset["train"]:
+                answer_list.append(example["Answer"])
+                data_list.append({"Question": example["Question"], "Answer": example["Answer"]})
             st.session_state.answer_list = answer_list
             st.session_state.data_list = data_list
             st.success("数据库读取完成！")
         return {"prompt": "", "answer": "An error occurred during the answering process.", "pure_answer": ""}
 # Streamlit 界面
+st.title("假知识库问答系统")
 col1, col2 = st.columns(2)
 with col1:
         generate_answer(gemma, float(temperature), int(max_length), random_question)
 with col4:
+    question = st.text_area("请输入问题", "谁是潜水员？")
     if st.button("提交输入的问题"):
         if not question:
             st.warning("请输入问题！")

requirements.txt CHANGED Viewed

@@ -6,4 +6,3 @@ langchain-huggingface
 sentence_transformers
 faiss-cpu
 datasets
-opencc-python-reimplemented

 sentence_transformers
 faiss-cpu
 datasets