FakeQA

Sleeping

App Files Files Community

Charles Chan commited on Feb 11

Commit

21d443e

1 Parent(s): de611e2

coding

Browse files

Files changed (1) hide show

app.py +9 -5

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import streamlit as st
 import random
 from langchain_community.llms import HuggingFaceHub
-from langchain_community.embeddings import SentenceTransformerEmbeddings
 from langchain_community.vectorstores import FAISS
 from datasets import load_dataset
 from opencc import OpenCC
@@ -35,8 +35,12 @@ if "vector_created" not in st.session_state:
 if not st.session_state.vector_created:
     try:
         with st.spinner("正在构建向量数据库..."):
-            embeddings = SentenceTransformerEmbeddings(model_name="all-mpnet-base-v2")
-            db = FAISS.from_texts(st.session_state.answer_list, embeddings)
             st.success("向量数据库构建完成！")
             print("向量数据库构建完成！")
     except Exception as e:
@@ -69,10 +73,10 @@ def answer_question(repo_id, temperature, max_length, question):
     # 获取答案
     try:
         with st.spinner("正在筛选本地数据集..."):
-            question_embedding = embeddings.embed_query(question)
             question_embedding_str = " ".join(map(str, question_embedding))
             # print('question_embedding: ' + question_embedding_str)
-            docs_and_scores = db.similarity_search_with_score(question_embedding_str)
             context = "\n".join([doc.page_content for doc, _ in docs_and_scores])
             print('context: ' + context)

 import streamlit as st
 import random
 from langchain_community.llms import HuggingFaceHub
+from langchain_community.st.session_state.embeddings import SentenceTransformerEmbeddings
 from langchain_community.vectorstores import FAISS
 from datasets import load_dataset
 from opencc import OpenCC
 if not st.session_state.vector_created:
     try:
         with st.spinner("正在构建向量数据库..."):
+            # all-mpnet-base-v2 是一个由 Sentence Transformers 库提供的预训练模型，
+            # 专门用于生成高质量的句子嵌入（sentence embeddings）。
+            # all-mpnet-base-v2 在多个自然语言处理任务上表现出色，包括语义相似度计算、
+            # 文本检索、聚类等。它能够有效地捕捉句子的语义信息，并生成具有代表性的向量表示。
+            st.session_state.embeddings = SentenceTransformerEmbeddings(model_name="all-mpnet-base-v2")
+            st.session_state.db = FAISS.from_texts(st.session_state.answer_list, st.session_state.embeddings)
             st.success("向量数据库构建完成！")
             print("向量数据库构建完成！")
     except Exception as e:
     # 获取答案
     try:
         with st.spinner("正在筛选本地数据集..."):
+            question_embedding = st.session_state.embeddings.embed_query(question)
             question_embedding_str = " ".join(map(str, question_embedding))
             # print('question_embedding: ' + question_embedding_str)
+            docs_and_scores = st.session_state.db.similarity_search_with_score(question_embedding_str)
             context = "\n".join([doc.page_content for doc, _ in docs_and_scores])
             print('context: ' + context)