Spaces:

Waflon
/

FAQ_SSI_CHILE

Sleeping

App Files Files Community

FAQ_SSI_CHILE / modelo.py

Waflon

Update modelo.py

f7b1faf verified 10 months ago

raw

history blame

3.29 kB

	import os
	from langchain.prompts import PromptTemplate
	from langchain.chains.llm import LLMChain
	from langchain.chains.combine_documents.stuff import StuffDocumentsChain
	from langchain.chains import RetrievalQA
	from langchain.text_splitter import RecursiveCharacterTextSplitter
	from langchain_openai import ChatOpenAI
	from langchain_community.vectorstores import FAISS
	from langchain_community.document_loaders import HuggingFaceDatasetLoader
	from langchain_community.embeddings import HuggingFaceEmbeddings
	os.environ["OPENAI_API_KEY"] = st.secrets['OPENAI_API_KEY'] # agregada en la config de hugginface

	def get_chain():
	#Embeddings que transforman a vectores densos multidimensionales las preguntas del SII
	embeddings = HuggingFaceEmbeddings(
	model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2", # Ruta a modelo Pre entrenado
	model_kwargs={'device':'cpu'}, # Opciones de configuracion del modelo
	encode_kwargs={'normalize_embeddings': False} # Opciones de Encoding
	)
	try:
	db = FAISS.load_local("cache", embeddings)
	except:
	#Carga de DATASET
	dataset_name = "Waflon/FAQ"
	page_content_column = "respuestas"
	loader = HuggingFaceDatasetLoader(dataset_name, page_content_column)
	data = loader.load()
	text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
	#Transformado a tipo de dato especifico para esto
	docs = text_splitter.split_documents(data)

	#DB y retriever
	db = FAISS.from_documents(docs, embeddings) # Create a retriever object from the 'db' with a search configuration where it retrieves up to 4 relevant splits/documents.

	retriever = db.as_retriever(search_kwargs={"k": 3})

	prompt_template = """Usa los siguientes fragmentos de contextos para responder una pregunta al final. Por favor sigue las siguientes reglas:
	1. Si la pregunta requiere vinculos, por favor retornar solamente las vinculos de los vinculos sin respuesta
	2. Si no sabes la respuesta, no inventes una respuesta. Solamente di No pude encontrar la respuesta definitiva, pero tal vez quieras ver los siguientes vinculos y agregalos a la lista de vinculos.
	3. Si encuentras la respuesta, escribe una respuesta concisa y agrega la lista de vinculos que sean usadas directamente para derivar la respuesta. Excluye los vinculos que sean irrelevantes al final de la respuesta

	{contexto}

	Pregunta: {question}
	Respuesta Util:"""


	QA_CHAIN_PROMPT = PromptTemplate.from_template(prompt_template) # prompt_template defined above
	llm_chain = LLMChain(llm=ChatOpenAI(), prompt=QA_CHAIN_PROMPT, callbacks=None, verbose=True)
	document_prompt = PromptTemplate(
	input_variables=["page_content", "url"],
	template="Contexto:\n{page_content}\nVinculo: {url}",
	)
	combine_documents_chain = StuffDocumentsChain(
	llm_chain=llm_chain,
	document_variable_name="contexto",
	document_prompt=document_prompt,
	callbacks=None,
	)
	chain = RetrievalQA(
	combine_documents_chain=combine_documents_chain,
	callbacks=None,
	verbose=True,
	retriever=retriever,
	)
	return(chain)