Spaces:

Waflon
/

Codigos-Leyes-Chilenos

Runtime error

App Files Files Community

Waflon commited on Jan 30

Commit

3a2df8b

•

1 Parent(s): 08e8255

Upload 20 files

Files changed (21) hide show

.gitattributes +4 -0
app.py +35 -0
cache/index.faiss +3 -0
cache/index.pkl +3 -0
data/Codigo-Aeronautico.pdf +0 -0
data/Codigo-Aguas.pdf +0 -0
data/Codigo-COMERCIO.pdf +0 -0
data/Codigo-Civil.pdf +3 -0
data/Codigo-Derecho-Internacional.pdf +0 -0
data/Codigo-Justicia-Militar.pdf +0 -0
data/Codigo-Mineria.pdf +0 -0
data/Codigo-ORGANICO-DE TRIBUNALES.pdf +0 -0
data/Codigo-PENAL_.pdf +3 -0
data/Codigo-Procedimiento-Civil.pdf +0 -0
data/Codigo-Procedimiento-Penal.pdf +0 -0
data/Codigo-Procesal-Penal.pdf +0 -0
data/Codigo-Sanitario.pdf +0 -0
data/Codigo-Tributario.pdf +0 -0
data/Codigo_Trabajo.pdf +3 -0
modelo.py +170 -0
requirements.txt +12 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,7 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+cache/index.faiss filter=lfs diff=lfs merge=lfs -text
+data/Codigo_Trabajo.pdf filter=lfs diff=lfs merge=lfs -text
+data/Codigo-Civil.pdf filter=lfs diff=lfs merge=lfs -text
+data/Codigo-PENAL_.pdf filter=lfs diff=lfs merge=lfs -text

app.py CHANGED Viewed

	@@ -0,0 +1,35 @@

+import streamlit as st
+from modelo import get_chain
+#Menu Visual
+st.markdown("<h1 style='text-align: center; color: yellow;'>Chatbot Códigos de Leyes</h1>", unsafe_allow_html=True) #mandar un texto en html
+st.header("🤖🦾ChatBot entrenado usando los codigos que componen la ley. Actualizado en 30/01/2024.")
+with st.chat_message(name="ai"): #assistant or ai
+    st.write('🤖 Hola soy tu asistente del dia de hoy, en que te puedo ayudar')
+if "mensajes" not in st.session_state:
+    st.session_state.mensajes = []
+for message in st.session_state.mensajes:
+    with st.chat_message(message["role"]):
+        st.markdown(message["content"])
+pregunta = st.chat_input("Ingresa tu pregunta")
+#Manejador del prompt, es un input y button a la vez
+with st.spinner("Cargando modelo, por favor espere, mientras puede ingresar su pregunta"):
+    chain = get_chain()  #windows
+if pregunta:
+    #Muestra el mensaje del usuario en el chat
+    with st.chat_message(name="human"): #assistant or ai
+        st.markdown(pregunta)
+    st.session_state.mensajes.append({"role" : "human", "content": pregunta})
+    with st.spinner("Procesando su respuesta, por favor espere"):
+        respuesta = chain.invoke(pregunta)
+    with st.chat_message(name="ai"): #assistant or ai
+        st.markdown(respuesta)
+    st.session_state.mensajes.append({"role" : "ai", "content": respuesta})

cache/index.faiss ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43d239d642504df57094e1562159f5742780f8ad829c3f3da33fdbf1352d63c7
+size 33478701

cache/index.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd2951c5b74aa70bed9f02f9bfa68a01d2bfa52af11a2210c02ee89a84bb9717
+size 11538382

data/Codigo-Aeronautico.pdf ADDED Viewed

The diff for this file is too large to render. See raw diff

data/Codigo-Aguas.pdf ADDED Viewed

The diff for this file is too large to render. See raw diff

data/Codigo-COMERCIO.pdf ADDED Viewed

The diff for this file is too large to render. See raw diff

data/Codigo-Civil.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:355ff58317dca16570b85df30185e73399d51584762f0bad71569f223756b845
+size 1994787

data/Codigo-Derecho-Internacional.pdf ADDED Viewed

The diff for this file is too large to render. See raw diff

data/Codigo-Justicia-Militar.pdf ADDED Viewed

The diff for this file is too large to render. See raw diff

data/Codigo-Mineria.pdf ADDED Viewed

The diff for this file is too large to render. See raw diff

data/Codigo-ORGANICO-DE TRIBUNALES.pdf ADDED Viewed

The diff for this file is too large to render. See raw diff

data/Codigo-PENAL_.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:610d1c73d251b9a3128c1100a214dffba35198b176ecf4fabd2884663ecdc206
+size 1485820

data/Codigo-Procedimiento-Civil.pdf ADDED Viewed

The diff for this file is too large to render. See raw diff

data/Codigo-Procedimiento-Penal.pdf ADDED Viewed

The diff for this file is too large to render. See raw diff

data/Codigo-Procesal-Penal.pdf ADDED Viewed

The diff for this file is too large to render. See raw diff

data/Codigo-Sanitario.pdf ADDED Viewed

The diff for this file is too large to render. See raw diff

data/Codigo-Tributario.pdf ADDED Viewed

The diff for this file is too large to render. See raw diff

data/Codigo_Trabajo.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a343a5e90c2f31642b0c3787bd80fc69909beba5841ce9ba44c56ae1aa103b52
+size 1008557

modelo.py ADDED Viewed

	@@ -0,0 +1,170 @@

+from langchain.chains.combine_documents.stuff import StuffDocumentsChain
+from langchain_community.document_loaders import PyPDFDirectoryLoader
+from langchain_core.callbacks import CallbackManagerForRetrieverRun
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_community.embeddings import HuggingFaceEmbeddings
+from langchain_core.retrievers import BaseRetriever
+from langchain_community.vectorstores import FAISS  #Facebook AI Similarity Search
+from sentence_transformers import CrossEncoder
+from langchain_core.documents import Document
+from langchain.prompts import PromptTemplate
+from langchain.chains.llm import LLMChain
+from langchain.chains import RetrievalQA
+from langchain_openai import ChatOpenAI
+from typing import List
+import pandas as pd
+embeddings = HuggingFaceEmbeddings(
+    model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",     # Ruta a modelo Pre entrenado
+    model_kwargs={'device':'cpu'}, # Opciones de configuracion del modelo
+    encode_kwargs={'normalize_embeddings': False}) # Opciones de Encoding
+try:
+    vectorstore = FAISS.load_local("cache", embeddings)
+except:
+    loader = PyPDFDirectoryLoader("data/")
+    data = loader.load()
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=450, chunk_overlap=100, length_function=len)
+    docs = text_splitter.split_documents(data)
+    #DB y retriever
+    vectorstore = FAISS.from_documents(docs, embeddings)  # Create a retriever object from the 'db' with a search configuration where it retrieves up to 4 relevant splits/documents.
+    vectorstore.save_local("cache")
+#Renranker para mejorar respuestas
+model = CrossEncoder('cross-encoder/ms-marco-TinyBERT-L-2-v2', max_length=512)  #Por lejos el mejor, los otros no sirven
+class Reranking_retriever(BaseRetriever):
+  def _get_relevant_documents(self, query: str, *, run_manager: CallbackManagerForRetrieverRun) -> List[Document]:
+      busqueda = vectorstore.similarity_search_with_score(query,  k=10, fetch_k=15)       # k = 10 numero total de documento a traer previo al re ranking
+      df = pd.DataFrame({ # Funciones lambda toman la ultima variable como input y la previa como iteracionm la primera x es que se retornara
+        'scores':  list(map(lambda x : x[-1], busqueda)),
+        'respuestas': list(map(lambda x : x[0].page_content, busqueda)),
+        'metadata': list(map(lambda x : x[0].metadata ,busqueda))})
+      print(df.scores)
+      respuestas = df.respuestas.to_list()  #lista de respuestas
+      sentence_combinations = [[query, respuesta] for respuesta in respuestas]      # So we create the respective sentence combinations
+      scores = model.predict(sentence_combinations)  #Aplica cross encoding para ver que para de q y a tienen mayor relacion, en este caso se manda la pregunta en cada una de ellas y se compara una a una con las respuestas
+      scores = scores.argsort()[::-1] #Ordena puntajes de mas relevate a menos relevante siendo indice 0 el mas relevante
+      docs = []
+      for i in scores[:3]:  #Los 3 resulados mas relevantes
+        docs.append(Document(page_content=df.respuestas[i], metadata=df.metadata[i]))
+      return docs
+retriever = Reranking_retriever()
+def get_chain():
+    #    prompt_template =
+    #    prompt_template =
+    QA_CHAIN_PROMPT = PromptTemplate.from_template("""
+    Usa el siguiente contexto para responder la pregunta.
+    Contexto
+    {contexto}
+    Pregunta: {question}
+    Respuesta Util:"""
+    ) # prompt_template defined above
+    llm = ChatOpenAI(model="gpt-3.5-turbo-1106", temperature=0)
+    llm_chain = LLMChain(llm=llm, prompt=QA_CHAIN_PROMPT, callbacks=None, verbose=True)
+    document_prompt = PromptTemplate( input_variables=["page_content"], template="Contexto:\n{page_content}")
+    combine_documents_chain = StuffDocumentsChain( llm_chain=llm_chain, document_variable_name="contexto", document_prompt=document_prompt, callbacks=None)
+    chain = RetrievalQA(combine_documents_chain=combine_documents_chain, callbacks=None, verbose=True, retriever=retriever)
+    return(chain)
+from langchain_core.runnables import RunnablePassthrough
+from langchain_core.output_parsers import StrOutputParser
+from langchain_community.document_loaders import PyPDFDirectoryLoader
+from langchain_core.callbacks import CallbackManagerForRetrieverRun
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_community.embeddings import HuggingFaceEmbeddings
+from langchain_core.retrievers import BaseRetriever
+from langchain_community.vectorstores import FAISS  #Facebook AI Similarity Search
+from sentence_transformers import CrossEncoder
+from langchain_core.documents import Document
+from langchain.prompts import ChatPromptTemplate
+from langchain_openai import ChatOpenAI
+from typing import List
+import pandas as pd
+embeddings = HuggingFaceEmbeddings(
+    model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",     # Ruta a modelo Pre entrenado
+    model_kwargs={'device':'cpu'}, # Opciones de configuracion del modelo
+    encode_kwargs={'normalize_embeddings': False}) # Opciones de Encoding
+try:
+    vectorstore = FAISS.load_local("cache", embeddings)
+except:
+    loader = PyPDFDirectoryLoader("data/")
+    data = loader.load()
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=450, chunk_overlap=100, length_function=len)
+    docs = text_splitter.split_documents(data)
+    #DB y retriever
+    vectorstore = FAISS.from_documents(docs, embeddings)  # Create a retriever object from the 'db' with a search configuration where it retrieves up to 4 relevant splits/documents.
+    vectorstore.save_local("cache")
+#Renranker para mejorar respuestas
+model = CrossEncoder('cross-encoder/ms-marco-TinyBERT-L-2-v2', max_length=512)  #Por lejos el mejor, los otros no sirven
+class Reranking_retriever(BaseRetriever):
+  def _get_relevant_documents(self, query: str, *, run_manager: CallbackManagerForRetrieverRun) -> List[Document]:
+      busqueda = vectorstore.similarity_search_with_score(query,  k=10, fetch_k=15)       # k = 10 numero total de documento a traer previo al re ranking
+      df = pd.DataFrame({ # Funciones lambda toman la ultima variable como input y la previa como iteracionm la primera x es que se retornara
+        'scores':  list(map(lambda x : x[-1], busqueda)),
+        'respuestas': list(map(lambda x : x[0].page_content, busqueda)),
+        'metadata': list(map(lambda x : x[0].metadata ,busqueda))})
+      print(df.scores)
+      respuestas = df.respuestas.to_list()  #lista de respuestas
+      sentence_combinations = [[query, respuesta] for respuesta in respuestas]      # So we create the respective sentence combinations
+      scores = model.predict(sentence_combinations)  #Aplica cross encoding para ver que para de q y a tienen mayor relacion, en este caso se manda la pregunta en cada una de ellas y se compara una a una con las respuestas
+      scores = scores.argsort()[::-1] #Ordena puntajes de mas relevate a menos relevante siendo indice 0 el mas relevante
+      docs = []
+      for i in scores[:3]:  #Los 3 resulados mas relevantes
+        docs.append(Document(page_content=df.respuestas[i], metadata=df.metadata[i]))
+      return docs
+retriever = Reranking_retriever()
+def get_chain():
+    template = """
+    Usa el siguiente contexto para responder la pregunta.
+    Contexto
+    {contexto}
+    Pregunta: {pregunta}
+    Respuesta Util:"""
+    prompt = ChatPromptTemplate.from_template(template)
+    model = ChatOpenAI(model="gpt-3.5-turbo-1106", temperature=0)
+    chain = (
+        {"contexto": retriever, "pregunta": RunnablePassthrough()}
+        | prompt
+        | model
+        | StrOutputParser()
+    )
+    return(chain)

requirements.txt ADDED Viewed

	@@ -0,0 +1,12 @@

+torch
+transformers
+sentence-transformers
+datasets
+faiss-cpu
+numpy
+pandas
+langchain
+langchain-community
+langchain-openai
+pypdf
+streamlit