Spaces:

IA2
/

IA2_model

Sleeping

App Files Files Community

AshenClock commited on Jan 3

Commit

d9ab7eb

verified ·

1 Parent(s): bfa70d6

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -20

app.py CHANGED Viewed

@@ -6,6 +6,10 @@ from fastapi import FastAPI, HTTPException
 import rdflib
 from rdflib import RDF, RDFS, OWL
 from huggingface_hub import InferenceClient
 logging.basicConfig(
     level=logging.DEBUG,
@@ -27,6 +31,17 @@ HF_MODEL = "Qwen/Qwen2.5-72B-Instruct"
 MAX_CLASSES    = 30
 MAX_PROPERTIES = 30
 def extract_classes_and_properties(rdf_file:str) -> str:
     """
@@ -69,33 +84,28 @@ def extract_classes_and_properties(rdf_file:str) -> str:
     summary = f"""\
 # CLASSI (max {MAX_CLASSES})
 {txt_classes}
 # PROPRIETA' (max {MAX_PROPERTIES})
 {txt_props}
 """
     return summary
 knowledge_text = extract_classes_and_properties(RDF_FILE)
-def create_system_message(ont_text:str)->str:
     """
-    Prompt di sistema robusto, con regole su query in una riga.
-    Lasciamo un 'accenno' che, per parlare di 'materiale', potrebbe esserci
-    una proprietà simile a 'base:materialeOpera' o analoga, ma NON tassativo.
     """
     return f"""
 Sei un assistente museale. Ecco un estratto di CLASSI e PROPRIETA' dell'ontologia (senza NamedIndividuals):
 --- ONTOLOGIA ---
 {ont_text}
 --- FINE ---
 Suggerimento: se l'utente chiede il 'materiale' di un'opera, potresti usare qualcosa come
 'base:materialeOpera' o un'altra proprietà simile (se esiste). Non è tassativo: usa
 la proprietà che ritieni più affine se ci sono riferimenti in ontologia.
 REGOLE STRINGENTI:
 1) Se l'utente chiede info su questa ontologia, genera SEMPRE una query SPARQL in UNA SOLA RIGA,
    con prefix:
@@ -104,21 +114,17 @@ REGOLE STRINGENTI:
 3) Se la domanda è generica (tipo 'Ciao, come stai?'), rispondi breve.
 4) Se trovi risultati, risposta finale = la query SPARQL (una sola riga).
 5) Se non trovi nulla, di' 'Nessuna info.'
-6) Non multiline. Esempio:  PREFIX base: <...> SELECT ?x WHERE {{ ... }}.
 FINE REGOLE
 """
 def create_explanation_prompt(results_str:str)->str:
     return f"""
 Ho ottenuto questi risultati SPARQL:
 {results_str}
 Ora fornisci una breve spiegazione museale (massimo ~10 righe), senza inventare oltre i risultati.
 """
 async def call_hf_model(messages, temperature=0.5, max_tokens=1024)->str:
     logger.debug("Chiamo HF con i seguenti messaggi:")
     for m in messages:
@@ -140,9 +146,6 @@ async def call_hf_model(messages, temperature=0.5, max_tokens=1024)->str:
         logger.error(f"HuggingFace error: {e}")
         raise HTTPException(status_code=500, detail=str(e))
-from fastapi import FastAPI
 app=FastAPI()
 class QueryRequest(BaseModel):
@@ -155,7 +158,11 @@ async def generate_response(req:QueryRequest):
     user_input=req.message
     logger.info(f"Utente dice: {user_input}")
-    sys_msg=create_system_message(knowledge_text)
     msgs=[
         {"role":"system","content":sys_msg},
         {"role":"user","content":user_input}
@@ -182,7 +189,6 @@ async def generate_response(req:QueryRequest):
         sparql_query=r1
     # Esegui la query con rdflib
-    import rdflib
     g=rdflib.Graph()
     try:
         g.parse(RDF_FILE,format="xml")

 import rdflib
 from rdflib import RDF, RDFS, OWL
 from huggingface_hub import InferenceClient
+from sentence_transformers import SentenceTransformer
+import faiss
+import json
+import numpy as np
 logging.basicConfig(
     level=logging.DEBUG,
 MAX_CLASSES    = 30
 MAX_PROPERTIES = 30
+# Carica i documenti e l'indice FAISS
+with open("data/documents.json", "r", encoding="utf-8") as f:
+    documents = json.load(f)
+index = faiss.read_index("data/faiss.index")
+model = SentenceTransformer('all-MiniLM-L6-v2')
+def retrieve_relevant_documents(query: str, top_k: int = 5):
+    query_embedding = model.encode([query], convert_to_numpy=True)
+    distances, indices = index.search(query_embedding, top_k)
+    relevant_docs = [documents[idx] for idx in indices[0]]
+    return relevant_docs
 def extract_classes_and_properties(rdf_file:str) -> str:
     """
     summary = f"""\
 # CLASSI (max {MAX_CLASSES})
 {txt_classes}
 # PROPRIETA' (max {MAX_PROPERTIES})
 {txt_props}
 """
     return summary
 knowledge_text = extract_classes_and_properties(RDF_FILE)
+def create_system_message(ont_text:str, retrieved_docs:str)->str:
     """
+    Prompt di sistema robusto, con regole su query in una riga e
+    informazioni recuperate tramite RAG.
     """
     return f"""
 Sei un assistente museale. Ecco un estratto di CLASSI e PROPRIETA' dell'ontologia (senza NamedIndividuals):
 --- ONTOLOGIA ---
 {ont_text}
 --- FINE ---
+Ecco alcune informazioni rilevanti recuperate dalla base di conoscenza:
+{retrieved_docs}
 Suggerimento: se l'utente chiede il 'materiale' di un'opera, potresti usare qualcosa come
 'base:materialeOpera' o un'altra proprietà simile (se esiste). Non è tassativo: usa
 la proprietà che ritieni più affine se ci sono riferimenti in ontologia.
 REGOLE STRINGENTI:
 1) Se l'utente chiede info su questa ontologia, genera SEMPRE una query SPARQL in UNA SOLA RIGA,
    con prefix:
 3) Se la domanda è generica (tipo 'Ciao, come stai?'), rispondi breve.
 4) Se trovi risultati, risposta finale = la query SPARQL (una sola riga).
 5) Se non trovi nulla, di' 'Nessuna info.'
+6) Non multiline. Esempio: PREFIX base: <...> SELECT ?x WHERE { ... }.
 FINE REGOLE
 """
 def create_explanation_prompt(results_str:str)->str:
     return f"""
 Ho ottenuto questi risultati SPARQL:
 {results_str}
 Ora fornisci una breve spiegazione museale (massimo ~10 righe), senza inventare oltre i risultati.
 """
 async def call_hf_model(messages, temperature=0.5, max_tokens=1024)->str:
     logger.debug("Chiamo HF con i seguenti messaggi:")
     for m in messages:
         logger.error(f"HuggingFace error: {e}")
         raise HTTPException(status_code=500, detail=str(e))
 app=FastAPI()
 class QueryRequest(BaseModel):
     user_input=req.message
     logger.info(f"Utente dice: {user_input}")
+    # Recupera documenti rilevanti usando RAG
+    relevant_docs = retrieve_relevant_documents(user_input, top_k=3)
+    retrieved_text = "\n".join([doc['text'] for doc in relevant_docs])
+    sys_msg=create_system_message(knowledge_text, retrieved_text)
     msgs=[
         {"role":"system","content":sys_msg},
         {"role":"user","content":user_input}
         sparql_query=r1
     # Esegui la query con rdflib
     g=rdflib.Graph()
     try:
         g.parse(RDF_FILE,format="xml")