Spaces:

Towhidul
/

MultiModal_Chatbot

Sleeping

Towhidul commited on Nov 4, 2024

Commit

afc80d1

verified ·

1 Parent(s): ed4a009

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -173,7 +173,6 @@ class MultimodalQueryEngine(CustomQueryEngine):
     #     return Response(response=str(llm_response), source_nodes=nodes, metadata={"text_nodes": text_nodes, "image_nodes": image_nodes})
 class MultimodalQueryEngine(CustomQueryEngine):
     qa_prompt: PromptTemplate
     retriever: BaseRetriever
@@ -203,7 +202,6 @@ class MultimodalQueryEngine(CustomQueryEngine):
                 nodes, query_bundle=QueryBundle(query_str)
             )
         # create image nodes from the image associated with those nodes
         image_nodes = [
             NodeWithScore(node=ImageNode(image_path=n.node.metadata["image_path"]))
@@ -216,17 +214,20 @@ class MultimodalQueryEngine(CustomQueryEngine):
         )
         # prompt for the LLM
-        fmt_prompt = self.qa_prompt.format(context_str=ctx_str, query_str=query_str,encoded_image_url=encoded_image_url)
         # use the multimodal LLM to interpret images and generate a response to the prompt
-        llm_repsonse = self.multi_modal_llm.complete(
             prompt=fmt_prompt,
             image_documents=[image_node.node for image_node in image_nodes],
         )
         return Response(
-            response=str(llm_repsonse),
             source_nodes=nodes,
-            metadata={"text_nodes": text_nodes, "image_nodes": image_nodes},
         )
 query_engine = MultimodalQueryEngine(QA_PROMPT, retriever, gpt_4o_mm)

     #     return Response(response=str(llm_response), source_nodes=nodes, metadata={"text_nodes": text_nodes, "image_nodes": image_nodes})
 class MultimodalQueryEngine(CustomQueryEngine):
     qa_prompt: PromptTemplate
     retriever: BaseRetriever
                 nodes, query_bundle=QueryBundle(query_str)
             )
         # create image nodes from the image associated with those nodes
         image_nodes = [
             NodeWithScore(node=ImageNode(image_path=n.node.metadata["image_path"]))
         )
         # prompt for the LLM
+        fmt_prompt = self.qa_prompt.format(
+            context_str=ctx_str, query_str=query_str, encoded_image_url=encoded_image_url
+        )
         # use the multimodal LLM to interpret images and generate a response to the prompt
+        llm_response = self.multi_modal_llm.complete(
             prompt=fmt_prompt,
             image_documents=[image_node.node for image_node in image_nodes],
         )
         return Response(
+            response=str(llm_response),
             source_nodes=nodes,
+            metadata={"text_nodes": nodes, "image_nodes": image_nodes},
         )
 query_engine = MultimodalQueryEngine(QA_PROMPT, retriever, gpt_4o_mm)