Spaces:

ivanfioravanti
/

phidata-multimodal-ai-agent

Running

App Files Files Community

ivanfioravanti commited on 9 days ago

Commit

f0b2bc6

•

0 Parent(s):

Initial commit

Browse files

Files changed (4) hide show

.gitattributes +35 -0
README.md +14 -0
app.py +81 -0
requirements.txt +5 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,14 @@

+---
+title: Phidata Multimodal AI Agent
+emoji: 🚀
+colorFrom: green
+colorTo: gray
+sdk: streamlit
+sdk_version: 1.41.1
+app_file: app.py
+pinned: false
+license: mit
+short_description: Phidata Multimodal AI Agent
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,81 @@

+import streamlit as st
+from phi.agent import Agent
+from phi.model.google import Gemini
+from phi.tools.duckduckgo import DuckDuckGo
+from google.generativeai import upload_file, get_file
+import time
+from pathlib import Path
+import tempfile
+st.set_page_config(
+    page_title="Multimodal AI Agent",
+    page_icon="🎥",
+    layout="wide"
+)
+st.title("Phidata Multimodal AI Agent 🎥🎤💬")
+st.header("Powered by Gemini 2.0 Flash Exp")
+@st.cache_resource
+def initialize_agent():
+    return Agent(
+        name="Multimodal Analyst",
+        model=Gemini(id="gemini-2.0-flash-exp"),
+        tools=[DuckDuckGo()],
+        markdown=True,
+    )
+agent = initialize_agent()
+uploaded_file = st.file_uploader("Upload a video file", type=['mp4', 'mov', 'avi'])
+if uploaded_file:
+    with tempfile.NamedTemporaryFile(delete=False, suffix='.mp4') as tmp_file:
+        tmp_file.write(uploaded_file.read())
+        upload_path = tmp_file.name
+    st.video(upload_path)
+    user_prompt = st.text_area(
+        "What are you looking for in this video?",
+        placeholder="Ask anything about the video - AI Agent will analyze everything and search the web if needed",
+        help="You can ask questions about the video content and get information from the web"
+    )
+    if st.button("Analyze"):
+        if not user_prompt:
+            st.warning("Please enter your question.")
+        else:
+            try:
+                with st.spinner("Analyzing video and searching the web..."):
+                    video_file = upload_file(upload_path)
+                    while video_file.state.name == "PROCESSING":
+                        time.sleep(1)
+                        video_file = get_file(video_file.name)
+                    prompt = f"""
+                    First analyze the video and then answer this question using both
+                    the video analysis and web research, question: {user_prompt}
+                    Provide a comprehensive response focusing on practical, actionable information.
+                    """
+                    result = agent.run(prompt, videos=[video_file])
+                st.subheader("Result")
+                st.markdown(result.content)
+            except Exception as e:
+                st.error(f"An error occurred: {str(e)}")
+            finally:
+                Path(upload_path).unlink(missing_ok=True)
+else:
+    st.info("Please upload a video to begin analysis.")
+st.markdown("""
+    <style>
+    .stTextArea textarea {
+        height: 100px;
+    }
+    </style>
+    """, unsafe_allow_html=True)

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+streamlit
+phidata
+google-generativeai
+openai
+duckduckgo-search