Spaces:

Pixeltable
/

Multimodal-Powerhouse

Running

App Files Files Community

PierreBrunelle commited on Dec 16, 2024

Commit

1a07e48

verified ·

1 Parent(s): dd1bdb6

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -30

app.py CHANGED Viewed

@@ -24,19 +24,6 @@ def init_api_keys():
     if 'OPENAI_API_KEY' not in os.environ:
         os.environ['OPENAI_API_KEY'] = getpass.getpass('OpenAI API key:')
-# Embedding Functions
-@pxt.expr_udf
-def e5_embed(text: str) -> np.ndarray:
-    return sentence_transformer(text, model_id='intfloat/e5-large-v2')
-@pxt.expr_udf
-def embed_image(img: PIL.Image.Image):
-    return clip_image(img, model_id='openai/clip-vit-base-patch32')
-@pxt.expr_udf
-def str_embed(s: str):
-    return clip_text(s, model_id='openai/clip-vit-base-patch32')
 # Common Utilities
 def initialize_pixeltable(dir_name='unified_app'):
     """Initialize Pixeltable directory"""
@@ -53,7 +40,7 @@ def create_prompt(top_k_list: list[dict], question: str) -> str:
     QUESTION:
     {question}'''
-@pxt.udf(return_type=pxt.AudioType())
 def generate_audio(script: str, voice: str, api_key: str):
     """Generate audio from text using OpenAI's API"""
     if not script or not voice:
@@ -87,7 +74,7 @@ class DocumentProcessor:
         docs = pxt.create_table(
             'unified_app.documents',
-            {'document': pxt.DocumentType(nullable=True)}
         )
         docs.insert({'document': file.name} for file in pdf_files if file.name.endswith('.pdf'))
@@ -102,7 +89,7 @@ class DocumentProcessor:
             )
         )
-        chunks.add_embedding_index('text', string_embed=e5_embed)
         return "Documents processed successfully. You can start asking questions."
     @staticmethod
@@ -117,14 +104,14 @@ class DocumentProcessor:
             temp_table = pxt.create_table(
                 'unified_app.temp_response',
                 {
-                    'question': pxt.StringType(),
-                    'context': pxt.StringType()
                 }
             )
             temp_table.insert([{'question': question, 'context': context}])
-            temp_table['response'] = openai.chat_completions(
                 messages=[
                     {
                         'role': 'system',
@@ -136,7 +123,7 @@ class DocumentProcessor:
                     }
                 ],
                 model='gpt-4o-mini-2024-07-18'
-            )
             answer = temp_table.select(
                 answer=temp_table.response.choices[0].message.content
@@ -157,12 +144,12 @@ class CallAnalyzer:
             initialize_pixeltable()
             calls = pxt.create_table(
                 'unified_app.calls',
-                {"video": pxt.VideoType(nullable=True)}
             )
-            calls['audio'] = extract_audio(calls.video, format='mp3')
-            calls['transcription'] = openai.transcriptions(audio=calls.audio, model='whisper-1')
-            calls['text'] = calls.transcription.text
             sentences = pxt.create_view(
                 'unified_app.sentences',
@@ -170,7 +157,7 @@ class CallAnalyzer:
                 iterator=StringSplitter.create(text=calls.text, separators='sentence')
             )
-            sentences.add_embedding_index('text', string_embed=e5_embed)
             @pxt.udf
             def generate_insights(text: str) -> list[dict]:
@@ -179,11 +166,11 @@ class CallAnalyzer:
                     {'role': 'user', 'content': text}
                 ]
-            calls['insights_prompt'] = generate_insights(calls.text)
-            calls['insights'] = openai.chat_completions(
                 messages=calls.insights_prompt,
                 model='gpt-4o-mini-2024-07-18'
-            ).choices[0].message.content
             calls.insert([{"video": video_file}])
@@ -200,15 +187,21 @@ class VideoSearcher:
         """Process video for searching"""
         try:
             initialize_pixeltable()
-            videos = pxt.create_table('unified_app.videos', {'video': pxt.VideoType()})
             frames = pxt.create_view(
                 'unified_app.frames',
                 videos,
                 iterator=FrameIterator.create(video=videos.video, fps=1)
             )
-            frames.add_embedding_index('frame', string_embed=str_embed, image_embed=embed_image)
             videos.insert([{'video': video_file.name}])
             return "Video processed and indexed for search."

     if 'OPENAI_API_KEY' not in os.environ:
         os.environ['OPENAI_API_KEY'] = getpass.getpass('OpenAI API key:')
 # Common Utilities
 def initialize_pixeltable(dir_name='unified_app'):
     """Initialize Pixeltable directory"""
     QUESTION:
     {question}'''
+@pxt.udf(return_type=pxt.Audio)
 def generate_audio(script: str, voice: str, api_key: str):
     """Generate audio from text using OpenAI's API"""
     if not script or not voice:
         docs = pxt.create_table(
             'unified_app.documents',
+            {'document': pxt.Document}
         )
         docs.insert({'document': file.name} for file in pdf_files if file.name.endswith('.pdf'))
             )
         )
+        chunks.add_embedding_index('text', string_embed=sentence_transformer.using(model_id='intfloat/e5-large-v2'))
         return "Documents processed successfully. You can start asking questions."
     @staticmethod
             temp_table = pxt.create_table(
                 'unified_app.temp_response',
                 {
+                    'question': pxt.String,
+                    'context': pxt.String
                 }
             )
             temp_table.insert([{'question': question, 'context': context}])
+            temp_table.add_computed_column(response=openai.chat_completions(
                 messages=[
                     {
                         'role': 'system',
                     }
                 ],
                 model='gpt-4o-mini-2024-07-18'
+            ))
             answer = temp_table.select(
                 answer=temp_table.response.choices[0].message.content
             initialize_pixeltable()
             calls = pxt.create_table(
                 'unified_app.calls',
+                {"video": pxt.Video}
             )
+            calls.add_computed_column(audio=extract_audio(calls.video, format='mp3'))
+            calls.add_computed_column(transcription=openai.transcriptions(audio=calls.audio, model='whisper-1'))
+            calls.add_computed_column(text=calls.transcription.text)
             sentences = pxt.create_view(
                 'unified_app.sentences',
                 iterator=StringSplitter.create(text=calls.text, separators='sentence')
             )
+            sentences.add_embedding_index('text', string_embed=sentence_transformer.using(model_id='intfloat/e5-large-v2'))
             @pxt.udf
             def generate_insights(text: str) -> list[dict]:
                     {'role': 'user', 'content': text}
                 ]
+            calls.add_computed_column(insights_prompt=generate_insights(calls.text))
+            calls.add_computed_column(insights=openai.chat_completions(
                 messages=calls.insights_prompt,
                 model='gpt-4o-mini-2024-07-18'
+            ).choices[0].message.content)
             calls.insert([{"video": video_file}])
         """Process video for searching"""
         try:
             initialize_pixeltable()
+            videos = pxt.create_table('unified_app.videos', {'video': pxt.Video})
             frames = pxt.create_view(
                 'unified_app.frames',
                 videos,
                 iterator=FrameIterator.create(video=videos.video, fps=1)
             )
+            # Embedding Functions
+            frames.add_embedding_index('frame',
+               string_embed=clip_text.using(model_id='openai/clip-vit-base-patch32'),
+               image_embed=clip_image.using(model_id='openai/clip-vit-base-patch32')
+            )
             videos.insert([{'video': video_file.name}])
             return "Video processed and indexed for search."