Spaces:

Shreyas94
/

World_News

Sleeping

App Files Files Community

Shreyas94 commited on Jun 14, 2024

Commit

871b845

verified ·

1 Parent(s): e26bc82

Update app.py

Browse files

Files changed (1) hide show

app.py +63 -75

app.py CHANGED Viewed

@@ -1,81 +1,69 @@
-import streamlit as st
-import wna_googlenews as wna
-import pandas as pd
-from transformers import pipeline
-st.set_page_config(layout="wide")
-st.title("WNA Google News App")
-st.subheader("Search for News and classify the headlines with sentiment analysis")
-query = st.text_input("Enter Query")
-models = [
-          "j-hartmann/emotion-english-distilroberta-base",
-          "SamLowe/roberta-base-go_emotions"
-          # "distilbert/distilbert-base-uncased-finetuned-sst-2-english"
-        ]
-settings = {
-  "langregion": "en/US",
-  "period": "1d",
-  "model": models[0],
-  "number_of_pages": 5
-}
-with st.sidebar:
-  st.title("Settings")
-  # add language and country parameters
-  st.header("Language and Country")
-  settings["langregion"] = st.selectbox("Select Language", ["en/US", "fr/FR"])
-  # input field for number of pages
-  st.header("Number of Pages")
-  settings["number_of_pages"] = st.number_input("Enter Number of Pages", min_value=1, max_value=10)
-  settings["region"] = settings["langregion"].split("/")[0]
-  settings["lang"] = settings["langregion"].split("/")[1]
-  # add period parameter
-  st.header("Period")
-  settings["period"] = st.selectbox("Select Period", ["1d", "7d", "30d"])
-  # Add models parameters
-  st.header("Models")
-  settings["model"] = st.selectbox("Select Model", models)
-if st.button("Search"):
-  classifier = pipeline(task="text-classification", model=settings["model"], top_k=None)
-  # display a loading progress
-  with st.spinner("Loading last news ..."):
-    allnews = wna.get_news(settings, query)
-    st.dataframe(allnews)
-  with st.spinner("Processing received news ..."):
-    df = pd.DataFrame(columns=["sentence", "date","best","second"])
-    # loop on each sentence and call classifier
-    for curnews in allnews:
-      #st.write(curnews)
-      cur_sentence = curnews["title"]
-      cur_date = curnews["date"]
-      model_outputs = classifier(cur_sentence)
-      cur_result = model_outputs[0]
-      #st.write(cur_result)
-      # get label 1
-      label = cur_result[0]['label']
-      score = cur_result[0]['score']
-      percentage = round(score * 100, 2)
-      str1 = label + " (" + str(percentage) + ")%"
-      # get label 2
-      label = cur_result[1]['label']
-      score = cur_result[1]['score']
-      percentage = round(score * 100, 2)
-      str2 = label + " (" + str(percentage) + ")%"
-      # insert cur_sentence and cur_result into dataframe
-      df.loc[len(df.index)] = [cur_sentence, cur_date, str1, str2]
-  # write info on the output
-  st.write("Number of sentences:", len(df))
-  st.write("Language:", settings["lang"], "Country:", settings["region"])
-  st.dataframe(df)

+from transformers import pipeline, BartTokenizer
+from googlesearch import search
+from bs4 import BeautifulSoup
+import requests
+# Initialize BART tokenizer and summarization pipeline
+tokenizer = BartTokenizer.from_pretrained('letgoofthepizza/Llama-3-8B-Instruct-ko-news-summary')
+summarizer = pipeline("summarization", model="letgoofthepizza/Llama-3-8B-Instruct-ko-news-summary")
+# Function to perform Google search and retrieve URLs, filtering by domain
+def google_search(query: str, num_results: int = 10):
+    """Perform a Google search and retrieve the URLs of the search results."""
+    search_results = []
+    try:
+        for url in search(query, num_results=num_results, domains=["tesla.com", "cnbc.com", "reuters.com", "bloomberg.com", "investopedia.com"]):
+            search_results.append(url)
+    except TypeError:
+        for url in search(query, num_results=num_results):
+            if any(domain in url for domain in ["tesla.com", "cnbc.com", "reuters.com", "bloomberg.com", "investopedia.com"]):
+                search_results.append(url)
+    return search_results
+# Function to fetch content from a URL and summarize it
+def fetch_and_summarize_url(url: str):
+    try:
+        response = requests.get(url)
+        response.raise_for_status()
+        soup = BeautifulSoup(response.text, 'html.parser')
+        # Extract relevant content (e.g., paragraphs or sections)
+        paragraphs = [p.text for p in soup.find_all('p')]
+        combined_text = " ".join(paragraphs[:3])  # Combine first few paragraphs for summary
+        # Summarize using the pipeline
+        if combined_text.strip():  # Ensure there is text to summarize
+            summary = summarizer(combined_text, max_length=200, min_length=50, do_sample=False)
+            return summary[0]['summary_text']
+        else:
+            return None
+    except requests.RequestException as e:
+        return None
+# Function to perform Google search and aggregate summaries
+def google_search_and_answer(question: str, keywords: str):
+    search_query = f"{question} {keywords}"
+    search_results = google_search(search_query)
+    summaries = []
+    for url in search_results:
+        fetched_summary = fetch_and_summarize_url(url)
+        if fetched_summary:
+            # Add additional logic to filter summaries based on relevance
+            # Example: Check if either question or keywords are present in fetched_summary
+            if question.lower() in fetched_summary.lower() or keywords.lower() in fetched_summary.lower():
+                summaries.append(fetched_summary)
+    if summaries:
+        return "\n\n".join(summaries)
+    else:
+        return "No relevant information found."
+# Main function to run the script
+def main():
+    print("Intelligent Assistant")
+    question = input("Enter your query: ")
+    keywords = input("Enter specific keywords (e.g., 'Q1 2024 financial results Tesla'): ")
+    answer = google_search_and_answer(question, keywords)
+    print("Answer:", answer)
+if __name__ == "__main__":
+    main()