Spaces:

kensvin
/

ringkas-ulas

Sleeping

App Files Files Community

kensvin commited on May 18

Commit

3885d1d

•

1 Parent(s): 8464276

fix app

Browse files

Files changed (1) hide show

app.py +63 -53

app.py CHANGED Viewed

@@ -20,30 +20,34 @@ item_id = ""
 item = {}
 LIMIT = 1000  # Limit to 1000 reviews so that processing does not take too long
-def scrape(URL, max_reviews=LIMIT):
-    try:
-        parsed_url = urlparse(URL)
-        *_, SHOP, PRODUCT_KEY = parsed_url.path.split("/")
-        product_id = request_product_id(SHOP, PRODUCT_KEY).json()["data"]["pdpGetLayout"][
-            "basicInfo"
-        ]["id"]
-    except:
-        return "Invalid URL"
-    else:
-        all_reviews = []
-        page = 1
-        has_next = True
-        while has_next and len(all_reviews) <= max_reviews:
-            response = request_product_review(product_id, page=page)
-            data = response.json()["data"]["productrevGetProductReviewList"]
-            reviews = data["list"]
-            all_reviews.extend(reviews)
-            has_next = data["hasNext"]
-            page += 1
-        reviews_df = pd.json_normalize(all_reviews)
-        return reviews_df
 # Clean
 def clean(df):
@@ -74,41 +78,48 @@ db = None
 qa = None
-def generate(URL, query):
     global cache_URL, db, qa
-    if URL != cache_URL:
-        # Get reviews
         try:
-            reviews = scrape(URL)
-            if (reviews is None) or (len(reviews) == 0):
-                return "No reviews found"
-            elif reviews == "Invalid URL":
-                return "Invalid URL"
-            # Clean reviews
-            cleaned_reviews = clean(reviews)
-            # Load data
-            loader = DataFrameLoader(cleaned_reviews, page_content_column="comment")
-            documents = loader.load()
-        except Exception as e:
-            return "Error getting reviews: " + str(e)
-        else:
-            # Split text
-            text_splitter = RecursiveCharacterTextSplitter(
-                chunk_size=1000, chunk_overlap=50
-            )
-            docs = text_splitter.split_documents(documents)
-            cache_URL = URL
-            # Vector store
-            db = FAISS.from_documents(docs, embeddings)
-            # Chain to answer questions
-            qa = RetrievalQA.from_chain_type(llm=llm, retriever=db.as_retriever())
-    return qa.run(query)
 # Gradio
-product_box = gr.Textbox(
-    label="URL Produk", placeholder="URL produk dari Tokopedia"
-)
 query_box = gr.Textbox(
     lines=2,
     label="Kueri",
@@ -122,5 +133,4 @@ gr.Interface(
     title="RingkasUlas",
     description="Bot percakapan yang bisa meringkas ulasan-ulasan produk di Tokopedia Indonesia (https://tokopedia.com/). Harap bersabar, bot ini dapat memakan waktu agak lama saat mengambil ulasan dari Tokopedia dan menyiapkan jawabannya.",
     allow_flagging="never",
 ).launch()

 item = {}
 LIMIT = 1000  # Limit to 1000 reviews so that processing does not take too long
+def scrape(product_id, max_reviews=LIMIT):
+    all_reviews = []
+    page = 1
+    has_next = True
+    while has_next and len(all_reviews) <= max_reviews:
+        response = request_product_review(product_id, page=page)
+        data = response.json()["data"]["productrevGetProductReviewList"]
+        reviews = data["list"]
+        all_reviews.extend(reviews)
+        has_next = data["hasNext"]
+        page += 1
+    reviews_df = pd.json_normalize(all_reviews)
+    reviews_df.rename(columns={"message": "comment"}, inplace=True)
+    reviews_df = reviews_df[["comment"]]
+    return reviews_df
+def get_product_id(URL):
+    parsed_url = urlparse(URL)
+    *_, SHOP, PRODUCT_KEY = parsed_url.path.split("/")
+    product_id = request_product_id(SHOP, PRODUCT_KEY).json()["data"]["pdpGetLayout"][
+        "basicInfo"
+    ]["id"]
+    return product_id
 # Clean
 def clean(df):
 qa = None
+async def generate(URL, query):
     global cache_URL, db, qa
+    if URL == "" or query == "":
+        return "Empty input"
+    else:
         try:
+            product_id = get_product_id(URL)
+            if URL != cache_URL:
+                # Get reviews
+                try:
+                    reviews = scrape(URL)
+                    # Clean reviews
+                    cleaned_reviews = clean(reviews)
+                    # Load data
+                    loader = DataFrameLoader(
+                        cleaned_reviews, page_content_column="comment"
+                    )
+                    documents = loader.load()
+                except Exception as e:
+                    return "Error getting reviews: " + str(e)
+                else:
+                    # Split text
+                    text_splitter = RecursiveCharacterTextSplitter(
+                        chunk_size=1000, chunk_overlap=50
+                    )
+                    docs = text_splitter.split_documents(documents)
+                    cache_URL = URL
+                    # Vector store
+                    db = FAISS.from_documents(docs, embeddings)
+                    # Chain to answer questions
+                    qa = RetrievalQA.from_chain_type(
+                        llm=llm, retriever=db.as_retriever()
+                    )
+                    res = await qa.ainvoke(query)
+                    # Process result
+                    return res["result"]
+        except:
+            return "URL tidak valid"
 # Gradio
+product_box = gr.Textbox(label="URL Produk", placeholder="URL produk dari Tokopedia")
 query_box = gr.Textbox(
     lines=2,
     label="Kueri",
     title="RingkasUlas",
     description="Bot percakapan yang bisa meringkas ulasan-ulasan produk di Tokopedia Indonesia (https://tokopedia.com/). Harap bersabar, bot ini dapat memakan waktu agak lama saat mengambil ulasan dari Tokopedia dan menyiapkan jawabannya.",
     allow_flagging="never",
 ).launch()