Spaces:

kensvin
/

ringkas-ulas

Running

kensvin commited on May 18, 2024

Commit

36ab1a9

1 Parent(s): 0f1ffcf

handle url error

Files changed (1) hide show

app.py CHANGED Viewed

@@ -21,25 +21,29 @@ item = {}
 LIMIT = 1000  # Limit to 1000 reviews so that processing does not take too long
 def scrape(URL, max_reviews=LIMIT):
-    parsed_url = urlparse(URL)
-    *_, SHOP, PRODUCT_KEY = parsed_url.path.split("/")
-    product_id = request_product_id(SHOP, PRODUCT_KEY).json()["data"]["pdpGetLayout"][
-        "basicInfo"
-    ]["id"]
-    all_reviews = []
-    page = 1
-    has_next = True
-    while has_next and len(all_reviews) <= max_reviews:
-        response = request_product_review(product_id, page=page)
-        data = response.json()["data"]["productrevGetProductReviewList"]
-        reviews = data["list"]
-        all_reviews.extend(reviews)
-        has_next = data["hasNext"]
-        page += 1
-    reviews_df = pd.json_normalize(all_reviews)
-    return reviews_df
 # Clean
 def clean(df):

 LIMIT = 1000  # Limit to 1000 reviews so that processing does not take too long
 def scrape(URL, max_reviews=LIMIT):
+    try:
+        parsed_url = urlparse(URL)
+        *_, SHOP, PRODUCT_KEY = parsed_url.path.split("/")
+        product_id = request_product_id(SHOP, PRODUCT_KEY).json()["data"]["pdpGetLayout"][
+            "basicInfo"
+        ]["id"]
+    except:
+        raise gr.Error("Invalid URL")
+    else:
+        all_reviews = []
+        page = 1
+        has_next = True
+        while has_next and len(all_reviews) <= max_reviews:
+            response = request_product_review(product_id, page=page)
+            data = response.json()["data"]["productrevGetProductReviewList"]
+            reviews = data["list"]
+            all_reviews.extend(reviews)
+            has_next = data["hasNext"]
+            page += 1
+        reviews_df = pd.json_normalize(all_reviews)
+        return reviews_df
 # Clean
 def clean(df):