Spaces:

datenwerkzeuge
/

CDL-Webscraping-Workshop-2025

Running

App Files Files Community

bsenst commited on 15 days ago

Commit

2b04244

1 Parent(s): 7d5908d

fix minor errors when running all ipynb

Browse files

Files changed (5) hide show

src/02_basics/app_market/google-play-search.qmd +1 -1
src/03_low_code/app_market_scraping/app_market_scraping.ipynb +10 -7
src/03_low_code/video_transcripts/get_videos_for_youtube_channels.ipynb +2 -0
src/04_use_case/forum/buergergeld_forum.ipynb +25 -0
src/04_use_case/laws/Gesetze_im_Internet_Aktualitätendienst.ipynb +1 -1

src/02_basics/app_market/google-play-search.qmd CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 title: "Google-Play-App-Suche"
-description: "Dieses Tool durchsucht den Google Play Store nach Apps durchsuchen, basierend auf einem Suchbegriff, und in einer übersichtliche Ergebnisliste darstellen."
 image: _9d81d3d2-f372-476b-beb6-fe6a4841739b.jpeg
 ---

 ---
 title: "Google-Play-App-Suche"
+description: "Dieses Tool durchsucht den Google Play Store nach Apps, basierend auf einem Suchbegriff, und in einer übersichtliche Ergebnisliste darstellen."
 image: _9d81d3d2-f372-476b-beb6-fe6a4841739b.jpeg
 ---

src/03_low_code/app_market_scraping/app_market_scraping.ipynb CHANGED Viewed

@@ -70,10 +70,10 @@
     "\n",
     "Eine CSV-Datei (`app_urls.csv`) erstellen, die eine Spalte url enthält, welche die URLs der Google Play Store Apps auflistet. Beispiel:\n",
     "\n",
-    "```python\n",
-    "url\n",
-    "https://play.google.com/store/apps/details?id=com.example.app1\n",
-    "https://play.google.com/store/apps/details?id=com.example.app2\n",
     "```\n",
     "\n",
     "Die CSV-Datei in ein Pandas DataFrame einlesen:"
@@ -87,8 +87,11 @@
    "source": [
     "import pandas as pd\n",
     "\n",
-    "# CSV-Datei einlesen\n",
-    "df = pd.read_csv('app_urls.csv')"
    ]
   },
   {
@@ -116,7 +119,7 @@
     "app_info_list = []\n",
     "\n",
     "# Loop über die URLs in der CSV-Datei\n",
-    "for url in df['url']:\n",
     "    app_id = extract_app_id(url)\n",
     "    app_info = app(app_id, lang='en', country='us')\n",
     "    app_info_list.append(app_info)\n",

     "\n",
     "Eine CSV-Datei (`app_urls.csv`) erstellen, die eine Spalte url enthält, welche die URLs der Google Play Store Apps auflistet. Beispiel:\n",
     "\n",
+    "```\n",
+    "Title,Developer,Score,App ID,Link\n",
+    "pflegecompass,compass private pflegeberatung,,com.app.pflegecompass,https://play.google.com/store/apps/details?id=com.app.pflegecompass\n",
+    "Pflege App,De Rose Care Tech,,altenpflege.quiz,https://play.google.com/store/apps/details?id=altenpflege.quiz\n",
     "```\n",
     "\n",
     "Die CSV-Datei in ein Pandas DataFrame einlesen:"
    "source": [
     "import pandas as pd\n",
     "\n",
+    "# CSV-Datei lokal einlesen\n",
+    "# df = pd.read_csv('app_urls.csv')\n",
+    "\n",
+    "# CSV-Beispieldatei laden\n",
+    "df = pd.read_csv(\"https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/resolve/main/src/assets/app_urls.csv\")"
    ]
   },
   {
     "app_info_list = []\n",
     "\n",
     "# Loop über die URLs in der CSV-Datei\n",
+    "for url in df['Link']:\n",
     "    app_id = extract_app_id(url)\n",
     "    app_info = app(app_id, lang='en', country='us')\n",
     "    app_info_list.append(app_info)\n",

src/03_low_code/video_transcripts/get_videos_for_youtube_channels.ipynb CHANGED Viewed

@@ -69,6 +69,8 @@
       "metadata": {},
       "outputs": [],
       "source": [
         "# Channel-IDs in ein Pandas DataFrame umwandeln\n",
         "df = pd.DataFrame(list(channel_ids.items()), columns=['Kanal', 'ID'])\n",
         "\n",

       "metadata": {},
       "outputs": [],
       "source": [
+        "import pandas as pd\n",
+        "\n",
         "# Channel-IDs in ein Pandas DataFrame umwandeln\n",
         "df = pd.DataFrame(list(channel_ids.items()), columns=['Kanal', 'ID'])\n",
         "\n",

src/04_use_case/forum/buergergeld_forum.ipynb CHANGED Viewed

@@ -95,6 +95,31 @@
         "Um das wiederholte Abfragen gleicher Inhalte zu vermeiden, können die gesammelten Seiten als Ordner heruntergeladen werden: [buergergeld_forum.zip](https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/resolve/main/src/assets/buergergeld_forum.zip)"
       ]
     },
     {
       "cell_type": "markdown",
       "metadata": {},

         "Um das wiederholte Abfragen gleicher Inhalte zu vermeiden, können die gesammelten Seiten als Ordner heruntergeladen werden: [buergergeld_forum.zip](https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/resolve/main/src/assets/buergergeld_forum.zip)"
       ]
     },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "# prompt: lade die datei von https://www.google.com/url?q=https%3A%2F%2Fhuggingface.co%2Fspaces%2Fdatenwerkzeuge%2FCDL-Webscraping-Workshop-2025%2Fresolve%2Fmain%2Fsrc%2Fassets%2Fbuergergeld_forum.zip und entpacke sie im wurzel ordner \"buergergeld_forum\"\n",
+        "\n",
+        "import requests\n",
+        "import os\n",
+        "from io import BytesIO\n",
+        "from zipfile import ZipFile\n",
+        "\n",
+        "# Download the zip file\n",
+        "url = \"https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/resolve/main/src/assets/buergergeld_forum.zip\"\n",
+        "response = requests.get(url)\n",
+        "response.raise_for_status()  # Raise an exception for bad status codes\n",
+        "\n",
+        "# Extract the zip file\n",
+        "with ZipFile(BytesIO(response.content)) as zip_file:\n",
+        "  zip_file.extractall(\"buergergeld_forum\")\n",
+        "\n",
+        "print(\"File downloaded and extracted successfully!\")"
+      ]
+    },
     {
       "cell_type": "markdown",
       "metadata": {},

src/04_use_case/laws/Gesetze_im_Internet_Aktualitätendienst.ipynb CHANGED Viewed

@@ -53,7 +53,7 @@
       "source": [
         "# prompt: installiere die bibliothek feedparser\n",
         "\n",
-        "# !pip install feedparser\n"
       ]
     },
     {

       "source": [
         "# prompt: installiere die bibliothek feedparser\n",
         "\n",
+        "! pip install feedparser\n"
       ]
     },
     {