Spaces:

anpigon
/

langchain-qa-bot

Running

App Files Files Community

langchain-qa-bot / download_wikidocs.py

anpigon

feat: Add script to download content from Wikidocs

e05a89c 7 months ago

raw

history blame

2.31 kB

	import time
	import requests
	from bs4 import BeautifulSoup
	import re
	from markdownify import markdownify as md
	import pandas as pd
	import argparse


	def extract_content(url: str):
	response = requests.get(url)
	soup = BeautifulSoup(response.content, "html.parser")

	page_subject = soup.select_one("#load_content .page-subject")
	page_content = soup.select_one("#load_content .page-content")
	markdown_content = md(
	str(page_subject) + str(page_content),
	heading_style="ATX",
	bullets="-",
	strong_em_symbol="*",
	code_language="python",
	escape_asterisks=False,
	escape_underscores=False,
	)
	normalized_text = re.sub(r"\n{2}", "\n", markdown_content)

	return normalized_text


	def main(ebook_url):
	base_url = "https://wikidocs.net"

	# book_id 추출
	book_id = ebook_url.split("/")[-1]

	# 페이지 소스 가져오기
	response = requests.get(ebook_url)
	response.raise_for_status() # 예외 처리
	soup = BeautifulSoup(response.content, "html.parser")

	# 목차에서 'a' 태그만 가져오기
	toc = soup.select(".list-group-toc a[href^='javascript:page(']")

	# 추출한 데이터 저장할 리스트
	data_list = []
	for item in toc:
	title = item.get_text(strip=True)
	page_id = item.get("href").split("page(")[-1].rstrip(")")
	link = f"{base_url}/{page_id}"
	data_list.append({"title": title, "link": link})

	# 데이터 리스트를 순회하며 콘텐츠 추출
	for item in data_list[1:]:
	item["content"] = extract_content(item["link"])
	time.sleep(1) # 페이지 로드를 위해 대기

	# 데이터프레임으로 변환
	df = pd.DataFrame(data_list)
	df = df.dropna(subset=["content"])

	# 데이터프레임을 parquet 파일로 저장
	parquet_filename = f"wikidocs_{book_id}.parquet"
	df.to_parquet(parquet_filename, index=False)

	print(f"파일이 성공적으로 저장되었습니다: {parquet_filename}")


	if __name__ == "__main__":
	# 명령어 줄 인자 처리
	parser = argparse.ArgumentParser(description="Wikidocs ebook URL을 입력하세요.")
	parser.add_argument("ebook_url", type=str, help="Wikidocs ebook URL")
	args = parser.parse_args()

	main(args.ebook_url)