Spaces:

LeeRuben
/

lc

Sleeping

LeeRuben commited on Nov 20, 2023

Commit

197a291

1 Parent(s): e00b8ee

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -13,6 +13,8 @@ from langchain.llms import HuggingFaceHub, LlamaCpp, CTransformers  # For loadin
 from langchain.document_loaders import PyPDFLoader, TextLoader, JSONLoader, CSVLoader
 import tempfile # 임시 파일을 생성하기 위한 라이브러리입니다.
 import os
 # PDF 문서로부터 텍스트를 추출하는 함수입니다.
@@ -29,13 +31,31 @@ def get_pdf_text(pdf_docs):
 # 아래 텍스트 추출 함수를 작성
 def get_text_file(docs):
-    pass
 def get_csv_file(docs):
-    pass
 def get_json_file(docs):
-    pass
 # 문서들을 처리하여 텍스트 청크로 나누는 함수입니다.

 from langchain.document_loaders import PyPDFLoader, TextLoader, JSONLoader, CSVLoader
 import tempfile # 임시 파일을 생성하기 위한 라이브러리입니다.
 import os
+import pandas as pd
+import json
 # PDF 문서로부터 텍스트를 추출하는 함수입니다.
 # 아래 텍스트 추출 함수를 작성
 def get_text_file(docs):
+    text_list = []
+    for doc in docs:
+        text = doc.getvalue().decode('utf-8')  # UTF-8 형식으로 인코딩된 텍스트 읽기
+        text_list.append(text)
+    return text_list
 def get_csv_file(docs):
+    text_list = []
+    for doc in docs:
+        df = pd.read_csv(doc)
+        # CSV 파일의 특정 열이나 행에서 텍스트 추출
+        # 예시: 첫 번째 열의 데이터를 텍스트로 변환
+        text = ' '.join(df.iloc[:, 0].astype(str).tolist())
+        text_list.append(text)
+    return text_list
 def get_json_file(docs):
+    text_list = []
+    for doc in docs:
+        data = json.load(doc)
+        # JSON 파일의 필요한 키에서 텍스트 추출
+        # 예시: 'text' 키에서 텍스트 추출
+        text = data.get('text', '')  # 필요한 키 입력
+        text_list.append(text)
+    return text_list
 # 문서들을 처리하여 텍스트 청크로 나누는 함수입니다.