Spaces:

techconspartners
/

ConversAI

Sleeping

Rauhan commited on Aug 23

Commit

6a1e988

•

1 Parent(s): d07d38d

UPDATE: base64 encodings

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import io
 import tempfile
 import jwt
 from click import option
 from jwt import ExpiredSignatureError, InvalidTokenError
 from starlette import status
@@ -273,8 +274,16 @@ async def returnText(pdf: UploadFile = File(...)):
  }
 @app.post("/addText")
-async def addText(vectorstore: str, text: str, source: str = "Text"):
  username, chatbotname = vectorstore.split("$")[1], vectorstore.split("$")[2]
  df = pd.DataFrame(supabase.table("ConversAI_ChatbotInfo").select("*").execute().data)
  currentCount = df[(df["user_id"] == username) & (df["chatbotname"] == chatbotname)]["charactercount"].iloc[0]

 import io
 import tempfile
 import jwt
+import base64
 from click import option
 from jwt import ExpiredSignatureError, InvalidTokenError
 from starlette import status
  }
+class AddText(BaseModel):
+ vectorstore: str
+ text: str
+ source: str = "Text"
 @app.post("/addText")
+async def addText(addTextConfig: AddText):
+ vectorstore, text, source = addTextConfig.vectorstore, addTextConfig.text, addTextConfig.source
+ text = base64.b64decode(text.encode("utf-8")).decode("utf-8")
  username, chatbotname = vectorstore.split("$")[1], vectorstore.split("$")[2]
  df = pd.DataFrame(supabase.table("ConversAI_ChatbotInfo").select("*").execute().data)
  currentCount = df[(df["user_id"] == username) & (df["chatbotname"] == chatbotname)]["charactercount"].iloc[0]

functions.py CHANGED Viewed

@@ -288,7 +288,7 @@ def getTextFromImagePDF(pdfBytes):
  return "\n".join([text[1] for text in reader.readtext(np.array(image), paragraph=True)])
  allImages = convert_from_bytes(pdfBytes)
- texts = [getText(image) for image in allImages]
  return {x + 1: y for x, y in enumerate(texts)}
@@ -304,6 +304,7 @@ def getTranscript(urls: str):
  except:
  doc = ""
  texts.append(doc)
  return {x: y for x, y in zip(urls, texts)}
@@ -321,7 +322,8 @@ def analyzeData(query, dataframe):
 def extractTextFromPage(page):
- return page.get_text()
 def extractTextFromPdf(pdf_path):
@@ -338,7 +340,8 @@ def extractTextFromUrl(url):
  response.raise_for_status()
  html = response.text
  soup = BeautifulSoup(html, 'lxml')
- return soup.get_text(separator=' ', strip=True)
 def extractTextFromUrlList(urls):

  return "\n".join([text[1] for text in reader.readtext(np.array(image), paragraph=True)])
  allImages = convert_from_bytes(pdfBytes)
+ texts = [base64.b64encode(getText(image).encode("utf-8")).decode("utf-8") for image in allImages]
  return {x + 1: y for x, y in enumerate(texts)}
  except:
  doc = ""
  texts.append(doc)
+ texts = [base64.b64encode(text.encode("utf-8")).decode("utf-8") for text in texts]
  return {x: y for x, y in zip(urls, texts)}
 def extractTextFromPage(page):
+ text = page.get_text()
+ return base64.b64encode(text.encode("utf-8")).decode("utf-8")
 def extractTextFromPdf(pdf_path):
  response.raise_for_status()
  html = response.text
  soup = BeautifulSoup(html, 'lxml')
+ text = soup.get_text(separator=' ', strip=True)
+ return base64.b64encode(text.encode("utf-8")).decode("utf-8")
 def extractTextFromUrlList(urls):