Spaces:

DrGabrielLopez
/

BERTopic

Sleeping

DrGabrielLopez commited on Mar 24, 2023

Commit

bd9233d

•

1 Parent(s): efbae10

add

Files changed (1) hide show

app.py CHANGED Viewed

@@ -25,12 +25,11 @@ ARTICLE = r"""<center>
  </center>"""
-# load data
-def load_data(file_path):
  """Load dataset (keep only 500 rows for efficiency)"""
- data = pd.read_csv(file_path, error_bad_lines=False, nrows=500)
  assert "text" in data.columns, "The data must have a column named 'text'"
- return data
 def run_nlp_processing(data):
@@ -147,7 +146,7 @@ with blocks:
  topics_text = gr.Textbox(label="Topics", lines=50)
  gr.Markdown(ARTICLE)
  # event listeners
- in_file = in_file.upload(inputs=in_file.value, outputs=in_data, fn=load_data)
  # submit_button.click(inputs=in_data, outputs=out_dataset, fn=run_bert_tokenization)
  # out_dataset.change(inputs=out_dataset, outputs=embedding_plot, fn=run_bertopic)

  </center>"""
+def load_data(fileobj):
  """Load dataset (keep only 500 rows for efficiency)"""
+ data = pd.read_csv(fileobj, on_bad_lines='skip', nrows=500)
  assert "text" in data.columns, "The data must have a column named 'text'"
+ return data[['text']]
 def run_nlp_processing(data):
  topics_text = gr.Textbox(label="Topics", lines=50)
  gr.Markdown(ARTICLE)
  # event listeners
+ in_file = in_file.upload(inputs=in_file, outputs=in_data, fn=load_data)
  # submit_button.click(inputs=in_data, outputs=out_dataset, fn=run_bert_tokenization)
  # out_dataset.change(inputs=out_dataset, outputs=embedding_plot, fn=run_bertopic)