Spaces:

datasets-topics
/

topics-generator

Sleeping

App Files Files Community

asoria HF staff commited on Oct 17, 2024

Commit

2269797

1 Parent(s): e65c78c

Disable ZeroGPU

Browse files

Files changed (1) hide show

app.py +7 -14

app.py CHANGED Viewed

@@ -7,7 +7,7 @@ from transformers import (
 )
 # These imports at the end because of torch/datamapplot issue in Zero GPU
-import spaces
 import gradio as gr
 import logging
@@ -93,8 +93,6 @@ representation_model = TextGeneration(generator, prompt=REPRESENTATION_PROMPT)
 vectorizer_model = CountVectorizer(stop_words="english")
-global_topic_model = None
 def get_split_rows(dataset, config, split):
     config_size = session.get(
@@ -131,7 +129,7 @@ def get_docs_from_parquet(parquet_urls, column, offset, limit):
     return df[column].tolist()
-@spaces.GPU
 def calculate_embeddings(docs):
     return sentence_model.encode(docs, show_progress_bar=True, batch_size=32)
@@ -142,10 +140,8 @@ def calculate_n_neighbors_and_components(n_rows):
     return n_neighbors, n_components
-@spaces.GPU
 def fit_model(docs, embeddings, n_neighbors, n_components):
-    global global_topic_model
     umap_model = UMAP(
         n_neighbors=n_neighbors,
         n_components=n_components,
@@ -180,9 +176,7 @@ def fit_model(docs, embeddings, n_neighbors, n_components):
     new_model.fit(docs, embeddings)
     logging.info("End fitting new model")
-    global_topic_model = new_model
-    logging.info("Global model updated")
 def _push_to_hub(
@@ -207,7 +201,6 @@ def _push_to_hub(
 def generate_topics(dataset, config, split, column, nested_column, plot_type):
-    global global_topic_model
     logging.info(
         f"Generating topics for {dataset} with config {config} {split} {column} {nested_column}"
     )
@@ -257,12 +250,12 @@ def generate_topics(dataset, config, split, column, nested_column, plot_type):
         )
         embeddings = calculate_embeddings(docs)
-        fit_model(docs, embeddings, n_neighbors, n_components)
         if base_model is None:
-            base_model = global_topic_model
         else:
-            updated_model = BERTopic.merge_models([base_model, global_topic_model])
             nr_new_topics = len(set(updated_model.topics_)) - len(
                 set(base_model.topics_)
             )

 )
 # These imports at the end because of torch/datamapplot issue in Zero GPU
+# import spaces
 import gradio as gr
 import logging
 vectorizer_model = CountVectorizer(stop_words="english")
 def get_split_rows(dataset, config, split):
     config_size = session.get(
     return df[column].tolist()
+# @spaces.GPU
 def calculate_embeddings(docs):
     return sentence_model.encode(docs, show_progress_bar=True, batch_size=32)
     return n_neighbors, n_components
+# @spaces.GPU
 def fit_model(docs, embeddings, n_neighbors, n_components):
     umap_model = UMAP(
         n_neighbors=n_neighbors,
         n_components=n_components,
     new_model.fit(docs, embeddings)
     logging.info("End fitting new model")
+    return new_model
 def _push_to_hub(
 def generate_topics(dataset, config, split, column, nested_column, plot_type):
     logging.info(
         f"Generating topics for {dataset} with config {config} {split} {column} {nested_column}"
     )
         )
         embeddings = calculate_embeddings(docs)
+        new_model = fit_model(docs, embeddings, n_neighbors, n_components)
         if base_model is None:
+            base_model = new_model
         else:
+            updated_model = BERTopic.merge_models([base_model, new_model])
             nr_new_topics = len(set(updated_model.topics_)) - len(
                 set(base_model.topics_)
             )