Spaces:

datasets-topics
/

topics-generator

Running on T4

asoria HF staff commited on Oct 2

Commit

10cefed

•

1 Parent(s): 36d36ac

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -19,6 +19,7 @@ logging.basicConfig(
 session = requests.Session()
 def get_parquet_urls(dataset, config, split):
@@ -41,7 +42,7 @@ def get_docs_from_parquet(parquet_urls, column, offset, limit):
 @spaces.GPU
-def calculate_embeddings(sentence_model, docs):
     embeddings = sentence_model.encode(docs, show_progress_bar=True, batch_size=100)
     logging.info(f"Embeddings shape: {embeddings.shape}")
     return embeddings
@@ -91,11 +92,10 @@ def generate_topics(dataset, config, split, column, nested_column):
     # Create instances of GPU-accelerated UMAP and HDBSCAN
     # umap_model = UMAP(n_components=5, n_neighbors=15, min_dist=0.0)
     # hdbscan_model = HDBSCAN(min_samples=10, gen_min_span_tree=True)
-    sentence_model = SentenceTransformer("all-MiniLM-L6-v2")
     while True:
         docs = get_docs_from_parquet(parquet_urls, column, offset, chunk_size)
         logging.info(f"------------> New chunk data {offset=} {chunk_size=}")
-        embeddings = calculate_embeddings(sentence_model, docs)
         offset = offset + chunk_size
         if not docs or offset >= limit:
             break

 session = requests.Session()
+sentence_model = SentenceTransformer("all-MiniLM-L6-v2")
 def get_parquet_urls(dataset, config, split):
 @spaces.GPU
+def calculate_embeddings(docs):
     embeddings = sentence_model.encode(docs, show_progress_bar=True, batch_size=100)
     logging.info(f"Embeddings shape: {embeddings.shape}")
     return embeddings
     # Create instances of GPU-accelerated UMAP and HDBSCAN
     # umap_model = UMAP(n_components=5, n_neighbors=15, min_dist=0.0)
     # hdbscan_model = HDBSCAN(min_samples=10, gen_min_span_tree=True)
     while True:
         docs = get_docs_from_parquet(parquet_urls, column, offset, chunk_size)
         logging.info(f"------------> New chunk data {offset=} {chunk_size=}")
+        embeddings = calculate_embeddings(docs)
         offset = offset + chunk_size
         if not docs or offset >= limit:
             break