Spaces:

acmc
/

Universities-Explorer

Sleeping

App Files Files Community

acmc commited on Apr 14, 2024

Commit

36c5b68

1 Parent(s): cdd672b

new model

Browse files

Files changed (5) hide show

app.py +57 -43
institutions.csv +0 -0
model/.data-00000-of-00001 +2 -2
model/.index +2 -2
model/model_metadata.ampkl +2 -2

app.py CHANGED Viewed

@@ -98,7 +98,8 @@ def process_user_input_concept(concept_chooser):
     ]
     chosen_concepts = separate_concepts(concept_chooser)
-    all_similarities = []
     for concept in chosen_concepts:
         s = all_ids_institutions[:, 0]
         p = np.array(["urn:acmcmc:unis:institution_related_to_concept"] * len(s))
@@ -107,29 +108,42 @@ def process_user_input_concept(concept_chooser):
         array_of_triples = np.array([s, p, o]).T
         scores = get_similarities_to_node(array_of_triples, model)
-        all_similarities.append(scores)
     # Now, average the similarities
-    scores = np.stack(all_similarities, axis=0)
     scores = np.mean(all_similarities, axis=0)
     table_df = pd.DataFrame(
         {
-            "institution": s,
-            "similarity": scores.flatten(),
-            "institution_name": all_ids_institutions[:, 1],
             # "num_articles": all_ids_institutions[:, 2].astype(int),
         }
     )
-    # Sort by number of articles
-    table_df = table_df.sort_values(by=["similarity"], ascending=False)
     concept_names = [get_concept_name(concept_uri) for concept_uri in chosen_concepts]
     return (
         table_df,
         gr.update(visible=True),
         gr.update(visible=True),
-        gr.update(visible=True),
-        f'Concept names: {", ".join(concept_names)}',
     )
@@ -137,7 +151,7 @@ def calculate_emdeddings_and_pca(table):
     gr.Info("Performing PCA and clustering...")
     # Perform PCA
     embeddings_of_institutions = model.get_embeddings(
-        entities=np.array(table["institution"])
     )
     entity_embeddings_pca = pca(embeddings_of_institutions)
@@ -147,9 +161,9 @@ def calculate_emdeddings_and_pca(table):
     plot_df = pd.DataFrame(
         {
-            "embedding1": entity_embeddings_pca[:, 0],
-            "embedding2": entity_embeddings_pca[:, 1],
-            "cluster": "cluster" + pd.Series(clusters).astype(str),
         }
     )
@@ -159,16 +173,16 @@ def calculate_emdeddings_and_pca(table):
 def click_on_institution(table, embeddings_var, evt: gr.SelectData):
-    institution_id = table["institution"][evt.index[0]]
     try:
         embeddings_df = embeddings_var["embeddings_df"]
         plot_df = pd.DataFrame(
             {
-                "institution": table["institution"].values,
-                "institution_name": table["institution_name"].values,
-                "embedding1": embeddings_df["embedding1"].values,
-                "embedding2": embeddings_df["embedding2"].values,
-                "cluster": embeddings_df["cluster"].values,
                 # "num_articles": table["num_articles"].values,
             }
         )
@@ -182,11 +196,11 @@ def click_on_show_plot(table):
     plot_df = pd.DataFrame(
         {
-            "institution": table["institution"].values,
-            "institution_name": table["institution_name"].values,
-            "embedding1": embeddings_df["embedding1"].values,
-            "embedding2": embeddings_df["embedding2"].values,
-            "cluster": embeddings_df["cluster"].values,
             # "num_articles": table["num_articles"].values,
         }
     )
@@ -201,17 +215,17 @@ def plot_embeddings(plot_df, institution_id):
     # fig.title("{} embeddings".format(parameter).capitalize())
     ax = sns.scatterplot(
         data=plot_df,
-        x="embedding1",
-        y="embedding2",
-        hue="cluster",
     )
-    row_of_institution = plot_df[plot_df["institution"] == institution_id]
     if not row_of_institution.empty:
         ax.text(
-            row_of_institution["embedding1"],
-            row_of_institution["embedding2"],
-            row_of_institution["institution_name"].values[0],
             horizontalalignment="left",
             size="medium",
             color="black",
@@ -219,20 +233,20 @@ def plot_embeddings(plot_df, institution_id):
         )
         # Also draw a point for the institution
         ax.scatter(
-            row_of_institution["embedding1"],
-            row_of_institution["embedding2"],
             color="black",
             s=100,
             marker="x",
         )
     # texts = []
     # for i, point in plot_df.iterrows():
-    #    if point["institution"] == institution_id:
     #        texts.append(
     #            fig.text(
-    #                point["embedding1"] + 0.02,
-    #                point["embedding2"] + 0.01,
-    #                str(point["institution_name"]),
     #            )
     #        )
     # adjust_text(texts)
@@ -243,9 +257,9 @@ def get_authors_of_institution(institutions_table, concept_chooser, evt: gr.Sele
     """
     Get the authors of an institution
     """
-    institution = institutions_table["institution"][0]
     number_of_row = evt.index[0]
-    institution = institutions_table["institution"][number_of_row]
     concepts = separate_concepts(concept_chooser)
     results_dfs = []
     for concept in concepts:
@@ -255,7 +269,7 @@ def get_authors_of_institution(institutions_table, concept_chooser, evt: gr.Sele
             WHERE {{
                     ?author a <urn:acmcmc:unis:Author> .
                     ?author <urn:acmcmc:unis:name> ?name .
-                    ?article <urn:acmcmc:unis:written_in_institution> <{institution}> .
                     ?article <urn:acmcmc:unis:has_author> ?author .
                     ?article <urn:acmcmc:unis:related_to_concept> <{concept}> .
             }}
@@ -324,8 +338,8 @@ with gr.Blocks(theme=theme) as demo:
             table,
             btn_plot_embeddings,
             plot_embeddings_info,
-            concept_name_label,
-            concept_name_label,
         ],
         queue=True,
     )

     ]
     chosen_concepts = separate_concepts(concept_chooser)
+    chosen_concepts_names = [get_concept_name(concept) for concept in chosen_concepts]
+    all_similarities = {}
     for concept in chosen_concepts:
         s = all_ids_institutions[:, 0]
         p = np.array(["urn:acmcmc:unis:institution_related_to_concept"] * len(s))
         array_of_triples = np.array([s, p, o]).T
         scores = get_similarities_to_node(array_of_triples, model)
+        all_similarities[concept] = scores
     # Now, average the similarities
+    scores = np.stack(list(all_similarities.values()), axis=0)
     scores = np.mean(all_similarities, axis=0)
     table_df = pd.DataFrame(
         {
+            "Institution": s,
+            "Mean similarity": scores.flatten(),
+            "Institution name": all_ids_institutions[:, 1],
             # "num_articles": all_ids_institutions[:, 2].astype(int),
         }
     )
+    # Add the individual similarities
+    for i, concept in enumerate(chosen_concepts):
+        table_df[f"Similarity to {chosen_concepts_names[i]}"] = all_similarities[concept]
+    # Reorder the columns so that the mean similarity is after the individual similarities and before the institution name
+    table_df = table_df[
+        ["Institution"]
+        + [f"Similarity to {chosen_concepts_names[i]}" for i in range(len(chosen_concepts))]
+        + ["Mean similarity", "Institution name"]
+    ]
+    # Sort by mean similarity
+    table_df = table_df.sort_values(by=["Mean similarity"], ascending=False)
     concept_names = [get_concept_name(concept_uri) for concept_uri in chosen_concepts]
     return (
         table_df,
         gr.update(visible=True),
         gr.update(visible=True),
+        #gr.update(visible=True),
+        #f'Concept names: {", ".join(concept_names)}',
     )
     gr.Info("Performing PCA and clustering...")
     # Perform PCA
     embeddings_of_institutions = model.get_embeddings(
+        entities=np.array(table["Institution"])
     )
     entity_embeddings_pca = pca(embeddings_of_institutions)
     plot_df = pd.DataFrame(
         {
+            "Embedding (coord 1)": entity_embeddings_pca[:, 0],
+            "Embedding (coord 2)": entity_embeddings_pca[:, 1],
+            "Cluster": "Cluster" + pd.Series(clusters).astype(str),
         }
     )
 def click_on_institution(table, embeddings_var, evt: gr.SelectData):
+    institution_id = table["Institution"][evt.index[0]]
     try:
         embeddings_df = embeddings_var["embeddings_df"]
         plot_df = pd.DataFrame(
             {
+                "Institution": table["Institution"].values,
+                "Institution name": table["Institution name"].values,
+                "Embedding (coord 1)": embeddings_df["Embedding (coord 1)"].values,
+                "Embedding (coord 2)": embeddings_df["Embedding (coord 2)"].values,
+                "Cluster": embeddings_df["Cluster"].values,
                 # "num_articles": table["num_articles"].values,
             }
         )
     plot_df = pd.DataFrame(
         {
+            "Institution": table["Institution"].values,
+            "Institution_name": table["Institution Name"].values,
+            "Embedding (coord 1)": embeddings_df["Embedding (coord 1)"].values,
+            "Embedding (coord 2)": embeddings_df["Embedding (coord 2)"].values,
+            "Cluster": embeddings_df["Cluster"].values,
             # "num_articles": table["num_articles"].values,
         }
     )
     # fig.title("{} embeddings".format(parameter).capitalize())
     ax = sns.scatterplot(
         data=plot_df,
+        x="Embedding (coord 1)",
+        y="Embedding (coord 2)",
+        hue="Cluster",
     )
+    row_of_institution = plot_df[plot_df["Institution"] == institution_id]
     if not row_of_institution.empty:
         ax.text(
+            row_of_institution["Embedding (coord 1)"],
+            row_of_institution["Embedding (coord 2)"],
+            row_of_institution["Institution name"].values[0],
             horizontalalignment="left",
             size="medium",
             color="black",
         )
         # Also draw a point for the institution
         ax.scatter(
+            row_of_institution["Embedding (coord 1)"],
+            row_of_institution["Embedding (coord 2)"],
             color="black",
             s=100,
             marker="x",
         )
     # texts = []
     # for i, point in plot_df.iterrows():
+    #    if point["Institution"] == institution_id:
     #        texts.append(
     #            fig.text(
+    #                point["Embedding (coord 1)"] + 0.02,
+    #                point["Embedding (coord 2)"] + 0.01,
+    #                str(point["Institution name"]),
     #            )
     #        )
     # adjust_text(texts)
     """
     Get the authors of an institution
     """
+    institution = institutions_table["Institution"][0]
     number_of_row = evt.index[0]
+    institution = institutions_table["Institution"][number_of_row]
     concepts = separate_concepts(concept_chooser)
     results_dfs = []
     for concept in concepts:
             WHERE {{
                     ?author a <urn:acmcmc:unis:Author> .
                     ?author <urn:acmcmc:unis:name> ?name .
+                    ?article <urn:acmcmc:unis:written_in_institution> <{Institution}> .
                     ?article <urn:acmcmc:unis:has_author> ?author .
                     ?article <urn:acmcmc:unis:related_to_concept> <{concept}> .
             }}
             table,
             btn_plot_embeddings,
             plot_embeddings_info,
+            #concept_name_label,
+            #concept_name_label,
         ],
         queue=True,
     )

institutions.csv CHANGED Viewed

The diff for this file is too large to render. See raw diff

model/.data-00000-of-00001 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5ded6f0bf7985926646dd021e03e008d0f8779f606e4010f0ab89cf8687e943
-size 87725277

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa8f3d8bd8f7a741cfe1ef560e5d2f894314342b51ec9a60844d5fc796b8e0c5
+size 2350332477

model/.index CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d9027e082ae75293bde304a2044fbd0549aa0bd1b43d3483c7c28b0ab7bc72b
-size 291

 version https://git-lfs.github.com/spec/v1
+oid sha256:364d14e1bb0830e861ef9c87ee188e8b00f90eea93ea07f828d69c3daa0a4139
+size 294

model/model_metadata.ampkl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7a052e205b870dba54d5a4b23c54f638d93e880c81b66e14ec1c6ae90d2cd33
-size 24656298

 version https://git-lfs.github.com/spec/v1
+oid sha256:95e4a9f0906a1e60acbe7771e223dae8fa88859afb65066cef0541c1cbc78378
+size 676909665