Spaces:

Hack90
/

virus_explorer

Sleeping

App Files Files Community

Hack90 commited on Aug 15, 2024

Commit

b18e1b5

verified ·

1 Parent(s): 569db9f

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -15

app.py CHANGED Viewed

@@ -23,15 +23,9 @@ mpl.rcParams.update(mpl.rcParamsDefault)
 df = pd.read_parquet('virus_ds.parquet')
 virus = df['Organism_Name'].unique()
 virus = {v: v for v in virus}
-df_new = pd.read_parquet("virus.parquet", columns= ['organism_name'])
-df_new = df_new.groupby('organism_name').apply(lambda x: x.head(100) if len(x) > 10 else None).reset_index(drop=True)
-filter_species = df_new.organism_name.value_counts().reset_index()[df_new.organism_name.value_counts().reset_index()['count'] > 40 ]['organism_name'][1:].tolist()
-df_old = pd.read_parquet("virus.parquet", columns =['seq', 'organism_name'])
-MASTER_DF = df_old[df_old['organism_name'].isin(filter_species)].copy()
-del df_new
-del df_old
-virus_new = {v: v for v in filter_species}
 loss_typesss = pd.read_csv("training_data_5.csv")['loss_type'].unique().tolist()
 model_typesss = pd.read_csv("training_data_5.csv")['model_type'].unique().tolist()
 param_typesss = pd.read_csv("training_data_5.csv")['param_type'].unique().tolist()
@@ -82,19 +76,15 @@ with ui.navset_card_tab(id="tab"):
                 return plot_persistence_homology(filtered_df["Sequence"], filtered_df["Organism_Name"])
     with ui.nav_panel("Viral Genome Distributions"):
-        ui.panel_title("How does sequence distribution vary across sequence length?")
         with ui.layout_columns():
             with ui.card():
                 ui.input_selectize("virus_selector_1", "Select your viruses:", virus_new, multiple=True, selected=None)
-            with ui.card():
-                ui.input_slider(
-                    "basepair","Select basepair",0, 10000, 15
-                )
         @render.plot()
         def plot_distro():
             df = MASTER_DF[MASTER_DF["organism_name"].isin(input.virus_selector_1())].copy()
-            grouped = df.groupby("organism_name")["seq"].apply(list)
             return plot_distrobutions(grouped, grouped.index, input.basepair())
     with ui.nav_panel("Viral Microstructure"):

 df = pd.read_parquet('virus_ds.parquet')
 virus = df['Organism_Name'].unique()
 virus = {v: v for v in virus}
+df_new = pd.read_parquet("distro.parquet", columns= ['organism_name']).tolist()
+MASTER_DF = pd.read_parquet("distro.parquet")
+virus_new = {v: v for v in df_new}
 loss_typesss = pd.read_csv("training_data_5.csv")['loss_type'].unique().tolist()
 model_typesss = pd.read_csv("training_data_5.csv")['model_type'].unique().tolist()
 param_typesss = pd.read_csv("training_data_5.csv")['param_type'].unique().tolist()
                 return plot_persistence_homology(filtered_df["Sequence"], filtered_df["Organism_Name"])
     with ui.nav_panel("Viral Genome Distributions"):
+        ui.panel_title("How does sequence distribution vary for a specie?")
         with ui.layout_columns():
             with ui.card():
                 ui.input_selectize("virus_selector_1", "Select your viruses:", virus_new, multiple=True, selected=None)
         @render.plot()
         def plot_distro():
             df = MASTER_DF[MASTER_DF["organism_name"].isin(input.virus_selector_1())].copy()
+            ax = sns.histplot(data=df, x='charts', hue='organism_name')
             return plot_distrobutions(grouped, grouped.index, input.basepair())
     with ui.nav_panel("Viral Microstructure"):