abdev-leaderboard

Running

App Files Files Community

pquintero commited on Aug 12

Commit

f412a50

1 Parent(s): b2a1e67

check all abs are present and rm redundant validation

Browse files

Files changed (3) hide show

constants.py +0 -1
test/test_validation.py +3 -6
validation.py +9 -43

constants.py CHANGED Viewed

@@ -30,7 +30,6 @@ ASSAY_EMOJIS = {
 }
 # Input CSV file requirements
-MINIMAL_NUMBER_OF_ROWS: int = 50
 REQUIRED_COLUMNS: list[str] = [
     "antibody_name",
     "vh_protein_sequence",

 }
 # Input CSV file requirements
 REQUIRED_COLUMNS: list[str] = [
     "antibody_name",
     "vh_protein_sequence",

test/test_validation.py CHANGED Viewed

@@ -71,14 +71,11 @@ class TestValidateDataframe:
         assert "CSV file is empty" in str(exc_info.value)
-    def test_insufficient_rows_raises_error(self, valid_input_dataframe):
-        df = valid_input_dataframe.head(MINIMAL_NUMBER_OF_ROWS - 1)
         with pytest.raises(gr.Error) as exc_info:
             validate_dataframe(df)
-        assert f"CSV should have at least {MINIMAL_NUMBER_OF_ROWS} rows" in str(
-            exc_info.value
-        )
     def test_missing_values_raises_error(self, valid_input_dataframe):
         bad_column = REQUIRED_COLUMNS[0]

         assert "CSV file is empty" in str(exc_info.value)
+    def test_missing_antibodies_raises_error(self, valid_input_dataframe):
+        df = valid_input_dataframe.head(50)
         with pytest.raises(gr.Error) as exc_info:
             validate_dataframe(df)
+        assert "Missing predictions for" in str(exc_info.value)
     def test_missing_values_raises_error(self, valid_input_dataframe):
         bad_column = REQUIRED_COLUMNS[0]

validation.py CHANGED Viewed

@@ -3,7 +3,6 @@ import io
 import gradio as gr
 from constants import (
     REQUIRED_COLUMNS,
-    MINIMAL_NUMBER_OF_ROWS,
     ASSAY_LIST,
     CV_COLUMN,
     EXAMPLE_FILE_DICT,
@@ -64,16 +63,6 @@ def validate_cv_submission(df: pd.DataFrame, submission_type: str = "GDPa1_CV")
         how="left",
         suffixes=("_expected", "_submitted"),
     )
-    # All antibodies should be present if using CV
-    missing_antibodies_mask = antibody_check[f"{CV_COLUMN}_submitted"].isna()
-    n_missing_antibodies = missing_antibodies_mask.sum()
-    if n_missing_antibodies > 0:
-        missing_antibodies = (
-            antibody_check[missing_antibodies_mask]["antibody_name"].head(5).tolist()
-        )
-        raise gr.Error(
-            f"❌ Missing predictions for {n_missing_antibodies} antibodies. Examples: {', '.join(missing_antibodies)}"
-        )
     # CV fold assignments should match
     fold_mismatches = antibody_check[
         antibody_check[f"{CV_COLUMN}_expected"]
@@ -89,26 +78,6 @@ def validate_cv_submission(df: pd.DataFrame, submission_type: str = "GDPa1_CV")
             f"❌ Fold assignments don't match canonical CV folds: {'; '.join(examples)}"
         )
-    # Merge on both columns for assay validation
-    merged_cv_df = expected_cv_df.merge(df, on=["antibody_name", CV_COLUMN], how="left")
-    # Check for missing assay predictions
-    assay_columns = get_assay_columns(merged_cv_df)
-    for assay_column in assay_columns:
-        missing_antibodies = merged_cv_df[merged_cv_df[assay_column].isna()][
-            "antibody_name"
-        ].unique()
-        if len(missing_antibodies) > 0:
-            raise gr.Error(
-                f"❌ Missing {assay_column} predictions for {len(missing_antibodies)} antibodies: {', '.join(missing_antibodies[:5])}"
-            )
-    # Step 5: Check that submission length matches expected
-    if len(merged_cv_df) != len(expected_cv_df):
-        raise gr.Error(
-            f"❌ Expected {len(expected_cv_df)} rows, got {len(merged_cv_df)}"
-        )
 def validate_full_dataset_submission(df: pd.DataFrame) -> None:
     """Validate full dataset submission"""
@@ -118,13 +87,6 @@ def validate_full_dataset_submission(df: pd.DataFrame) -> None:
             "Please select 'Cross-Validation Predictions' if you want to submit CV results."
         )
-    # All names should be unique (duplicates check from original validation)
-    n_duplicates = df["antibody_name"].duplicated().sum()
-    if n_duplicates > 0:
-        raise gr.Error(
-            f"❌ Standard submissions should have only one prediction per antibody. Found {n_duplicates} duplicates."
-        )
 def get_assay_columns(df: pd.DataFrame) -> list[str]:
     """Get all assay columns from the DataFrame"""
@@ -174,17 +136,12 @@ def validate_dataframe(df: pd.DataFrame, submission_type: str = "GDPa1") -> None
         if missing_count > 0:
             raise gr.Error(f"❌ Column '{col}' contains {missing_count} missing values")
-    # Above minimal number of rows
-    if len(df) < MINIMAL_NUMBER_OF_ROWS:
-        raise gr.Error(f"❌ CSV should have at least {MINIMAL_NUMBER_OF_ROWS} rows")
     # All names should be unique
     n_duplicates = df["antibody_name"].duplicated().sum()
     if n_duplicates > 0:
         raise gr.Error(
             f"❌ CSV should have only one row per antibody. Found {n_duplicates} duplicates."
         )
     # All antibody names should be recognizable
     unrecognized_antibodies = set(df["antibody_name"]) - set(
         ANTIBODY_NAMES_DICT[submission_type]
@@ -193,6 +150,15 @@ def validate_dataframe(df: pd.DataFrame, submission_type: str = "GDPa1") -> None
         raise gr.Error(
             f"❌ Found unrecognized antibody names: {', '.join(unrecognized_antibodies)}"
         )
     # Submission-type specific validation
     if submission_type.endswith("_CV"):
         validate_cv_submission(df, submission_type)

 import gradio as gr
 from constants import (
     REQUIRED_COLUMNS,
     ASSAY_LIST,
     CV_COLUMN,
     EXAMPLE_FILE_DICT,
         how="left",
         suffixes=("_expected", "_submitted"),
     )
     # CV fold assignments should match
     fold_mismatches = antibody_check[
         antibody_check[f"{CV_COLUMN}_expected"]
             f"❌ Fold assignments don't match canonical CV folds: {'; '.join(examples)}"
         )
 def validate_full_dataset_submission(df: pd.DataFrame) -> None:
     """Validate full dataset submission"""
             "Please select 'Cross-Validation Predictions' if you want to submit CV results."
         )
 def get_assay_columns(df: pd.DataFrame) -> list[str]:
     """Get all assay columns from the DataFrame"""
         if missing_count > 0:
             raise gr.Error(f"❌ Column '{col}' contains {missing_count} missing values")
     # All names should be unique
     n_duplicates = df["antibody_name"].duplicated().sum()
     if n_duplicates > 0:
         raise gr.Error(
             f"❌ CSV should have only one row per antibody. Found {n_duplicates} duplicates."
         )
     # All antibody names should be recognizable
     unrecognized_antibodies = set(df["antibody_name"]) - set(
         ANTIBODY_NAMES_DICT[submission_type]
         raise gr.Error(
             f"❌ Found unrecognized antibody names: {', '.join(unrecognized_antibodies)}"
         )
+    # All antibody names should be present
+    missing_antibodies = set(ANTIBODY_NAMES_DICT[submission_type]) - set(
+        df["antibody_name"]
+    )
+    if missing_antibodies:
+        raise gr.Error(
+            f"❌ Missing predictions for {len(missing_antibodies)} antibodies: {', '.join(missing_antibodies)}"
+        )
     # Submission-type specific validation
     if submission_type.endswith("_CV"):
         validate_cv_submission(df, submission_type)