Spaces:

tunis-ai
/

TunisianEncoderModelsLeaderboard

Running

hamzabouajila commited on Jul 11

Commit

ead2260

1 Parent(s): f12b6ec

fix: Correct evaluation result mapping and display

- Update evaluation functions to return results with dataset names as keys
- Modify read_evals.py to map metric values correctly to dataset names
- Improve leaderboard display by:
- Increasing decimal precision to 4 places
- Re-enabling NaN value filtering
- Maintaining proper sorting by average score

Files changed (3) hide show

src/evaluator/evaluate.py +4 -4
src/leaderboard/read_evals.py +18 -8
src/populate.py +2 -4

src/evaluator/evaluate.py CHANGED Viewed

@@ -149,7 +149,7 @@ def evaluate_tsac_sentiment(model, tokenizer, device):
             print(f"Total predictions: {total}")
             print(f"Accuracy: {accuracy:.4f}")
-            return {"accuracy": accuracy}
     except Exception as e:
         print(f"\n=== Error in TSAC evaluation: {str(e)} ===")
         print(f"Full traceback: {traceback.format_exc()}")
@@ -187,7 +187,7 @@ def evaluate_tunisian_corpus_coverage(model, tokenizer, device):
         coverage = covered_tokens / total_tokens if total_tokens > 0 else 0
         print(f"Tunisian Corpus Coverage: {coverage:.2%}")
-        return {"coverage": coverage}
     except Exception as e:
         print(f"Error in Tunisian Corpus evaluation: {str(e)}")
         print(f"Full traceback: {traceback.format_exc()}")
@@ -289,8 +289,8 @@ def evaluate_model(model_name: str, revision: str, precision: str, weight_type:
                 precision=precision,
                 weight_type=weight_type,
                 results={
-                    **tsac_results,
-                    **tunisian_results
                 }
             )
         except Exception as e:

             print(f"Total predictions: {total}")
             print(f"Accuracy: {accuracy:.4f}")
+            return {"fbougares/tsac": accuracy}
     except Exception as e:
         print(f"\n=== Error in TSAC evaluation: {str(e)} ===")
         print(f"Full traceback: {traceback.format_exc()}")
         coverage = covered_tokens / total_tokens if total_tokens > 0 else 0
         print(f"Tunisian Corpus Coverage: {coverage:.2%}")
+        return {"arbml/Tunisian_Dialect_Corpus": coverage}
     except Exception as e:
         print(f"Error in Tunisian Corpus evaluation: {str(e)}")
         print(f"Full traceback: {traceback.format_exc()}")
                 precision=precision,
                 weight_type=weight_type,
                 results={
+                    Tasks.tsac_sentiment.value.metric: tsac_results.get(Tasks.tsac_sentiment.value.metric),
+                    Tasks.tunisian_corpus.value.metric: tunisian_results.get(Tasks.tunisian_corpus.value.metric)
                 }
             )
         except Exception as e:

src/leaderboard/read_evals.py CHANGED Viewed

@@ -154,9 +154,17 @@ class EvalResult:
             AutoEvalColumnInstance.still_on_hub.name: True if isinstance(self.still_on_hub, tuple) and self.still_on_hub[0] else False,
         }
         for task in Tasks:
-            data_dict[task.value.col_name] = self.results[task.value.benchmark]
         return data_dict
@@ -217,24 +225,26 @@ def get_raw_eval_results(results_path: str, requests_path: str) -> list[EvalResu
         # Store results of same eval together
         eval_name = eval_result.eval_name
         if eval_name in eval_results.keys():
             # If we already have results for this eval, append to list
             eval_results[eval_name].append(eval_result)
         else:
             # Initialize list for this eval name
             eval_results[eval_name] = [eval_result]
     # Process final results
     final_results = {}
     for eval_name, eval_list in eval_results.items():
         # Create merged results from all evaluations, ensuring all required task keys are present
-        merged_results = {task.value.benchmark: None for task in Tasks}
         for eval_result in eval_list:
             merged_results.update({k: v for k, v in eval_result.results.items() if v is not None})
         # Take the first eval_result as base and update with merged results
-        print("evaluation list : ", eval_list)
         base_result = eval_list[0]
         # print(base_result)
         final_results[eval_name] = EvalResult(
             eval_name=eval_name,
@@ -249,12 +259,12 @@ def get_raw_eval_results(results_path: str, requests_path: str) -> list[EvalResu
             date=base_result.date,
             still_on_hub=base_result.still_on_hub
         )
-        print(final_results)
     results = []
     for v in final_results.values():
-        print("v : ",v)
-        print("Merged results: ", v.results)
         try:
             v.to_dict()  # we test if the dict version is complete
             results.append(v)

             AutoEvalColumnInstance.still_on_hub.name: True if isinstance(self.still_on_hub, tuple) and self.still_on_hub[0] else False,
         }
+        # Map dataset names to their metric values
+        tsac_result = self.results.get("fbougares/tsac")
+        tunisian_result = self.results.get("arbml/Tunisian_Dialect_Corpus")
+        # Map metric values to their corresponding dataset names
         for task in Tasks:
+            if task.value.benchmark == "fbougares/tsac":
+                data_dict[task.value.col_name] = self.results.get("accuracy")
+            elif task.value.benchmark == "arbml/Tunisian_Dialect_Corpus":
+                data_dict[task.value.col_name] = self.results.get("coverage")
+        print("data_dict : ", data_dict)
         return data_dict
         # Store results of same eval together
         eval_name = eval_result.eval_name
+        print("eval_name : ", eval_name)
         if eval_name in eval_results.keys():
             # If we already have results for this eval, append to list
             eval_results[eval_name].append(eval_result)
         else:
             # Initialize list for this eval name
             eval_results[eval_name] = [eval_result]
+    print("eval_results : ", eval_results)
     # Process final results
     final_results = {}
     for eval_name, eval_list in eval_results.items():
         # Create merged results from all evaluations, ensuring all required task keys are present
+        merged_results = {task.value.metric: None for task in Tasks}
         for eval_result in eval_list:
             merged_results.update({k: v for k, v in eval_result.results.items() if v is not None})
         # Take the first eval_result as base and update with merged results
+        print("evaluation list : ", len(eval_list))
         base_result = eval_list[0]
+        print("base_result : ", base_result)
         # print(base_result)
         final_results[eval_name] = EvalResult(
             eval_name=eval_name,
             date=base_result.date,
             still_on_hub=base_result.still_on_hub
         )
+        print(len(final_results))
+        print(final_results.keys())
+        print(final_results.values())
     results = []
     for v in final_results.values():
         try:
             v.to_dict()  # we test if the dict version is complete
             results.append(v)

src/populate.py CHANGED Viewed

@@ -20,11 +20,9 @@ def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchm
         print("No evaluation results found. Returning empty DataFrame with correct columns.")
         return pd.DataFrame(columns=cols)
     df = df.sort_values(by=[AutoEvalColumn().average.name], ascending=False)
-    print(df)
-    df = df[cols].round(decimals=2)
-    print(df)
-    # df = df[has_no_nan_values(df, benchmark_cols)]
     # print(df)
     return df

         print("No evaluation results found. Returning empty DataFrame with correct columns.")
         return pd.DataFrame(columns=cols)
     df = df.sort_values(by=[AutoEvalColumn().average.name], ascending=False)
     # print(df)
+    df = df[cols].round(decimals=4)
+    df = df[has_no_nan_values(df, benchmark_cols)]
     return df