Spaces:

duckdb-nsql-hub
/

DuckDB-SQL-Eval

Sleeping

App Files Files Community

tdoehmen commited on Oct 27, 2024

Commit

a940235

1 Parent(s): 788509a

debug

Browse files

Files changed (2) hide show

app.py +0 -2
evaluation_logic.py +5 -4

app.py CHANGED Viewed

@@ -9,8 +9,6 @@ PROMPT_TEMPLATES = {
 }
 def gradio_run_evaluation(inference_api, model_name, prompt_format, openrouter_token=None, custom_prompt=None):
-    print(f"DEBUG - Prompt format: {prompt_format}, Custom prompt content: {custom_prompt}")
     # Set environment variable if OpenRouter token is provided
     if inference_api == "openrouter":
         os.environ["OPENROUTER_API_KEY"] = str(openrouter_token)

 }
 def gradio_run_evaluation(inference_api, model_name, prompt_format, openrouter_token=None, custom_prompt=None):
     # Set environment variable if OpenRouter token is provided
     if inference_api == "openrouter":
         os.environ["OPENROUTER_API_KEY"] = str(openrouter_token)

evaluation_logic.py CHANGED Viewed

@@ -57,7 +57,7 @@ def save_prediction(inference_api, model_name, prompt_format, question, generate
 def save_evaluation(inference_api, model_name, prompt_format, custom_prompt, metrics):
     evaluation_file = evaluation_folder / f"evaluation_{file_uuid}.json"
     evaluation_folder.mkdir(parents=True, exist_ok=True)
     # Extract and flatten the category-specific execution metrics
     categories = ['easy', 'medium', 'hard', 'duckdb', 'ddl', 'all']
     flattened_metrics = {
@@ -67,7 +67,7 @@ def save_evaluation(inference_api, model_name, prompt_format, custom_prompt, met
         "custom_prompt": str(custom_prompt),
         "timestamp": datetime.now().isoformat()
     }
     # Flatten each category's metrics into separate columns
     for category in categories:
         if category in metrics['exec']:
@@ -101,6 +101,7 @@ def run_prediction(inference_api, model_name, prompt_format, custom_prompt, outp
     try:
         # Initialize necessary components
         data_formatter = DefaultLoader()
         if prompt_format.startswith("custom"):
             prompt_formatter = PROMPT_FORMATTERS["custom"]()
             prompt_formatter.PROMPT_TEMPLATE = custom_prompt
@@ -235,7 +236,7 @@ def run_evaluation(inference_api, model_name, prompt_format="duckdbinstgranitesh
         # Save evaluation results to dataset
         save_evaluation(inference_api, model_name, prompt_format, custom_prompt, metrics)
         yield "Evaluation completed."
         if metrics:
@@ -245,7 +246,7 @@ def run_evaluation(inference_api, model_name, prompt_format="duckdbinstgranitesh
             yield f"All (n={overall_metrics['count']}) - Edit Distance: {metrics['edit_distance']['edit_distance']:.3f}"
             categories = ['easy', 'medium', 'hard', 'duckdb', 'ddl', 'all']
             for category in categories:
                 if category in metrics['exec']:
                     category_metrics = metrics['exec'][category]

 def save_evaluation(inference_api, model_name, prompt_format, custom_prompt, metrics):
     evaluation_file = evaluation_folder / f"evaluation_{file_uuid}.json"
     evaluation_folder.mkdir(parents=True, exist_ok=True)
     # Extract and flatten the category-specific execution metrics
     categories = ['easy', 'medium', 'hard', 'duckdb', 'ddl', 'all']
     flattened_metrics = {
         "custom_prompt": str(custom_prompt),
         "timestamp": datetime.now().isoformat()
     }
     # Flatten each category's metrics into separate columns
     for category in categories:
         if category in metrics['exec']:
     try:
         # Initialize necessary components
         data_formatter = DefaultLoader()
+        print(f"DEBUG - Prompt format: {prompt_format}, Custom prompt content: {custom_prompt}")
         if prompt_format.startswith("custom"):
             prompt_formatter = PROMPT_FORMATTERS["custom"]()
             prompt_formatter.PROMPT_TEMPLATE = custom_prompt
         # Save evaluation results to dataset
         save_evaluation(inference_api, model_name, prompt_format, custom_prompt, metrics)
         yield "Evaluation completed."
         if metrics:
             yield f"All (n={overall_metrics['count']}) - Edit Distance: {metrics['edit_distance']['edit_distance']:.3f}"
             categories = ['easy', 'medium', 'hard', 'duckdb', 'ddl', 'all']
             for category in categories:
                 if category in metrics['exec']:
                     category_metrics = metrics['exec'][category]