Spaces:

safe-challenge
/

leaderboard-public

Running

App Files Files Community

leaderboard-public / app.py

kt-test-account

add aug heatmaps

1ed31e5 4 days ago

raw

history blame contribute delete

9.42 kB

	import streamlit as st
	from pathlib import Path
	import pandas as pd
	import json
	import metric
	from sklearn.metrics import roc_auc_score, roc_curve
	import numpy as np
	import altair as alt


	st.set_page_config(
	page_title="Public Leaderboard",
	initial_sidebar_state="collapsed",
	layout="wide", # This makes the app use the full width of the screen
	)


	@st.cache_data
	def load_results(task):
	return pd.read_csv(task).set_index("team")


	@st.cache_data
	def get_updated_time(file="updated.txt"):
	return open(file).read()


	@st.cache_data
	def get_volume():
	tasks = ["task1", "task2","task3", "practice"]
	subs = pd.concat(
	[pd.read_csv(f"{task}_submissions.csv") for task in tasks], ignore_index=True
	)
	subs["datetime"] = pd.DatetimeIndex(subs["datetime"])
	subs["date"] = subs["datetime"].dt.date
	subs = (
	subs.groupby(["date", "status_reason"]).size().unstack().fillna(0).reset_index()
	)

	return subs


	split = "public"


	def show_leaderboad(results):
	cols = [
	"generated_accuracy",
	"pristine_accuracy",
	"balanced_accuracy",
	"fail_rate",
	"total_time",
	]

	# st.dataframe(results[f"{split}_score"])

	column_config = {
	"balanced_accuracy": st.column_config.ProgressColumn(
	"Balanced Acc",
	format="compact",
	min_value=0,
	pinned=True,
	max_value=1.0,
	width="medium",
	),
	"generated_accuracy": st.column_config.ProgressColumn(
	"🤖 Acc",
	format="compact",
	min_value=0,
	pinned=True,
	max_value=1.0,
	width="medium",
	),
	"pristine_accuracy": st.column_config.ProgressColumn(
	"🧑‍🎤 Acc",
	format="compact",
	min_value=0,
	pinned=True,
	max_value=1.0,
	width="medium",
	),
	"fail_rate": st.column_config.NumberColumn(
	"❌ Fail Rate",
	format="compact",
	width="small",
	),
	"total_time": st.column_config.NumberColumn(
	"🕒 Inference Time (s)",
	format="compact",
	width="small",
	),
	}

	labels = {"pristine": "🧑‍🎤", "generated": "🤖"}

	for c in results[f"{split}_score"].columns:
	if "accuracy" in c:
	continue
	if any(p in c for p in ["generated", "pristine"]):
	s = c.split("_")
	pred = s[0]
	source = " ".join(s[1:])
	column_config[c] = st.column_config.ProgressColumn(
	labels[pred] + " " + source,
	help=c,
	format="compact",
	min_value=0,
	max_value=1.0,
	)

	"#### Summary"
	st.dataframe(results[f"{split}_score"].loc[:, cols], column_config=column_config)

	"#### Accuracy on 🤖 Generated by Source"

	cols = [
	c
	for c in results[f"{split}_score"].columns
	if "generated" in c and "accuracy" not in c
	]
	st.dataframe(results[f"{split}_score"].loc[:, cols], column_config=column_config)

	"#### Accuracy on 🧑‍🎤 Pristine by Source"

	cols = [
	c
	for c in results[f"{split}_score"].columns
	if "pristine" in c and "accuracy" not in c
	]
	st.dataframe(results[f"{split}_score"].loc[:, cols], column_config=column_config)


	def make_roc(results):
	results["FA"] = 1.0 - results["pristine_accuracy"]
	chart = (
	alt.Chart(results)
	.mark_circle()
	.encode(
	x=alt.X("FA:Q", title="1 - 🧑‍🎤 Acc"),
	y=alt.Y("generated_accuracy:Q", title="🤖 Acc"),
	color="team:N", # Color by categorical field
	size=alt.Size(
	"total_time:Q", title="🕒 Inference Time", scale=alt.Scale(rangeMin=100)
	), # Size by quantitative field
	)
	.properties(
	width=400, height=300, title="Detection vs False Alarm vs Inference Time"
	)
	)

	diag_line = (
	alt.Chart(pd.DataFrame(dict(tpr=[0, 1], fpr=[0, 1])))
	.mark_line(color="lightgray", strokeDash=[8, 4])
	.encode(x="fpr", y="tpr")
	)

	return chart + diag_line


	def make_acc(results):
	# results["FA"] = 1. - results["pristine_accuracy"]
	chart = (
	alt.Chart(results)
	.mark_circle(size=200)
	.encode(
	x=alt.X("total_time:Q", title="🕒 Inference Time"),
	y=alt.Y("balanced_accuracy:Q", title="Balanced Accuracy",scale=alt.Scale(domain=[0.4, 1])),
	color="team:N", # Color by categorical field # Size by quantitative field
	)
	.properties(width=400, height=300, title="Inference Time vs Balanced Accuracy")
	)
	diag_line = (
	alt.Chart(pd.DataFrame(dict(t=[0, results["total_time"].max()], y=[.5, .5])))
	.mark_line(color="lightgray", strokeDash=[8, 4])
	.encode(x="t", y="y")
	)
	return chart + diag_line


	@st.cache_data
	def make_heatmap(results,label = "generated", symbol = "🤖", title = ""):


	# Assuming df is your wide-format DataFrame (models as rows, datasets as columns)
	df_long = results.set_index("team")
	team_order = results.index.tolist()
	df_long = df_long.loc[:,[c for c in df_long.columns if c.startswith(label) and "accuracy" not in c]]
	df_long.columns = [c.replace(f"{label}_","") for c in df_long.columns]

	if "none" in df_long.columns:
	df_long = df_long.drop(columns=["none"])

	df_long = df_long.reset_index().melt(id_vars='team', var_name='source', value_name='acc')
	# df_long.rename(columns={'index': 'source'}, inplace=True)
	# df_long
	# return

	# Base chart for rectangles
	base = alt.Chart(df_long).encode(
	x=alt.X('source:O', title='Source',axis=alt.Axis(orient='top', labelAngle=-60)),
	y=alt.Y('team:O', title='Team',sort=team_order)
	)

	# Heatmap rectangles
	heatmap = base.mark_rect().encode(
	color=alt.Color('acc:Q', scale=alt.Scale(scheme='greens'), title = f"{label} Accuracy")
	)

	# Text labels
	text = base.mark_text(baseline='middle',fontSize=16).encode(
	text=alt.Text('acc:Q', format='.2f'),
	color=alt.condition(
	alt.datum.acc < 0.5, # you can tune this for readability
	alt.value('black'),
	alt.value('white')
	)
	)

	# Combine heatmap and text
	chart = (heatmap + text).properties(
	width=600,
	height=500,
	title=title
	)

	return chart


	def get_heatmaps(temp):
	h1 = make_heatmap(temp, "generated", symbol = "🤖", title = "Accuracy by 🤖 geneated source")
	h2 = make_heatmap(temp, "pristine", symbol = "🧑‍🎤", title = "Accuracy by 🧑‍🎤 pristine source")
	st.altair_chart(h1, use_container_width=True)
	st.altair_chart(h2, use_container_width=True)
	if temp.columns.str.contains("aug", case=False).any():
	h3 = make_heatmap(temp, "aug", symbol="🛠️", title = "Accuracy by 🛠️ augmentation method on 🤖 geneated data only")
	st.altair_chart(h3, use_container_width=True)

	def make_plots_for_task(task,split,best_only):
	# results = load_results(task, best_only=best_only)
	results = {f"{split}_score": load_results(f"{task}.csv")}

	# results1[f"{split}_score"]
	temp = results[f"{split}_score"].reset_index()
	t1,t2,t3 = st.tabs(["Tables","Charts","Heatmap"])
	with t1:
	show_leaderboad(results)
	with t2:
	st.altair_chart(make_roc(temp) \| make_acc(temp), use_container_width=False)
	with t3:
	get_heatmaps(temp)


	split = "public"

	updated = get_updated_time()
	st.markdown(updated)
	# st.markdown("#### Detailed Public Leaderboard")
	# st.markdown("[SAFE: Synthetic Audio Forensics Evaluation Challenge](https://stresearch.github.io/SAFE/)")

	t1, t2, t3, t4 = st.tabs(["Task 1", "Task 2", "Task 3", "Submission Volume"])
	with t1:
	"Detection of Generated Audio. Audio files are unmodified from the original output from the models or the pristine sources."
	make_plots_for_task("task1",split,True)

	# results1 = {f"{split}_score": load_results("task1.csv")}
	# # results1[f"{split}_score"]
	# temp = results1[f"{split}_score"].reset_index()
	# st.altair_chart(make_roc(temp) \| make_acc(temp), use_container_width=False)
	# show_leaderboad(results1)



	with t2:
	"Detection of Processed Audio. Audio files will be compressed and resampled. Only the geneated files are augmented."
	make_plots_for_task("task2",split,True)

	# results2 = {f"{split}_score": load_results("task2.csv")}
	# temp = results2[f"{split}_score"].reset_index()
	# st.altair_chart(make_roc(temp) \| make_acc(temp), use_container_width=False)

	# show_leaderboad(results2)

	with t3:
	"Detection of Laundered Audio. Audio files will be laundered to bypass detection. Only the geneated files are laundered,"
	make_plots_for_task("task3",split,True)

	# results3 = {f"{split}_score": load_results("task3.csv")}
	# temp = results3[f"{split}_score"].reset_index()
	# st.altair_chart(make_roc(temp) \| make_acc(temp), use_container_width=False)

	# show_leaderboad(results3)

	with t4:
	subs = get_volume()
	st.bar_chart(subs, x="date", y=["SUCCESS", "FAILED"], stack=True)