Spaces:

XufengDuan
/

HumanLikeness

Running

File size: 19,686 Bytes

8a5da23
ee31436
 
 
 
f1a09e2
8a5da23
 
d49a57f
c755378
dac62d3
56bf4e8
ee31436
56bf4e8
 
010a64a
56bf4e8
39125ad
d062868
007425a
8a5da23
ad27ecb
8a5da23
 
caa4425
39125ad
4d9df48
 
 
9daf453
4d9df48
 
 
 
ee31436
39125ad
ee31436
4d9df48
7e4686f
4d9df48
06a62df
 
 
ad27ecb
d49a57f
4d9df48
010a64a
7e4686f
4d9df48
7e4686f
508b863
4d9df48
5c401da
ec7c10d
8a5da23
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6162a3c
8a5da23
 
 
 
5c401da
b3b0417
 
 
8a5da23
5c401da
0537749
5c401da
 
 
 
 
b3b0417
 
5c401da
8a5da23
 
c755378
 
 
 
8a5da23
c755378
 
 
5c401da
b3b0417
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5c401da
56bf4e8
 
 
 
07998f1
9daf453
 
 
56bf4e8
 
07998f1
9daf453
56bf4e8
 
 
 
 
 
 
 
 
 
 
03656b1
56bf4e8
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1bde8d8
 
 
 
56bf4e8
 
 
 
 
07998f1
9daf453
56bf4e8
 
 
 
 
 
 
 
 
07998f1
a70bbe4
c5eb05a
 
 
 
 
 
56bf4e8
 
ee31436
ec7c10d
 
 
 
 
6cfa9c7
 
 
 
 
e0d8f5c
6cfa9c7
ccabf14
ec7c10d
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
f04439c
 
 
 
0283dd5
c5eb05a
ec7c10d
 
 
 
 
 
 
0283dd5
 
 
 
 
 
 
 
 
 
 
 
 
 
56bf4e8
ec7c10d
 
 
 
 
 
 
 
 
 
 
bcb4445
ec7c10d
56bf4e8
ec7c10d
 
 
 
 
 
 
 
56bf4e8
 
 
 
f18b33a
c5eb05a
 
f04439c
56bf4e8
 
 
 
ec7c10d
f04439c
ec7c10d
 
 
 
 
 
c5eb05a
 
 
ec7c10d
 
 
 
ee31436
8067b48
ec7c10d
 
bdf31b0
ec7c10d
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
bdf31b0
ec7c10d
 
 
 
 
 
 
 
 
 
 
bdf31b0
1bde8d8
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
bdf31b0
ec7c10d
 
 
 
 
 
1bde8d8
 
 
 
ec7c10d
 
 
 
e0d8f5c
 
508b863
e0d8f5c
ec7c10d
 
 
 
 
 
 
 
 
 
 
bdf31b0
 
 
 
 
 
 
d062868
 
 
 
 
2e0ca43
d062868
8067b48
d062868
2e0ca43
8067b48

import logging
import gradio as gr
import pandas as pd
from apscheduler.schedulers.background import BackgroundScheduler
from huggingface_hub import snapshot_download
import src.envs as envs
from main_backend import PENDING_STATUS, RUNNING_STATUS, FINISHED_STATUS, FAILED_STATUS
from src.backend import sort_queue
from src.envs import EVAL_REQUESTS_PATH, EVAL_RESULTS_PATH, QUEUE_REPO, RESULTS_REPO
import src.backend.manage_requests as manage_requests
import socket
import src.display.about as about
from src.display.css_html_js import custom_css
import src.display.utils as utils
import src.populate as populate
from src.populate import get_evaluation_queue_df, get_leaderboard_df
import src.submission.submit as submit
import os
import datetime
import spacy_transformers
import pprint
import src.backend.run_eval_suite as run_eval_suite

pp = pprint.PrettyPrinter(width=80)
TOKEN = os.environ.get("H4_TOKEN", None)
print("TOKEN", TOKEN)

def ui_snapshot_download(repo_id, local_dir, repo_type, tqdm_class, etag_timeout):
    try:
        print("local", local_dir)
        snapshot_download(repo_id=repo_id, local_dir=local_dir, repo_type=repo_type, tqdm_class=tqdm_class, etag_timeout=etag_timeout)
    except Exception as e:
        restart_space()

def restart_space():
    envs.API.restart_space(repo_id=envs.REPO_ID, token=TOKEN)

def init_space():
    #dataset_df = get_dataset_summary_table(file_path='blog/Hallucination-Leaderboard-Summary.csv')


    ui_snapshot_download(repo_id=QUEUE_REPO, local_dir=EVAL_REQUESTS_PATH, repo_type="dataset", tqdm_class=None, etag_timeout=30)
    ui_snapshot_download(repo_id=RESULTS_REPO, local_dir=EVAL_RESULTS_PATH, repo_type="dataset", tqdm_class=None, etag_timeout=30)

    original_df = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, utils.COLS, utils.BENCHMARK_COLS)

    finished_eval_queue_df, running_eval_queue_df, pending_eval_queue_df = get_evaluation_queue_df(EVAL_REQUESTS_PATH, utils.EVAL_COLS)
    return original_df, finished_eval_queue_df, running_eval_queue_df, pending_eval_queue_df

original_df, finished_eval_queue_df, running_eval_queue_df, pending_eval_queue_df = init_space()
leaderboard_df = original_df.copy()

def process_pending_evals():

    current_pending_status = [PENDING_STATUS]
    print('_________________')
    manage_requests.check_completed_evals(
        api=envs.API,
        checked_status=RUNNING_STATUS,
        completed_status=FINISHED_STATUS,
        failed_status=FAILED_STATUS,
        hf_repo=envs.QUEUE_REPO,
        local_dir=envs.EVAL_REQUESTS_PATH_BACKEND,
        hf_repo_results=envs.RESULTS_REPO,
        local_dir_results=envs.EVAL_RESULTS_PATH_BACKEND
    )
    logging.info("Checked completed evals")
    eval_requests = manage_requests.get_eval_requests(
        job_status=current_pending_status,
        hf_repo=envs.QUEUE_REPO,
        local_dir=envs.EVAL_REQUESTS_PATH_BACKEND
    )
    logging.info("Got eval requests")
    eval_requests = sort_queue.sort_models_by_priority(api=envs.API, models=eval_requests)
    logging.info("Sorted eval requests")

    print(f"Found {len(eval_requests)} {','.join(current_pending_status)} eval requests")
    if len(eval_requests) == 0:
        print("No eval requests found. Exiting.")
        return

    import concurrent.futures

    def process_eval_request(eval_request):
        pp.pprint(eval_request)
        run_eval_suite.run_evaluation(
            eval_request=eval_request,
            local_dir=envs.EVAL_RESULTS_PATH_BACKEND,
            results_repo=envs.RESULTS_REPO,
            batch_size=1,
            device=envs.DEVICE,
            no_cache=True,
            need_check=False,
            write_results=False
        )
        logging.info(f"Eval finished for model {eval_request.model}, now setting status to finished")

        # Update the status to FINISHED
        manage_requests.set_eval_request(
            api=envs.API,
            eval_request=eval_request,
            new_status=FINISHED_STATUS,
            hf_repo=envs.QUEUE_REPO,
            local_dir=envs.EVAL_REQUESTS_PATH_BACKEND
        )

    # 定义线程池的数量
    max_workers = 5  # 你可以根据你的需求设置合适的数量

    # 使用 ThreadPoolExecutor 来并行执行多个 eval_request
    with concurrent.futures.ThreadPoolExecutor(max_workers=max_workers) as executor:
        futures = [executor.submit(process_eval_request, eval_request) for eval_request in eval_requests]

        # 等待所有任务完成
        concurrent.futures.wait(futures)
    # for eval_request in eval_requests:
    #     pp.pprint(eval_request)
    #     run_eval_suite.run_evaluation(
    #         eval_request=eval_request,
    #         local_dir=envs.EVAL_RESULTS_PATH_BACKEND,
    #         results_repo=envs.RESULTS_REPO,
    #         batch_size=1,
    #         device=envs.DEVICE,
    #         no_cache=True,
    #         need_check= False,
    #         write_results= False
    #     )
    #     logging.info(f"Eval finished for model {eval_request.model}, now setting status to finished")
    #
    #     # Update the status to FINISHED
    #     manage_requests.set_eval_request(
    #         api=envs.API,
    #         eval_request=eval_request,
    #         new_status=FINISHED_STATUS,
    #         hf_repo=envs.QUEUE_REPO,
    #         local_dir=envs.EVAL_REQUESTS_PATH_BACKEND
    #     )


# Searching and filtering
def update_table(
    hidden_df: pd.DataFrame,
    columns: list,
    #type_query: list,
    # precision_query: str,
    # size_query: list,
    # show_deleted: bool,
    query: str,
):
    # filtered_df = filter_models(hidden_df, type_query, size_query, precision_query, show_deleted)
    filtered_df = filter_models(hidden_df)
    filtered_df = filter_queries(query, filtered_df)
    df = select_columns(filtered_df, columns)
    return df


def search_table(df: pd.DataFrame, query: str) -> pd.DataFrame:
    return df[(df[utils.AutoEvalColumn.dummy.name].str.contains(query, case=False))]


def select_columns(df: pd.DataFrame, columns: list) -> pd.DataFrame:
    always_here_cols = [
        #utils.AutoEvalColumn.model_type_symbol.name,
        utils.AutoEvalColumn.model.name,
    ]
    # We use COLS to maintain sorting
    filtered_df = df[
        always_here_cols + [c for c in utils.COLS if c in df.columns and c in columns] + [utils.AutoEvalColumn.dummy.name]
    ]
    return filtered_df


def filter_queries(query: str, filtered_df: pd.DataFrame) -> pd.DataFrame:
    final_df = []
    if query != "":
        queries = [q.strip() for q in query.split(";")]
        for _q in queries:
            _q = _q.strip()
            if _q != "":
                temp_filtered_df = search_table(filtered_df, _q)
                if len(temp_filtered_df) > 0:
                    final_df.append(temp_filtered_df)
        if len(final_df) > 0:
            filtered_df = pd.concat(final_df)
            # filtered_df = filtered_df.drop_duplicates(
                # subset=[utils.AutoEvalColumn.model.name, utils.AutoEvalColumn.precision.name, utils.AutoEvalColumn.revision.name]
                # subset=[utils.AutoEvalColumn.model.name]
            # )

    return filtered_df


def filter_models(
    # df: pd.DataFrame, type_query: list, size_query: list, precision_query: list, show_deleted: bool
    df: pd.DataFrame
) -> pd.DataFrame:
    # Show all models
    # if show_deleted:
    #   filtered_df = df
    # else:  # Show only still on the hub models
        # filtered_df = df[df[utils.AutoEvalColumn.still_on_hub.name]]

    filtered_df = df
    
    # type_emoji = [t[0] for t in type_query]
    #filtered_df = filtered_df.loc[df[utils.AutoEvalColumn.model_type_symbol.name].isin(type_emoji)]
    # filtered_df = filtered_df.loc[df[utils.AutoEvalColumn.precision.name].isin(precision_query + ["None"])]
    #
    # numeric_interval = pd.IntervalIndex(sorted([utils.NUMERIC_INTERVALS[s] for s in size_query]))
    # params_column = pd.to_numeric(df[utils.AutoEvalColumn.params.name], errors="coerce")
    # mask = params_column.apply(lambda x: any(numeric_interval.contains(x)))
    # filtered_df = filtered_df.loc[mask]

    return filtered_df

try:
    demo = gr.Blocks(css=custom_css)
    with demo:
        gr.HTML(about.TITLE)
        gr.Markdown(about.INTRODUCTION_TEXT, elem_classes="markdown-text")
        def display_radar_chart():
            return """
                    <iframe src="https://xufengduan.github.io/Benchmark_result/clean.html" style="width: 100%; height: 500px; border: none;"></iframe>
                    """


        gr.HTML(display_radar_chart())

        with gr.Tabs(elem_classes="tab-buttons") as tabs:
            with gr.TabItem("🏅 LLM Benchmark", elem_id="llm-benchmark-tab-table", id=0):
                with gr.Row():
                    with gr.Column():
                        with gr.Row():
                            search_bar = gr.Textbox(
                                placeholder=" 🔍 Search for your model (separate multiple queries with `;`) and press ENTER...",
                                show_label=False,
                                elem_id="search-bar",
                            )
                        with gr.Row():
                            shown_columns = gr.CheckboxGroup(
                                choices=[
                                    c.name
                                    for c in utils.fields(utils.AutoEvalColumn)
                                    if not c.hidden and not c.never_hidden and not c.dummy
                                ],
                                value=[
                                    c.name
                                    for c in utils.fields(utils.AutoEvalColumn)
                                    if c.displayed_by_default and not c.hidden and not c.never_hidden
                                ],
                                label="Select columns to show",
                                elem_id="column-select",
                                interactive=True,
                            )
                        # with gr.Row():
                        #     deleted_models_visibility = gr.Checkbox(
                        #         value=False, label="Show gated/private/deleted models", interactive=True
                        #     )
                    # with gr.Column(min_width=320):
                        #with gr.Box(elem_id="box-filter"):
                        # filter_columns_type = gr.CheckboxGroup(
                        #     label="Model types",
                        #     choices=[t.to_str() for t in utils.ModelType],
                        #     value=[t.to_str() for t in utils.ModelType],
                        #     interactive=True,
                        #     elem_id="filter-columns-type",
                        # )
                        # filter_columns_precision = gr.CheckboxGroup(
                        #     label="Precision",
                        #     choices=[i.value.name for i in utils.Precision],
                        #     value=[i.value.name for i in utils.Precision],
                        #     interactive=True,
                        #     elem_id="filter-columns-precision",
                        # )
                        # filter_columns_size = gr.CheckboxGroup(
                        #     label="Model sizes (in billions of parameters)",
                        #     choices=list(utils.NUMERIC_INTERVALS.keys()),
                        #     value=list(utils.NUMERIC_INTERVALS.keys()),
                        #     interactive=True,
                        #     elem_id="filter-columns-size",
                        # )

                leaderboard_table = gr.components.Dataframe(
                    value=leaderboard_df[
                        [c.name for c in utils.fields(utils.AutoEvalColumn) if c.never_hidden]
                        + shown_columns.value
                        + [utils.AutoEvalColumn.dummy.name]
                    ].sort_values(by="Overall Humanlike %", ascending=False),
                    headers=[c.name for c in utils.fields(utils.AutoEvalColumn) if c.never_hidden] + shown_columns.value,
                    datatype=utils.TYPES,
                    elem_id="leaderboard-table",
                    interactive=False,
                    visible=True,
                    column_widths=["33%", "16.6%"]
                )

                # Dummy leaderboard for handling the case when the user uses backspace key
                hidden_leaderboard_table_for_search = gr.components.Dataframe(
                    value=original_df[utils.COLS],
                    headers=utils.COLS,
                    datatype=utils.TYPES,
                    visible=False,
                )
                search_bar.submit(
                    update_table,
                    [
                        hidden_leaderboard_table_for_search,
                        shown_columns,
                        #filter_columns_type,
                        #filter_columns_precision,
                        #filter_columns_size,
                        # deleted_models_visibility,
                        search_bar,
                    ],
                    leaderboard_table,
                )
                # for selector in [shown_columns, filter_columns_type, filter_columns_precision, filter_columns_size, deleted_models_visibility]:
                for selector in [shown_columns]:
                    selector.change(
                        update_table,
                        [
                            hidden_leaderboard_table_for_search,
                            shown_columns,
                            #filter_columns_type,
                            # filter_columns_precision,
                            # filter_columns_size,
                            # deleted_models_visibility,
                            search_bar,
                        ],
                        leaderboard_table,
                        queue=True,
                    )

            with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=2):
                gr.Markdown(about.LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")

            with gr.TabItem("🚀 Submit here! ", elem_id="llm-benchmark-tab-table", id=3):
                with gr.Column():
                    with gr.Row():
                        gr.Markdown(about.EVALUATION_QUEUE_TEXT, elem_classes="markdown-text")

                    with gr.Column():
                        with gr.Accordion(
                            f"✅ Finished Evaluations ({len(finished_eval_queue_df)})",
                            open=False,
                        ):
                            with gr.Row():
                                finished_eval_table = gr.components.Dataframe(
                                    value=finished_eval_queue_df,
                                    headers=utils.EVAL_COLS,
                                    datatype=utils.EVAL_TYPES,
                                    row_count=5,
                                )
                        with gr.Accordion(
                            f"🔄 Running Evaluation Queue ({len(running_eval_queue_df)})",
                            open=False,
                        ):
                            with gr.Row():
                                running_eval_table = gr.components.Dataframe(
                                    value=running_eval_queue_df,
                                    headers=utils.EVAL_COLS,
                                    datatype=utils.EVAL_TYPES,
                                    row_count=5,
                                )

                        with gr.Accordion(
                            f"⏳ Pending Evaluation Queue ({len(pending_eval_queue_df)})",
                            open=False,
                        ):
                            with gr.Row():
                                pending_eval_table = gr.components.Dataframe(
                                    value=pending_eval_queue_df,
                                    headers=utils.EVAL_COLS,
                                    datatype=utils.EVAL_TYPES,
                                    row_count=5,
                                )
                with gr.Row():
                    gr.Markdown("# ✉️✨ Submit your model here!", elem_classes="markdown-text")

                with gr.Row():
                    with gr.Column():
                        model_name_textbox = gr.Textbox(label="Model name")
                        revision_name_textbox = gr.Textbox(label="Revision commit", placeholder="main")
                        model_type = gr.Dropdown(
                            choices=[t.to_str(" : ") for t in utils.ModelType if t != utils.ModelType.Unknown],
                            label="Model type",
                            multiselect=False,
                            value=None,
                            interactive=True,
                        )

                    # with gr.Column():
                    #     precision = gr.Dropdown(
                    #         choices=[i.value.name for i in utils.Precision if i != utils.Precision.Unknown],
                    #         label="Precision",
                    #         multiselect=False,
                    #         value="float16",
                    #         interactive=True,
                    #     )
                    #     weight_type = gr.Dropdown(
                    #         choices=[i.value.name for i in utils.WeightType],
                    #         label="Weights type",
                    #         multiselect=False,
                    #         value="Original",
                    #         interactive=True,
                    #     )
                    #     base_model_name_textbox = gr.Textbox(label="Base model (for delta or adapter weights)")

                submit_button = gr.Button("Submit Eval")
                submission_result = gr.Markdown()
                submit_button.click(
                    submit.add_new_eval,
                    [
                        model_name_textbox,
                        # base_model_name_textbox,
                        # revision_name_textbox,
                        # precision,
                        # weight_type,
                        model_type,
                    ],
                    submission_result,
                )
        gr.Image("./example.png", elem_id="local-image")



        with gr.Row():
            with gr.Accordion("📙 Citation", open=False):
                citation_button = gr.Textbox(
                    value=about.CITATION_BUTTON_TEXT,
                    label=about.CITATION_BUTTON_LABEL,
                    lines=20,
                    elem_id="citation-button",
                    show_copy_button=True,
                )
except Exception as e:
    print(e)

(
    finished_eval_queue_df,
    running_eval_queue_df,
    pending_eval_queue_df,
) = populate.get_evaluation_queue_df(envs.EVAL_REQUESTS_PATH, utils.EVAL_COLS)



def background_init_and_process():
    global original_df, finished_eval_queue_df, running_eval_queue_df, pending_eval_queue_df
    original_df, finished_eval_queue_df, running_eval_queue_df, pending_eval_queue_df = init_space()
    process_pending_evals()

scheduler = BackgroundScheduler()
scheduler.add_job(background_init_and_process, 'date', run_date=datetime.datetime.now())  # 立即执行
scheduler.add_job(restart_space, "interval", seconds=1720000)
scheduler.start()
demo.queue(default_concurrency_limit=40).launch()