Model Evaluation - a Stalin16 Collection

Stalin16 's Collections

Model Evaluation

Reasoning Models

Data and other things

Gen AI Diffusion

Model Evaluation

updated 1 day ago

Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon

Paper • 2502.07445 • Published Feb 11 • 11
ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning

Paper • 2502.04689 • Published Feb 7 • 7
Analyze Feature Flow to Enhance Interpretation and Steering in Language Models

Paper • 2502.03032 • Published Feb 5 • 58
Preference Leakage: A Contamination Problem in LLM-as-a-judge

Paper • 2502.01534 • Published Feb 3 • 39
SliderSpace: Decomposing the Visual Capabilities of Diffusion Models

Paper • 2502.01639 • Published Feb 3 • 25
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency

Paper • 2502.09621 • Published Feb 13 • 27
Logical Reasoning in Large Language Models: A Survey

Paper • 2502.09100 • Published Feb 13 • 22
IHEval: Evaluating Language Models on Following the Instruction Hierarchy

Paper • 2502.08745 • Published Feb 12 • 19
InductionBench: LLMs Fail in the Simplest Complexity Class

Paper • 2502.15823 • Published Feb 20 • 7
AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM

Paper • 2503.04504 • Published 20 days ago • 2
Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders

Paper • 2503.03601 • Published 21 days ago • 216
Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence

Paper • 2503.05037 • Published 20 days ago • 4
SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?

Paper • 2503.12349 • Published 10 days ago • 40
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey

Paper • 2503.12605 • Published 10 days ago • 30
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity

Paper • 2503.11557 • Published 12 days ago • 19
CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era

Paper • 2503.12329 • Published 11 days ago • 24
Where do Large Vision-Language Models Look at when Answering Questions?

Paper • 2503.13891 • Published 8 days ago • 7
I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders

Paper • 2503.18878 • Published 2 days ago • 96