new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Mar 27

Submitted by

Bakerbunker

Qwen2.5-Omni Technical Report

·
14 authors

2

Submitted by

zhihou

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

·
11 authors

1

Submitted by

akhaliq

Wan: Open and Advanced Large-Scale Video Generative Models

·
62 authors

Submitted by

KennyUTC

LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?

·
9 authors

1

Submitted by

akhaliq

Open Deep Search: Democratizing Search with Open-source Reasoning Agents

·
12 authors

Submitted by

phillipinseoul

Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models

·
4 authors

Submitted by

msj9817

GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers

·
6 authors

1

Submitted by

akhaliq

Gemini Robotics: Bringing AI into the Physical World

·
118 authors

Submitted by

taesiri

Gemma 3 Technical Report

·
216 authors

Submitted by

Awiny

BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation

·
9 authors

Submitted by

yilunzhao

MCTS-RAG: Enhancing Retrieval-Augmented Generation with Monte Carlo Tree Search

·
4 authors

1

Submitted by

Concyclics

LogQuant: Log-Distributed 2-Bit Quantization of KV Cache with Superior Accuracy Preservation

·
7 authors

1

Submitted by

PahaII

ViLBench: A Suite for Vision-Language Process Reward Modeling

·
6 authors

1

Submitted by

aejion

AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset

·
6 authors

1

Submitted by

serianni

Attention IoU: Examining Biases in CelebA using Attention Maps

·
4 authors

Submitted by

Ningyu

ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems

·
7 authors

1

Submitted by

hahahawu

Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging

·
10 authors

Submitted by

wufeim

DINeMo: Learning Neural Mesh Models with no 3D Annotations

·
4 authors

1

Submitted by

Awiny

Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models

·
5 authors

1

Submitted by

r0nn13

Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image

·
2 authors

1

Submitted by

ya-mehdi

Sparse Logit Sampling: Accelerating Knowledge Distillation in LLMs

·
8 authors

1

Submitted by

akhaliq

Self-Supervised Learning of Motion Concepts by Optimizing Counterfactuals

·
7 authors

Submitted by

johanobandoc

Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training

·
10 authors

Submitted by

Jarvis1111

UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis

·
3 authors

1

Submitted by

aadarsh-ram

RONA: Pragmatically Diverse Image Captioning with Coherence Relations

·
3 authors

1

Submitted by

fmuuly

RecTable: Fast Modeling Tabular Data with Rectified Flow

·
2 authors

1

Submitted by

SteveZeyuZhang

PathoHR: Breast Cancer Survival Prediction on High-Resolution Pathological Images

·
10 authors

1