new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Jun 16

Submitted by

iieycx

JoyAI-VL-Interaction: Real-Time Vision-Language Interaction Intelligence

jdopensource

JD.com Open Source

Submitted by

KevinQHLin

Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories

Oxford

University of Oxford

Submitted by

hongsunghwan

Geometric Action Model for Robot Policy Learning

ETHZurich

Submitted by

AdinaY

DreamX-World 1.0: A General-Purpose Interactive World Model

GD-ML

Submitted by

qiushao

FastContext: Training Efficient Repository Explorer for Coding Agents

microsoft

Submitted by

SenXu1123

VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

WeiboAI

Submitted by

yulunliu

BRDFusion: Physics Meets Generation for Urban Scene Inverse Rendering

·
5 authors

Submitted by

yoon6503

Who Should Lead Decoding Now? Tracking Reliable Trajectories for Ensembling Masked Diffusion Language Models

kaist-ai

Submitted by

taesiri

VisualClaw: A Real-Time, Personalized Agent for the Physical World

UCSC-VLAA

Submitted by

TangJiakai5704

OneRank: Unified Transformer-Native Ranking Architecture for Multi-Task Recommendation

·
11 authors

1

Submitted by

adamdad

BadWorld: Adversarial Attacks on World Models

PolyUHK

The Hong Kong Polytechnic University

Submitted by

taesiri

Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

Qwen

Submitted by

seanman

SP^3: Spherical Priors for Plug-and-Play Restoration

·
4 authors

Submitted by

Ningyu

TokenPilot: Cache-Efficient Context Management for LLM Agents

zjunlp

Submitted by

zhangshaolei

CODA-BENCH: Can Code Agents Handle Data-Intensive Tasks?

RUC-DataLab

Submitted by

robingg1

Memento: Reconstruct to Remember for Consistent Long Video Generation

baidu

Submitted by

Jeongeun

Retrieve, Don't Retrain: Extending Vision Language Action Models to New Tasks at Test Time

naver-ai

Submitted by

jiwan-chung

Where Did It Go Wrong? Process-Level Evaluation of Web Agents with Semantic State Tracking

yonseiworld

Yonsei University

Submitted by

chamber111

GD^2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization

·
14 authors

Submitted by

AdinaY

Ling and Ring 2.6 Technical Report: Efficient and Instant Agentic Intelligence at Trillion-Parameter Scale

inclusionAI

Submitted by

minsoo2333

Tangram: Unlocking Non-Uniform KV Cache Compression for Efficient Multi-turn LLM Serving

·
4 authors

Submitted by

wangsssssss

UniDDT: Unifying Multimodal Understanding and Generation with Decoupled Diffusion Transformer

nanjinguniv

Nanjing University

1

Submitted by

XGGNet

PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions

·
21 authors

Submitted by

taesiri

Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

nvidia

Submitted by

SiyuanH

Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes

·
9 authors

Submitted by

KennethEnevoldsen

MVEB: Massive Video Embedding Benchmark

mteb

Massive Text Embedding Benchmark

1

Submitted by

elephantmipt

Unstable Features, Reproducible Subspaces: Understanding Seed Dependence in Sparse Autoencoders

t-tech

1

Submitted by

okupyn

MMDiff: Extending Diffusion Transformers for Multi-Modal Generation

Oxford

University of Oxford

1

Submitted by

alexiglad

You Don't Need Strong Assumptions: Visual Representation Learning via Temporal Differences

illinois

University of Illinois at Urbana-Champaign

Submitted by

FQiao

Track2View: 4D-Consistent Camera-Controlled Video Generation via Paired 3D Point Tracks

MVRL

Multimodal Vision Research Laboratory @ WashU

1

Submitted by

sanketbadhe

Prompt-Level Distillation: A Non-Parametric Alternative to Model Fine-Tuning for Efficient Reasoning

google

1

Submitted by

taesiri

Artificial Intelligence Index Report 2026

·
23 authors

Submitted by

ysmikey

PermaVid: Consistent Video Generation Across Edits via Disentangled Context Memory

·
6 authors

Submitted by

violetxi

ExpRL: Exploratory RL for LLM Mid-Training

StanfordUniversityy

Stanford University

Submitted by

hjhyunjinkim

EgoPhys: Learning Generalizable Physics Models of Deformable Objects from Egocentric Video

UCSanDiego

University of California at San Diego

Submitted by

jonathanhe123

Implicit Reasoning for Large Language Model-based Generative Recommendation

snap-research

Submitted by

jialei02

LaWAM: Latent World Action Models for Efficient Dynamics-Aware Robot Policies

RLinf

Submitted by

kargaranamir

Who Flips? Self- and Cross-Model Counterarguments Reveal Answer Instability in LLMs

·
4 authors

Submitted by

BukaByaka

Selective Control under Noisy Perception: Governance Failures Hidden by Aggregate Metrics in Modular Networks

·
1 authors

Submitted by

kevinywu

Human Universal Grasping

newyorkuniversity

New York University

Submitted by

Seuilping

The Ghosts of Polymarket: When Off-Chain Matches Meet On-Chain Reverts

·
5 authors

Submitted by

yonghyunk1m

TuneJury: An Open Metric for Improving Music Generation Preference Alignment

TuneJury

Submitted by

rrivera1849

Attacks on Machine-Text Detectors Retain Stylistic Fingerprints

·
3 authors

1