Shuangrui Ding

Mar2Ding

·

https://mark12ding.github.io/

AI & ML interests

None yet

Recent Activity

upvoted a paper 15 days ago

JoyAI-VL-Interaction: Real-Time Vision-Language Interaction Intelligence

liked a model about 1 month ago

rookiexiong/SetCon-8B

upvoted a paper about 1 month ago

SetCon: Towards Open-Ended Referring Segmentation via Set-Level Concept Prediction

View all activity

Organizations

None yet

upvoted a paper 15 days ago

JoyAI-VL-Interaction: Real-Time Vision-Language Interaction Intelligence

Paper • 2606.14777 • Published 22 days ago • 207

upvoted a paper about 1 month ago

SetCon: Towards Open-Ended Referring Segmentation via Set-Level Concept Prediction

Paper • 2605.20110 • Published May 19 • 4

upvoted a paper about 2 months ago

WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

Paper • 2605.10912 • Published May 11 • 46

upvoted a paper 3 months ago

EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

Paper • 2603.12252 • Published Mar 12 • 12

upvoted a paper 5 months ago

DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

Paper • 2602.12205 • Published Feb 13 • 83

upvoted a paper 8 months ago

Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents

Paper • 2507.23698 • Published Jul 31, 2025 • 11

upvoted a paper 11 months ago

SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction

Paper • 2507.15852 • Published Jul 21, 2025 • 38

upvoted a paper about 1 year ago

Video World Models with Long-term Spatial Memory

Paper • 2506.05284 • Published Jun 5, 2025 • 56

upvoted 12 papers over 1 year ago

Video-R1: Reinforcing Video Reasoning in MLLMs

Paper • 2503.21776 • Published Mar 27, 2025 • 79

Unified Reward Model for Multimodal Understanding and Generation

Paper • 2503.05236 • Published Mar 7, 2025 • 124

Visual-RFT: Visual Reinforcement Fine-Tuning

Paper • 2503.01785 • Published Mar 3, 2025 • 86

OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference

Paper • 2502.18411 • Published Feb 25, 2025 • 74

Thus Spake Long-Context Large Language Model

Paper • 2502.17129 • Published Feb 24, 2025 • 73

SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation

Paper • 2502.13128 • Published Feb 18, 2025 • 41

Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

Paper • 2502.08590 • Published Feb 12, 2025 • 43

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

Paper • 2502.05173 • Published Feb 7, 2025 • 64

Redundancy Principles for MLLMs Benchmarks

Paper • 2501.13953 • Published Jan 20, 2025 • 29

InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model

Paper • 2501.12368 • Published Jan 21, 2025 • 46

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Paper • 2501.05510 • Published Jan 9, 2025 • 44

BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

Paper • 2501.03226 • Published Jan 6, 2025 • 43