claudeli1234's picture

65 4

claudeli1234

claudeli1234

·

AI & ML interests

None yet

Recent Activity

upvoted a paper about 13 hours ago

Liquid: Language Models are Scalable Multi-modal Generators

upvoted a paper about 13 hours ago

TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning

upvoted a paper about 13 hours ago

Mavors: Multi-granularity Video Representation for Multimodal Large Language Model

View all activity

Organizations

None yet

claudeli1234's activity

upvoted 4 papers about 13 hours ago

Liquid: Language Models are Scalable Multi-modal Generators

Paper • 2412.04332 • Published Dec 5, 2024 • 3

TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning

Paper • 2504.09641 • Published 3 days ago • 11

Mavors: Multi-granularity Video Representation for Multimodal Large Language Model

Paper • 2504.10068 • Published 2 days ago • 28

FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding

Paper • 2504.09925 • Published 2 days ago • 36

upvoted 4 papers about 14 hours ago

Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability

Paper • 2504.08003 • Published 7 days ago • 42

InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

Paper • 2504.10479 • Published 2 days ago • 195

PRIMA.CPP: Speeding Up 70B-Scale LLM Inference on Low-Resource Everyday Home Clusters

Paper • 2504.08791 • Published 9 days ago • 105

InteractVLM: 3D Interaction Reasoning from 2D Foundational Models

Paper • 2504.05303 • Published 9 days ago • 1

upvoted 5 papers 1 day ago

SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration

Paper • 2410.02367 • Published Oct 3, 2024 • 50

PixelFlow: Pixel-Space Generative Models with Flow

Paper • 2504.07963 • Published 6 days ago • 14

MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft

Paper • 2504.08388 • Published 5 days ago • 37

GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

Paper • 2504.08736 • Published 5 days ago • 39

Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

Paper • 2504.08685 • Published 5 days ago • 106

upvoted 2 papers 2 days ago

Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation

Paper • 2502.20388 • Published Feb 27 • 16

HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

Paper • 2410.10812 • Published Oct 14, 2024 • 18

upvoted a paper 4 days ago

Kimi-VL Technical Report

Paper • 2504.07491 • Published 6 days ago • 110

upvoted 2 papers 6 days ago

OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

Paper • 2504.07096 • Published 7 days ago • 66

DDT: Decoupled Diffusion Transformer

Paper • 2504.05741 • Published 8 days ago • 69

upvoted 2 papers 7 days ago

Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence

Paper • 2503.20533 • Published 21 days ago • 11

HybriMoE: Hybrid CPU-GPU Scheduling and Cache Management for Efficient MoE Inference

Paper • 2504.05897 • Published 8 days ago • 12