3 22 1

Xiaohan Wang

nicholswang

https://wxh1996.github.io/

XiaohanWang96

AI & ML interests

Video Understanding, Vision-Language Models

Recent Activity

upvoted a paper 3 days ago

CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis

liked a dataset 5 days ago

HuggingFaceFV/finevideo

upvoted a paper 18 days ago

MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research

View all activity

Organizations

nicholswang's activity

upvoted a paper 3 days ago

CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis

Paper • 2503.23145 • Published 7 days ago • 30

liked a dataset 5 days ago

HuggingFaceFV/finevideo

Viewer • Updated Dec 16, 2024 • 39.5k • 6.18k • 306

upvoted a paper 18 days ago

MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research

Paper • 2503.13399 • Published 19 days ago • 20

authored a paper 24 days ago

Video Action Differencing

Paper • 2503.07860 • Published 26 days ago • 31

upvoted a paper 24 days ago

Video Action Differencing

Paper • 2503.07860 • Published 26 days ago • 31

upvoted a paper 2 months ago

Temporal Preference Optimization for Long-Form Video Understanding

Paper • 2501.13919 • Published Jan 23 • 22

authored a paper 2 months ago

Temporal Preference Optimization for Long-Form Video Understanding

Paper • 2501.13919 • Published Jan 23 • 22

authored a paper 3 months ago

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

Paper • 2501.07171 • Published Jan 13 • 55

upvoted 2 papers 3 months ago

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

Paper • 2501.07171 • Published Jan 13 • 55

Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

Paper • 2501.03225 • Published Jan 6 • 7

upvoted a paper 4 months ago

Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration

Paper • 2412.13180 • Published Dec 17, 2024 • 13

authored 9 papers 4 months ago

Action Sensitivity Learning for Temporal Action Localization

Paper • 2305.15701 • Published May 25, 2023

Whitening-based Contrastive Learning of Sentence Embeddings

Paper • 2305.17746 • Published May 28, 2023

Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in Vision-Language Models

Paper • 2305.18010 • Published May 29, 2023

Describing Differences in Image Sets with Natural Language

Paper • 2312.02974 • Published Dec 5, 2023 • 16

Clustering based Point Cloud Representation Learning for 3D Analysis

Paper • 2307.14605 • Published Jul 27, 2023

JOTR: 3D Joint Contrastive Learning with Transformers for Occluded Human Mesh Recovery

Paper • 2307.16377 • Published Jul 31, 2023