Xingyu Fu's picture

3 5 10

Xingyu Fu

Fiaa

·

AI & ML interests

NLP, multimodal

Organizations

Fiaa's activity

upvoted 4 papers 5 months ago

Depth Anything V2

Paper • 2406.09414 • Published Jun 13 • 92

MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding

Paper • 2406.09411 • Published Jun 13 • 18

Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense?

Paper • 2406.07546 • Published Jun 11 • 8

Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models

Paper • 2406.09403 • Published Jun 13 • 19

upvoted a paper 7 months ago

BLINK: Multimodal Large Language Models Can See but Not Perceive

Paper • 2404.12390 • Published Apr 18 • 24