Rykov Elisei's picture

15 25

Rykov Elisei

lmeribal

·

lmeribal

AI & ML interests

NLP, Multimodality

Organizations

lmeribal's activity

upvoted 3 papers about 1 month ago

FactAlign: Long-form Factuality Alignment of Large Language Models

Paper • 2410.01691 • Published Oct 2 • 8

Attention Prompting on Image for Large Vision-Language Models

Paper • 2409.17143 • Published Sep 25 • 7

MIO: A Foundation Model on Multimodal Tokens

Paper • 2409.17692 • Published Sep 26 • 49

upvoted 2 papers about 2 months ago

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

Paper • 2409.12191 • Published Sep 18 • 73

InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning

Paper • 2409.12568 • Published Sep 19 • 47

upvoted a paper 2 months ago

MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

Paper • 2409.02813 • Published Sep 4 • 28

upvoted a paper 3 months ago

Building and better understanding vision-language models: insights and future directions

Paper • 2408.12637 • Published Aug 22 • 117

upvoted a collection 3 months ago

Vision-Language Modeling

Our datasets and models for Visual-Language Modeling • 5 items • Updated Jul 26 • 6

upvoted 2 papers 4 months ago

Vision language models are blind

Paper • 2407.06581 • Published Jul 9 • 82

Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model

Paper • 2407.07053 • Published Jul 9 • 41

upvoted a paper 5 months ago

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

Paper • 2406.08418 • Published Jun 12 • 28

upvoted a paper 6 months ago

Your Transformer is Secretly Linear

Paper • 2405.12250 • Published May 19 • 150

upvoted 2 papers 7 months ago

Learn Your Reference Model for Real Good Alignment

Paper • 2404.09656 • Published Apr 15 • 82

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

Paper • 2404.02905 • Published Apr 3 • 64

upvoted a paper 9 months ago

Linear Transformers with Learnable Kernel Functions are Better In-Context Models

Paper • 2402.10644 • Published Feb 16 • 78