World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models

Eunsu Kim, Junyeong Park, Na Min An, Junseong Kim, Hitesh Laxmichand Patel, Jiho Jin, Julia Kruk, Amit Agarwal, Srikant Panda, Fenal Ashokbhai Ilasariya, Hyunjung Shim, Alice Oh. CVPR (2026).

Publisher arXiv X/Twitter LinkedIn Email

Abstract. This paper studies how vision-language models behave when multiple cultural cues appear together in the same visual scene. It introduces a benchmark for culture-mixing scenarios and analyzes failure modes such as background sensitivity and inconsistent cultural attribution.

Amit Agarwal

World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models

Related Papers