1. Introduction MAE 등의 masked image modeling (MIM)은 그 단순성과 풍부한 representation을 학습할 수 있는 능력 때문에 기존 self-supervised learning method보다 downstream task에서 좋은 성과를 보였고, 그 덕에 최근 self-supervised learning 분야에서 각광받고 있다. MIM 이전에 self-supervised learning에서 가장 주목받던 contrastive learning과는 달리, MIM은 (reconstruction task를 수행하기 위해) 다른 이미지들과의 관계를 모델링 하기 보다는 인풋 이미지의 local relation 을 학습하는 데에 더 초점을 맞춘다. 그 덕에 MIM은 disc..