PPT에 넣을 내용

Introduction

Vision-Language Model(VLM)이 발전함에 따라서 2가지가 중요시 여겨지는 추세라고 합니다. 이는 각각 refering과 grounding을 가르키게 되는데, refering은 특정 객체에 대한 정보를 입력단에서 주고 VLM(=mLLM)이 적절한 설명을 수행하도록 하는 작업을 합니다. 반면, grounding은 특정 이미지에 대한 설명을 주고, 그 설명에 알맞은 객체 혹은 포지션을 이미지 내에서 표시하는 작업을 의미합니다.

이 두 작업은 모두 이미지에 대한 세밀한 이해를 기반으로 하기 때문에 어려운 작업에 속하게 됩니다. 기존 연구들은 주로 refering와 grounding를 개별적으로 학습했으나, 사람들은 한 작업에서 얻은 지식을 다른 작업에 쉽게 일반화하고, 일상 대화와 추론에 refering/grounding 능력을 원활하게 통합할 수 있습니다. 이러한 관찰에서 영감을 받아 저자들은 다음 세 가지 주요 질문을 탐구합니다:

Referring과 Grounding을 하나의 프레임워크로 어떻게 통합할 수 있을까?
다양한 유형의 영역을 모델이 어떻게 이해할 수 있도록 할까?

hybrid 영역 표현을 입력으로 사용함으로써, Ferret는 point, bounding box, scribble, free-form 등 다양한 형태를 처리할 수 있습니다. 이는 Ferret 저자들이 처음으로 제안했으며 어떠한 입력들도 받을 수 있어야 하는 것을 저자들은 중요시 여겼습니다.
Referring과 Grounding을 open-vocab과 instruction-following에 따라 어떻게 견고하게 만들 수 있을까?

저자들은 GRIT 데이터셋의 수집을 통해, 복잡한 공간적 관계와 추론을 포함한 다양한 작업을 위한 광범위한 학습 자료를 public dataset으로 부터 GPT 모델을 활용하여 만들어 내었고, robust 함을 주기 위해서 유사한 이미지 혹은 유사한 category를 같이 나열하여 학습하는 negative mining 데이터도 수집하여 훈련합니다.

Related works

Multimodal Large Language Models (MLLMs)

Early Models: 초기 MLLMs 연구는 image-text 사이의 상호작용을 학습하기 위해 대규모 image-text pair에 대한 사전 훈련에 중점을 두었습니다. 이러한 모델들은 복잡한 VL 상황에서의 추론 및 생성 작업을 수행할 수 있었습니다.
Recent Advances: 최근 연구는 사전 훈련된 LLMs를 활용하여 visual instruction tuning을 조정하고, 텍스트 생성뿐만 아니라 이미지 grounding 및 reffering을 가능하게 하는 새로운 모델을 개발하는 데 집중하고 있습니다.

MLLMs for Referring and Grounding

Kosmos-2, Shikra, GPT4ROI, PVIT: 이미지 내 세부 사항에 대한 미세한 이해 및 reffering, grounding을 가능하게 하는 MLLMs 입니다. 이들은 이미지 입력으로 bounding boxes 또는 포인트를 사용합니다.

Unifying Grounding and VL Understanding

UniTAB, OFA, Unified-IO: 이 연구들은 text와 bbox를 출력으로 하도록 하기 위해 vision-language (VL) 모델과 추가적인 토큰을 통합하는 작업입니다. Ferret도 유사하게 이미지 내에서 추론하는 객체를 grounding 하는 능력을 포함하고 있습니다.

Method

3.1. Hybrid Region Representation

이산적 좌표: point나 box와 같은 단순한 형태는 이산적인 좌표(예: [x, y] 또는 [xmin, ymin, xmax, ymax])로 표현됩니다. 이는 영역의 위치를 명확하게 지정합니다. 이들은 기존에 사용되던 방법입니다.
연속적 시각적 특징: Free-form 이나 복잡한 형태는 단순한 좌표로는 충분히 표현되기 어렵습니다. 저자들은 이미지 내의 대상 영역을 효과적으로 표현하기 위해 spatial-aware visual sampler를 제안하고 사용합니다. 이를 위해 2D 바이너리 마스크와 이미지 특징 맵을 사용하여 영역의 시각적 정보를 추출합니다.