PPT에 넣을 내용

Introduction

Vision-Language Model(VLM)이 발전함에 따라서 2가지가 중요시 여겨지는 추세라고 합니다. 이는 각각 refering과 grounding을 가르키게 되는데, refering은 특정 객체에 대한 정보를 입력단에서 주고 VLM(=mLLM)이 적절한 설명을 수행하도록 하는 작업을 합니다. 반면, grounding은 특정 이미지에 대한 설명을 주고, 그 설명에 알맞은 객체 혹은 포지션을 이미지 내에서 표시하는 작업을 의미합니다.

이 두 작업은 모두 이미지에 대한 세밀한 이해를 기반으로 하기 때문에 어려운 작업에 속하게 됩니다. 기존 연구들은 주로 refering와 grounding를 개별적으로 학습했으나, 사람들은 한 작업에서 얻은 지식을 다른 작업에 쉽게 일반화하고, 일상 대화와 추론에 refering/grounding 능력을 원활하게 통합할 수 있습니다. 이러한 관찰에서 영감을 받아 저자들은 다음 세 가지 주요 질문을 탐구합니다:

  1. Referring과 Grounding을 하나의 프레임워크로 어떻게 통합할 수 있을까?

  2. 다양한 유형의 영역을 모델이 어떻게 이해할 수 있도록 할까?

    hybrid 영역 표현을 입력으로 사용함으로써, Ferret는 point, bounding box, scribble, free-form 등 다양한 형태를 처리할 수 있습니다. 이는 Ferret 저자들이 처음으로 제안했으며 어떠한 입력들도 받을 수 있어야 하는 것을 저자들은 중요시 여겼습니다.

  3. Referring과 Grounding을 open-vocab과 instruction-following에 따라 어떻게 견고하게 만들 수 있을까?

    저자들은 GRIT 데이터셋의 수집을 통해, 복잡한 공간적 관계와 추론을 포함한 다양한 작업을 위한 광범위한 학습 자료를 public dataset으로 부터 GPT 모델을 활용하여 만들어 내었고, robust 함을 주기 위해서 유사한 이미지 혹은 유사한 category를 같이 나열하여 학습하는 negative mining 데이터도 수집하여 훈련합니다.

Related works

Multimodal Large Language Models (MLLMs)

MLLMs for Referring and Grounding

Unifying Grounding and VL Understanding

Method

3.1. Hybrid Region Representation