Summary

Methods

3.1 Layout Embedding

위에서 설명한 바와 같이 저자들은 layout을 일관된 크기로 받아들이고 전체 이미지, 객체간의 관계 등을 파악할 수 있도록 하기 위해서 모두 동일한 형태로 변경해서 학습에 관여하도록 만드는 것이 중요하였습니다. 이를 위해 우선 레이아웃을 표현하는 방법에 대해 정의하고 시작합니다.

각각의 o는 {b, c)로 이루어져 있으며 각각 bbox, class로 표현됩니다. 또한 전체 이미지를 표현하는 것을 O_1, 객체 없음을 표현하기 위해 O_P로 표현합니다. 객체 없음이 존재하는 이유는 저자들이 모든 샘플들에서 가변적으로 존재하는 layout을 모두 동일하게 반영해서 훈련에 사용하기 위함입니다. k로 표현하고 있는데 그러면 모든 샘플들의 최대로 사용할 수 있는 layout은 k개 입니다. 그러고서 layout들을 특정 weight를 통해 embedding화 합니다. W들은 weight로써 각각을 표현할 수 있게 나타나집니다.

Untitled

3.2 Layout Fusion Module

Untitled

저자들은 3.1 에서 만든 layout embedding을 객체 간의 관계 이해를 위해 LFM이라고 하는 self encoder가 가득한 Module에 전달합니다. 보통 self-attention(SA)는 자신의 샘플(이미지) 내에서 관계성을 찾기 위해 사용되어며 query-key 가 모두 자기 자신이 됩니다. 물론 value도 자기 자신입니다. (보통은 MLP로 처리한 feature를 입력으로 받습니다.)

3.3 Image-Layout Fusion Module

Structural Image Patch

Untitled