Summary

일반적인 Diffusion 모델을 Layout을 더 잘 반영하도록 변경한 모델
코드 상에서는 LatentDiffusion으로 DM을 변경하는 코드도 올려두었지만 논문 자체로는 image feature를 다루고 있는 basic한 DM을 사용합니다.
Layout을 잘 반영할 수 있도록 Cross Attention(CA)을 적극 활용하였으며 이를 효율적으로 하기 위해서 image를 patch 단위로 나눠 관리하면서 layout을 conditioning 하기 위해 동일한 형태로 변경하는 format도 제시하였습니다.(사실 이 부분은 원래 그렇게 하는지 모르겠습니다. 이 부분이 처음이라)
저자들이 제시하는 CA 를 통해서 객체들이 서로의 관계를 잘 파악하게 만들었으며 뿐만아니라 이미지 전체에 대한 background도 이해할 수 있도록 whole image feature도 layout처럼 넣어주게 됩니다.

Methods

3.1 Layout Embedding

위에서 설명한 바와 같이 저자들은 layout을 일관된 크기로 받아들이고 전체 이미지, 객체간의 관계 등을 파악할 수 있도록 하기 위해서 모두 동일한 형태로 변경해서 학습에 관여하도록 만드는 것이 중요하였습니다. 이를 위해 우선 레이아웃을 표현하는 방법에 대해 정의하고 시작합니다.

$l = \{o_1, o_2, ..., o_n\}$

각각의 o는 {b, c)로 이루어져 있으며 각각 bbox, class로 표현됩니다. 또한 전체 이미지를 표현하는 것을 O_1, 객체 없음을 표현하기 위해 O_P로 표현합니다. 객체 없음이 존재하는 이유는 저자들이 모든 샘플들에서 가변적으로 존재하는 layout을 모두 동일하게 반영해서 훈련에 사용하기 위함입니다. k로 표현하고 있는데 그러면 모든 샘플들의 최대로 사용할 수 있는 layout은 k개 입니다. 그러고서 layout들을 특정 weight를 통해 embedding화 합니다. W들은 weight로써 각각을 표현할 수 있게 나타나집니다.

Untitled

3.2 Layout Fusion Module

Untitled

저자들은 3.1 에서 만든 layout embedding을 객체 간의 관계 이해를 위해 LFM이라고 하는 self encoder가 가득한 Module에 전달합니다. 보통 self-attention(SA)는 자신의 샘플(이미지) 내에서 관계성을 찾기 위해 사용되어며 query-key 가 모두 자기 자신이 됩니다. 물론 value도 자기 자신입니다. (보통은 MLP로 처리한 feature를 입력으로 받습니다.)

3.3 Image-Layout Fusion Module

Structural Image Patch

Untitled