ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Segmenting Transparent Objects in the Wild 리뷰
    공부기록/논문리뷰 2022. 9. 29. 17:38

    Title

    Wild : 좀 거친 환경에서도 잘 동작하는 점을 어필하고 싶었나보다

    Abstract

    창문이나 병처럼 유리로 만든 물체는 환경에 따라 다양한 외형을 가지기 때문에 segmentation하기 힘들다.

    또한, 이전에는 데이터셋또한 제대로 구축되어있지 않다.
    그래서 Trans10K라는 데이터셋을 공개한다.
    또한 새로운 boundary-aware segmentation 방식을 제안한다.

    Figures

    제공한 Trans10K 데이터셋에 대한 설명이다. labeling등에 신경써서 만들었으며, thing(작은 물체)와 stuff(크고, 이동 불가능한 물체)의 두 카테고리로 나누어 물체를 구분했다. 파란색이 things, 갈색이 stuff이다.

    데이터셋의 일부이다. easy와 hard로 난이도 구분이 되어있는걸 알 수 있다.

    Fig6에 와서야 모델의 구조를 설명한다. Fig5까지는 전부 Trans10K 데이터셋에 대한 설명이었다. 아마 모델 structure보다는 데이터셋에 대한 contribution이 큰 논문같다.

    모델 구조만 봤을 때는, DeepLabV3+와 유사하다.Encoder 구조는 동일하지만, TransLab은 Regual와 Boundary 두개의 stream이 있다는 점이 다르다. Decoder 구조 또한 동일하지만, Decoder 이전에 BAM이 추가된 만큼, 그 부분을 반영하기 위한 작업이 추가로 들어가있다.


    참고로, DeepLabV3+ 모델의 구조는 이렇다.

    Introduction

    Trans10K는 이전의 데이터셋에 비해 3가지의 장점이 있다.

    1. 거실, 사무실, 슈퍼마켓등 다양한 scene에서 이미지가 수집되었다
    2. stuff와 things 두 가지로 구분되었다.
    3. easy와 hard 두가지로 구분했다.

    DeepLabV3+같은 이전 sota를 단순히 적용하는 것으로는 좋은 결과물이 나오지 않았다.
    그래서 TransLab 모델을 제시한다.
    TransLab은 content segmentation과 boundary prediction의 두 단계를 거치고, Boundary Attention Module(BAM)을 지나는 구성이다.

    요약하자면 이 논문의 contribution은 세 가지이다. Trans10K dataset, boundary-aware접근의 TransLab, Trans10K를 이용한 ablation study가 주요 기여점이다.

    Conclusion

    About Model

    Figure에서 구조에 대해 이미 간단히 알아봤다. DeepLabV3+와 구조 자체는 굉장히 유사하기 때문에, BAM의 기능을 중심으로 보았다.

    regular와 boundary의 두 가지 stream으로 진행이 된다.
    regular는 segmentation, boundary는 boundary를 예측한다.
    그래서 먼저 boundary를 예측한 뒤, 예측한 boundary를 힌트로 regular stream을 진행한다.

    BAM이 boundary에 대한 attention 기능을 제공한다.
    BAM은 regular stream의 feature map과 predicted boundary map을 입력으로 boundary attention을 계산한다.
    boundary attention 계산 전 후의 boundary feature map을 concat해서 channel attention을 진행한다.
    C1, C2, C4(피라미드의 각 계층)에 BAM을 적용할 수 있는데, 이에 대한 연구도 section5에 진행되어 있다(이 글에서는 다루지 않음)

    Self Questions

    What did authors try to accomplish?

    Key elements of the approach?

    What can you use yourself?

    Other references want to follow?

    Questions

    Related Papers

-