-
Pyramid Scene Parsing Network 리뷰공부기록/논문리뷰 2022. 9. 28. 14:14
Title
Pyramid : SPPNet 같이 다양한 크기의 feature map을 갖는 피라미드 구조겠구나
Scene Parsing : Scene Understanding하고 비슷한건가?
Abstract
Scene Parsing은 open vocabulary라는 점과 scene이 다양하다는 점이 어려움.
이 논문에선 global context의 서로 다른 영역의 정보를 더하는 방식을 제안함.Figures
ADE20K 데이터셋에서, 복잡한 scene의 모습.
ADE20K을 scene parsing할 때 발생한 이슈들. 잘못 분류하는등의 문제가 있다.
PSPNet의 구조. CNN을 통해 우선 feature map을 얻고 pyramid parsing을 통해 계산한다.
그림에서 보이는 대로 다양한 size로 convolution을 한다. 1x1, 2x2, 3x3, 6x6.
그런 뒤 1x1 convolution을 적용해 채널을 1로 줄인다.
그러면 기존에 feature map(b)와 concat이 가능해진다.Introduction
Scene parsing은 label이 다양해서 어렵다.
fig2. 를 보면, 배인데 차라고 잘못 label한게 있다.
둘의 외형이 비슷해서 생기는 오류지만, 이미지 전체의 context를 본다면 올바르게 예측했을 것이다.현재의 FCN 모델은 global scene의 카테고리 힌트를 잘 활용하지 못하고 있다.
global보기 위해 보통 SPP를 사용했는데, 우리는 PSPNet을 제시한다. 적절한 global feature와 상호작용하는 방식으로 동작한다. local과 global clue모두 사용해 예측한다.(pixel prediction 방식으로)또한 deeply supervised loss에 대한 최적화 방식도 제안한다.
Conclusion
About Model
Self Questions
What did authors try to accomplish?
Key elements of the approach?
What can you use yourself?
Other references want to follow?
Questions
#
'공부기록 > 논문리뷰' 카테고리의 다른 글