-
Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis 리뷰공부기록/논문리뷰 2022. 9. 26. 22:08
Title
Efficient, Indoor Scene
Abstract
Semantic segmentation은 여러가지 task에 도움을 줌. 사람인식, 빈공간 찾기 등등.
이 논문에선 모바일 로봇등에서 잘 쓸 수 있는 efficient RGB-D를 사용하는 segmentation을 제시함. RGB만 쓰는거보다 RGB-D를 쓰는게 네트워크 디자인을 더 잘하면 더 좋음.Figures
RGB-D sementic approach는 여러 프로세스에 사용될 수 있음
제시한 모델(ESANet)의전체 구조Introduction
semantic mapping 해야하는데, computing power하고 배터리가 한정적이라서 효율적이어야함.
우리 모델을 그런 inital step에서 사용하기 효과적임.두 개의 shallow encoder(RGB랑 depth)를 사용해서 RGB만 사용하는 하나의 deep encoder보다 빠르면서도 더 나은 성능을 보여줌.
mIoU같은 지표보다 실제 임베디드 하드웨어에서 성능을 추구했음.(Xavier사용)
논문의 메인 contirubtion은
- efficient RGB-D segmentation approach.
- NVIDIA TensorRT에 최적화가능한 architecture
- efficient RestNet-based encoder
- decoder utilizing updampling
- 디테일한 ablation study
- robotic scene에 대한 양질의 결과.
Conclusion
Non-bottleneck-1D-block을 사용한 2개의 ResNet-based encoder해 efficient한 RGB-D segmentation을 했고, depth와 attention-based fusion을 했다.
또한 upsampling을 사용했다.
Thinks
ResNet의 기본적인 block을 사용했고, 절감을위해 spatially factorized된 버전을 사용함.(3x3 conv를 3x1과 1x3 conv+ReLU로 대체함. NBt1D라고 명명함. 찾아보니까 symmetric Convolution이라고 하는듯)
Self Questions
What did authors try to accomplish?
fuse RGB and depth well than studied before
Key elements of the approach?
superpixel prototype mask sampling, relibalitly fusing RGB and depth
What can you use yourself?
Other references want to follow?
전형적인 multi-fusion 방식
'공부기록 > 논문리뷰' 카테고리의 다른 글
ERFNet: Efficient Residual Factorized ConvNetfor Real-Time Semantic Segmentation (0) 2022.09.29 Pyramid Scene Parsing Network 리뷰 (0) 2022.09.28 Self6D: Self-Supervised Monocular 6D Object Pose Estimation 리뷰 (0) 2022.09.26 Interactive Robotic Grasping with Attribute-Guided Disambiguation 리뷰 (0) 2022.09.26 Neural Architectures for Named Entity Recognition(2016) (0) 2022.06.09 - efficient RGB-D segmentation approach.