공부기록/논문리뷰
-
Segmenting Transparent Objects in the Wild 리뷰공부기록/논문리뷰 2022. 9. 29. 17:38
Title Wild : 좀 거친 환경에서도 잘 동작하는 점을 어필하고 싶었나보다 Abstract 창문이나 병처럼 유리로 만든 물체는 환경에 따라 다양한 외형을 가지기 때문에 segmentation하기 힘들다. 또한, 이전에는 데이터셋또한 제대로 구축되어있지 않다. 그래서 Trans10K라는 데이터셋을 공개한다. 또한 새로운 boundary-aware segmentation 방식을 제안한다. Figures 제공한 Trans10K 데이터셋에 대한 설명이다. labeling등에 신경써서 만들었으며, thing(작은 물체)와 stuff(크고, 이동 불가능한 물체)의 두 카테고리로 나누어 물체를 구분했다. 파란색이 things, 갈색이 stuff이다. 데이터셋의 일부이다. easy와 hard로 난이도 구분이 되어..
-
ERFNet: Efficient Residual Factorized ConvNetfor Real-Time Semantic Segmentation공부기록/논문리뷰 2022. 9. 29. 14:27
Title Redidual : ResNet 같이 Residual connection이 있으려나 Abstract Semantic segmentation의 현재 sota는 quality와 computational resource에서 trade-off가 그렇게 괜찮지 않음. 그래서 실제 vehicle같은데서 활용하기 어려움. 이 논문에선 real time에 가능한 semantic segmentation을 제안함. 우리 구조의 핵심은 redisual connection과 factorized convolution을 사용하는 레이어임. Figures 전체적인 구조. encoder-decoder 구조로 이루어져있다. b는 원래 있었던 bottleneck 구조, c가 이 논문이 제안하는 non-bottleneck-1d..
-
Pyramid Scene Parsing Network 리뷰공부기록/논문리뷰 2022. 9. 28. 14:14
Title Pyramid : SPPNet 같이 다양한 크기의 feature map을 갖는 피라미드 구조겠구나 Scene Parsing : Scene Understanding하고 비슷한건가? Abstract Scene Parsing은 open vocabulary라는 점과 scene이 다양하다는 점이 어려움. 이 논문에선 global context의 서로 다른 영역의 정보를 더하는 방식을 제안함. Figures ADE20K 데이터셋에서, 복잡한 scene의 모습. ADE20K을 scene parsing할 때 발생한 이슈들. 잘못 분류하는등의 문제가 있다. PSPNet의 구조. CNN을 통해 우선 feature map을 얻고 pyramid parsing을 통해 계산한다. 그림에서 보이는 대로 다양한 size로..
-
Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis 리뷰공부기록/논문리뷰 2022. 9. 26. 22:08
Title Efficient, Indoor Scene Abstract Semantic segmentation은 여러가지 task에 도움을 줌. 사람인식, 빈공간 찾기 등등. 이 논문에선 모바일 로봇등에서 잘 쓸 수 있는 efficient RGB-D를 사용하는 segmentation을 제시함. RGB만 쓰는거보다 RGB-D를 쓰는게 네트워크 디자인을 더 잘하면 더 좋음. Figures RGB-D sementic approach는 여러 프로세스에 사용될 수 있음 제시한 모델(ESANet)의전체 구조 Introduction semantic mapping 해야하는데, computing power하고 배터리가 한정적이라서 효율적이어야함. 우리 모델을 그런 inital step에서 사용하기 효과적임. 두 개의 sh..
-
Self6D: Self-Supervised Monocular 6D Object Pose Estimation 리뷰공부기록/논문리뷰 2022. 9. 26. 21:35
# Title Self-Supervised : lable같은 것 없이 자신의 feature같은걸 이용해서 학습하겠다. Monocular : 단안 카메라를 사용했다? # Abstract CNN이 6D pose estimate에서 성능이 좋긴 한데 데이터에 영향을 너무 많이 받고, 적절한 annotation을 하는데 비용이 너무 많이 든다. synthetic RGB데이터로 supervised learning된 우리 네트워크를 사용하면, unannotated된 real RGB-D데이터에 대해 self-supervised learning할 수 있다. visually and geometrically하게 맞게 align된 상태로. 다른 방법들보다 evaluation이 잘나온다. 우리 방식을 쓰면 원래 있던 모델의 ..
-
Interactive Robotic Grasping with Attribute-Guided Disambiguation 리뷰공부기록/논문리뷰 2022. 9. 26. 20:58
Title Attribute-Guided Disambiguation : 특성을 가지고 모호성을 제거하겠다. Abstract 자연어로 robotic grasping을 제어하는건 중요하지만, ambiguity때문에 어려운 점이 있다. 이 논문에서는 object의 attribute의 애매성을 dialogue를 통해 제거하는 연구이다. 접근 방식으로 target score와 attribute score를 vision-and-language grounding을 통해 계산하고 A하tr-POMDP를 통해 모호성을 제거한다. Attr-POMDP는 앞서 구한 두 score를 이용해 question을 생성한다. Figures 이런 상황에서 사과를 집어 달라는 명령은 애매하다 전체 구조는 다음과 같다. object grou..
-
Neural Architectures for Named Entity Recognition(2016)공부기록/논문리뷰 2022. 6. 9. 14:32
NER(Named Entity Recognition) 문장에서 이름을 가진 개체를 인식하는 것. 이름, 장소, 시간같이 고유명사같은 것들을 다른 일반 명사와 구분해서 인식하는 것. NER 전통적인 접근법 Rule Based : 사전(gazetteer)을 적용함. 다른 도메인으로가면 정확도 낮아짐 Unsupervised Learning : 문맥적 유사도 따라서 분류함. 문법적 지식에 의존함 IOB 표현법 B = Begin, I=Inside, O=Outside. 각각 개체명의 시작, 중간(끝포함), 개체명 아님을 나타낸다. 예를들어, ”해리포터 보러가자” 라는 문장이 있으면, 해=B, 리,포,터=I, 보,러,가,자=O Abstract 당시 SOTA NER모델은 도메인 의존 지식(gazetteer)이나 수제작..
-
Efficient Estimation of Word Representations in Vector Space(Word2Vec)공부기록/논문리뷰 2021. 7. 7. 22:13
Abstract 매우 큰 단어 데이터셋에서 사용할 수 있는 벡터 표현 방법 2가지를 제시한다 1. Introduction 단어를 원자단위((인덱스)로 다뤄서 단어간 유사도가 없다. 그런 방식은 단순하다는 장점이 있긴하다. N-gram 모델은 통계적 단어 모델링 했다. 그러나, 한계가 있다. 예로, 음성인식. 높은 퀄리티의 말 데이터가 있어야 되는데, corpora(말뭉치들) 몇 백만개 단어밖에 없음. 더 복잡하고 많은 데이터 셋 학습하면 보통 더 좋았다. 가장 성공적인 컨셉은 distributed representation. 예를들어, neural network기반 언어 모델이 N-gram 모델을 압도한다. 1.1 Goals of the Paper 수백만 워드로 벡터 높은 퀄리티. 앞선 모델들 중은 수백..