공부기록/논문리뷰 2021. 7. 7. 10:00

Introduction

Related Work

Image Caption Generation with Attention

Mechanism

Model Details

Encoder

a = feature vector

L = filter 개수

D = 차원

14 x 14 x 512 conv → 196 * 512

show and tell은 CNN의 fully connected layer를 사용했었음

VGG

Decoder

$h_{t - 1}$ 전 hidden state

$E y_{t - 1}$ $y_{t - 1}$ =전단계에서 생성된 캡션. 그것을 E로 embedding한거

$\hat{z_{t}}$ context vector. annotation vector $a_{i}, i = 1, . . ., L$ . 이게 아까 Encoder에서 나온 L

$α_{t}$ = time t에서 a(cnn vector)의 weight vector. 다 더하면 1임(softmax로 정의되기때문에)

$α_{t i}$ = time t에서 a의 i번째의 weight vector

$ϕ$ = 그걸 사용해 구하는 방법(function)

Learning Stochastic “Hard” vs

Deterministic “Soft” Attention

Stochastic "Hard" Attention

st = attention location

st를 multinoulli distribution parametrize(categorical distribution)시키면 $α_{t}$

marginal log-likelihood log p(y|a)를 lower bound로 구한 식

이걸 미분한 식을 보면 Monte Carlo based Sampling을 이용함. 위에 8번식을 이용해서 st를 multinouli로 샘플링해서 구함

그런데 Monte 쓰면 variance가 커진다고 함. 이걸 줄이기 위해서 moving average를 사용하고, bk가 그 baseline으로 사용됨

variance를 더 줄이기 위해서 multinouilli distribution의 entropy term으로 H[s]도 추가하면 위에 식으로 바뀜

이게 강화학습의 update rule과 같다고 함

Deterministic “Soft” Attention

Hard attention처럼 매번 샘플링하는 대신 deterministic(확률)로 zt 직접계산함

smooth 하고 differentiable(미분가능)해서 end-to-end로 back-propagation을 이용해 학습이 가능함

soft attention도 앞에서 st를 사용해서 log p(y|a)의 likelihood를 optimizing하는걸로 구함

LSTM의 ht가 stochastic context vector인 $\hat{z_{t}}$ 에 non-linearity인 tanh를 사용한 linear projection이기 때문에

를 테일러 급수를 이용해 추정(first order) 하면

를 사용해 forward prop을 한번 진행해서 ht를 구한 값이 위에 식과 같아진다고 함.(??)

7번 식을 참고하면, k번째 단어를 추정하는 NWGM(Normalized Weighted Geometric Mean)을 다음과 같이 정의함.(for the softmax)

이고, 이는 st로 유도된 모든 attention 위치에 대한 output의 expectation이 $E [\hat{z_{t}}]$ 를 이용한 간단한 feedforward propagation으로 계산됨

→ deterministric attention model은 모든 attention 위치에 대한 marginal likelihood의 approximation

DOUBLY STOCHASTIC ATTENTION

1이 아니라 근사한다고 추정해서 함. 좀더 나은 성능을 냈다고 함

RMSProp(moving average)

VGGnet

14×14×512 feature map

Experiments

Conclusion

Acknowledgments

저작자표시 비영리 (새창열림)

'공부기록 > 논문리뷰' 카테고리의 다른 글

Interactive Robotic Grasping with Attribute-Guided Disambiguation 리뷰 (0)	2022.09.26
Neural Architectures for Named Entity Recognition(2016) (0)	2022.06.09
Efficient Estimation of Word Representations in Vector Space(Word2Vec) (0)	2021.07.07
Show and Tell (0)	2021.07.06
Style Transfer Using CNN (0)	2021.07.05

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

인기포스트

ABOUT ME

안녕하세요 임창록입니다 안녕하세요 임창록입니다

Introduction

Related Work

Image Caption Generation with Attention

Model Details

Encoder

Decoder

Learning Stochastic “Hard” vs

Stochastic "Hard" Attention

Deterministic “Soft” Attention

DOUBLY STOCHASTIC ATTENTION

Experiments

Conclusion

Acknowledgments

'공부기록 > 논문리뷰' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

인기포스트

ABOUT ME

Introduction

Related Work

Image Caption Generation with Attention

Model Details

Encoder

Decoder

Learning Stochastic “Hard” vs

Stochastic "Hard" Attention

Deterministic “Soft” Attention

DOUBLY STOCHASTIC ATTENTION

Experiments

Conclusion

Acknowledgments

'공부기록 > 논문리뷰' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역