ABOUT ME

Today
Yesterday
Total
  • Show, attend and Tell
    공부기록/논문리뷰 2021. 7. 7. 10:00

    Introduction

     

    Related Work

    Image Caption Generation with Attention

    Mechanism

    Model Details

    Encoder

    a = feature vector

    L = filter 개수

    D = 차원

    14 x 14 x 512 conv → 196 * 512

    show and tell은 CNN의 fully connected layer를 사용했었음

    VGG

    Decoder

    ht1 전 hidden state

    Eyt1 yt1=전단계에서 생성된 캡션. 그것을 E로 embedding한거

    zt^ context vector. annotation vector ai,i=1,...,L. 이게 아까 Encoder에서 나온 L

    αt = time t에서 a(cnn vector)의 weight vector. 다 더하면 1임(softmax로 정의되기때문에)

    αti = time t에서 a의 i번째의 weight vector

    ϕ = 그걸 사용해 구하는 방법(function)

    Learning Stochastic “Hard” vs

    Deterministic “Soft” Attention

    Stochastic "Hard" Attention

    st = attention location

    st를 multinoulli distribution parametrize(categorical distribution)시키면 αt

    marginal log-likelihood log p(y|a)를 lower bound로 구한 식

    이걸 미분한 식을 보면 Monte Carlo based Sampling을 이용함. 위에 8번식을 이용해서 st를 multinouli로 샘플링해서 구함

    그런데 Monte 쓰면 variance가 커진다고 함. 이걸 줄이기 위해서 moving average를 사용하고, bk가 그 baseline으로 사용됨

    variance를 더 줄이기 위해서 multinouilli distribution의 entropy term으로 H[s]도 추가하면 위에 식으로 바뀜

    이게 강화학습의 update rule과 같다고 함

    Deterministic “Soft” Attention

    Hard attention처럼 매번 샘플링하는 대신 deterministic(확률)로 zt 직접계산함

    smooth 하고 differentiable(미분가능)해서 end-to-end로 back-propagation을 이용해 학습이 가능함

    soft attention도 앞에서 st를 사용해서 log p(y|a)의 likelihood를 optimizing하는걸로 구함

    LSTM의 ht가 stochastic context vector인 zt^에 non-linearity인 tanh를 사용한 linear projection이기 때문에

    를 테일러 급수를 이용해 추정(first order) 하면

    를 사용해 forward prop을 한번 진행해서 ht를 구한 값이 위에 식과 같아진다고 함.(??)

    7번 식을 참고하면, k번째 단어를 추정하는 NWGM(Normalized Weighted Geometric Mean)을 다음과 같이 정의함.(for the softmax)

    이고, 이는 st로 유도된 모든 attention 위치에 대한 output의 expectation이 E[zt^]를 이용한 간단한 feedforward propagation으로 계산됨

    → deterministric attention model은 모든 attention 위치에 대한 marginal likelihood의 approximation

    DOUBLY STOCHASTIC ATTENTION

    1이 아니라 근사한다고 추정해서 함. 좀더 나은 성능을 냈다고 함

    RMSProp(moving average)

    VGGnet

    14×14×512 feature map

    Experiments

    Conclusion

    Acknowledgments

-