전체 글
-
8강, Final Projects; Practical Tips공부기록/cs224n 2022. 6. 28. 17:18
사실, 이 강의는 과제에 대한 설명이기 때문에 넘어가려고 했다. 그러나 한번 강의 노트를 봤더니 과제 뿐만 아니라 내가 어떤 task를 해결할 수 있을 때 사용할 수 있는 방법들이 많아서 정리해놓기로 했다. 과제에 한정적인 내용은 제외하고 도움될만한 것들만 요약해놓았다. Proposal에선 연관된 논문을 찾고 논문 요약을 해서 key idea를 뽑아내고 프로젝트에 어떻게 사용할지 계획을 세우고 프로젝트 계획, 찾아볼 모델, 데이터, 평가 방법같은 것들을 찾아야함 논문을 비판적으로 잘 읽는법 새로운 기여점이 있는가 다른 방법으로 쓸 수 있는가? 논문이 모자란점은? 다른 사람들과의 차이점은? 이런 식으로 프로젝트를 writeup하면 좋겠다. Research할 주제를 찾는데는 두가지 방식이 있다. domain..
-
9주차, Hidden Markov Model공부기록/인공지능개론 2022. 6. 23. 20:54
중앙에 빨간 점이 시간 t에 따라서 위치가 바뀌었다고 생각해보자. 그럴 때 gaussian model이 어떻게 바뀌어야할까? 우상단 그림에서, z는 N개의 데이터 포인트가 어디에 clustering되는지 나타내는 factor 원래는 pi가 주어지면 서로 독립적이었는데, pi를 initial state로 해서 구조를 바꿈 (RNN처럼생겼네). 그래서 다음 time에 이전 거가 영향을 미친다고 모델링을 해보자. → Hidden Markov Model observation x는 discrete할수도 continuous할수도있음(강의에선 discrete) x1…x_T는 1에서 T까지 시간별로 관측한 값.(x는 벡터일수도있음) 시간에 따라 K개의 cluster가 있다고 해보자. (latent factor도 con..
-
8주차, K-Means Clustering and Gaussian Mixture Model공부기록/인공지능개론 2022. 6. 23. 20:53
Unsupervised Learning - label 없음. 패턴을 찾는 것 K-Means KNN이랑은 다름! KNN은 한 점에서 K개의 근처의 점을 찾아서 그 점을 판정하는거 내부 동력이 K개쯤 있다고 가정하고 분류하는 것 그리고 가까이 있는 개별 점들을 할당함 mu_k가 centroid의 위치, x가 개별 데이터. r_nk는 k번 centroid에 assign되면 1, 아니면 0 r_nk와 mu_k를 반복적으로 optimize해야함 Expectation→Maximization을 번갈아 가면서 수행하는 것 Expectation 주어진 파라미터들로 log-likelihood예측 데이터들을 가까운 centroid에 할당하는 작업(r_nk를 optimize) Maximization 파라미터들을 최대화함. 주..
-
7강, Translation, Seq2Seq, Attention공부기록/cs224n 2022. 6. 23. 20:53
어떤 언어(source language)의문장 X를 다른 언어(target language)문장Y로 변환하는것 모델을 2부분으로 나눠 번역-문장만들기로 나눌 수 있었음 정렬에 대해 생각을 먼저 해보자. 정렬은 언어간 문법의 차이를 해결하는 것임. 여기서 Le는 국가 앞에 넣는 정관사 the 같은건데, 영어로는 번역이 없음 그래서 사라짐 여러 단어가 한 단어로 합쳐질수도 있음 반대도 가능함 이렇게 관계가 복잡할 때도 있음. 이건 언어간에서만 그런게 아니라 같은 언어로 다르게 말할 때도 이런 문제가 발생함 alignment는 latent variable이라서 expectation-maximization같은 방법으로 알아내야함. 요즘은 그렇게 하지 않음. 그럼 평가는 어떻게 해야할까? 모든 y 순서를 계산하는..
-
7주차, Bayesian Network공부기록/인공지능개론 2022. 6. 16. 15:50
확률 복습 relative한 빈도다. conditional prob 와 joint prob간의 관계. joint distribution을 알면, 다양한 확률들을 알아낼 수 있다. joint probability를 conditional probability로 계속 나눠서 곱셈 꼴로 나타내는걸 chian rule 이라고 한다. independent 하기 떄문에 곱셈으로 표현하기 쉬움 marginal : 그냥 우리가 생각하는 독립. P(X) = P(X|Y) conditional : C가 주어지면, B에 대해서 독립(P(X|B,C) = P(A|C)) Baysian Network conditional independent 가정해서 만듬. RV간의 conditional independence, RV의 full-jo..
-
6주차, Training Testing and Regularization공부기록/인공지능개론 2022. 6. 16. 14:45
어떤 모델이 좋은걸까? → 예측 결과 정확도가 높은게 좋다. 그렇지만, Accuracy만이 전부는 아니다. 명확한 정의가 없기도 하고 Precison/Recall에 대해서도 고려해야하고 데이터셋의 validity도 고려해야 한다. dataset이 바뀌면 잘 안 될 수도 있음. 도메인이 바뀌거나, 수집한 데이터의 variance가 충분하지 않은 경우에서 그럼. 그래서, dataset에서 일부를 test set으로 둬서 미래에 올 데이터라 상정하고 테스트함 이렇게 세 함수 Y=F(x)가 있을 때, underfitting하고 overfitting을 피해야 함 모델이 너무 복잡한것도 별로다(overfitting) 머신러닝에서 에러는, approximation(예측못함)과 generalization(미래 데이터셋..
-
6강, Simple and LSTM RNNs공부기록/cs224n 2022. 6. 15. 15:11
이전 단어들을 가지고 다음 단어를 맞추는 모델. 그걸 얼마나 잘하는지 보면서 train할거임. 예측한 단어랑 실제 단어간 cross-entropy가 loss function임. total loss는 각 step에서 loss값을 다 더해서 구함. teacher forcing처럼, 예측하지 못했을 때 페널티를 주는 방식 한번에 전체 corpus의 loss랑 gradient 계산하는건 너무 비쌈 corpus를 좀 나눠서(문장이나 문서 하나 단위로) SGD사용해서 조금조금씩 구해서 업데이트함 반복되는 weight의 t 시점에서 gradient는 각 시점에서 나타난 gradient의 합임 예를들어, t시점에서 gradient는 1….t시점의 gradient의 합 다변수함수 f(x,y)가 있고 x랑 y가 t에 대한..
-
BERT로 다중 감정 분류하기(2)개발기록 2022. 6. 11. 16:23
https://imchangrok.tistory.com/26 BERT로 다중 감정 분류하기(1) 저번에는 네이버 영화 리뷰 데이터로 이진 감정 분류를 했다면, 이번에는 다중 감정 분류를 해봤다. 아래에서 만든 모델을 기반으로 만들었다. https://imchangrok.tistory.com/25 BERT로 네이버 영화 감성 imchangrok.tistory.com 저번에 이어서, 다중감정 분류를 마저 해보겠다. 이번에는 accuracy를 높히기보다는, 코드를 좀 보기좋게 수정하는 작업을 많이 진행했다. 맨 처음에 기반이 된 nsmc분류 모델이 이것저것을 참고해서 작성되었기 때문에, 다소 주먹구구로 작성된 부분이 있었다. 이런 부분을 많이 수정했다. 중간에 막혔던 부분이 있었지만 어찌저찌 잘 해결했다. 웹..