전체 글
-
5강, Recurrent Neural Networks and Language Models공부기록/cs224n 2022. 6. 10. 18:22
categorical features에는 문제가 있음 sparse(희박)하고 완전하지 않고 계산하기 너무 비용이 많이 든다 그래서 Neural Approach를 한다. 나머지(stack, buffer…)는 똑같지만 더 dense한 벡터를 학습함 Neural dependency parser는 symbolic dependency parser보다 훨씬 빠름 성공한 첫번째 이유는 Distributed Representations(=Word embedding)을 사용했고, part-of-speech tag(POS)와 dependecny label도 vector로 표현했음 stack/buffer 에서 word, POS, dep.의 벡터를 추출해 이를 concat해서 사용함 두번째 이유는, DL classifier가..
-
4강, Dependency Parsing공부기록/cs224n 2022. 6. 10. 17:07
우리는 언어를 어떻게 해석하는가? 단어가 가장 기본의 단위고, 가장 쉽게 생각할 수 있는건 context-free grammers(CGF)이다. 단어를 결합시켜 phrases, 그걸 합쳐서 더 큰 pharases로 만들 수 있다. CFG는 오토마타 시간에 배웠던거같다 문법 규칙(NP→Det N)과 어휘(Lexicon)이 있으면, 어떤 문장을 파싱해볼 수 있다. 문법을 보는 다른 방식으로, 종속성 구조를 보는 방법도 있음. 이게 요즘 많이 사용됨. Dependency grammer는 단어가 문장 안의 어떤 다른 단어에 종속된다고 본다. 그 관계로 문장을 분석하는 것이다. 위 그림에서 화살표가 출발하는 단어를 지배소, 화살표가 도착하는 단어를 의존소라고 한다. 이 문장처럼 중의적으로 읽힐 수 있다.(경찰이 ..
-
3강, Backprop and Neural Networks공부기록/cs224n 2022. 6. 10. 17:06
Paris는 인명으로도, 지명으로도 쓰일 수 있다. 이걸 구별하는걸 Neural Network(이하 NN)으로 편하게 해볼 수 있다. 단어의 컨텍스트 벡터를 NN layer→ logistic classifier(negative sampling)순으로 넣어서 찾아볼것임 window를 만들어서 word vector(word2vec이나 glove로 만든)들을 concat해서 하나의 긴 벡터를 만들고, 이를 classifier에 넣는다고 해보자. 출력은 단어가 특정 클래스에 들어갈 확률임. #근데 이거 대신에 다른 방법 쓸거임 위의 모델에서, 내놓은 답이 위치이면 1이고 아니면 0이 되니까 0.9 같은걸 반환할건데, 이걸 MSE Loss로 사용할 것이고, SGD로 propagation 할것임 모델(W)만 업데이..
-
6주차, Training Testing and Regularization공부기록/인공지능개론 2022. 6. 9. 18:26
어떤 모델이 좋은걸까? → 예측 결과 정확도가 높은게 좋다. 그렇지만, Accuracy만이 전부는 아니다. 명확한 정의가 없기도 하고 Precison/Recall에 대해서도 고려해야하고 데이터셋의 validity도 고려해야 한다. dataset이 바뀌면 잘 안 될 수도 있음. 도메인이 바뀌거나, 수집한 데이터의 variance가 충분하지 않은 경우에서 그럼. 그래서, dataset에서 일부를 test set으로 둬서 미래에 올 데이터라 상정하고 테스트함 이렇게 세 함수 Y=F(x)가 있을 때, underfitting하고 overfitting을 피해야 함 모델이 너무 복잡한것도 별로다(overfitting) 머신러닝에서 에러는, approximation(예측못함)과 generalization(미래 데이터셋..
-
Neural Architectures for Named Entity Recognition(2016)공부기록/논문리뷰 2022. 6. 9. 14:32
NER(Named Entity Recognition) 문장에서 이름을 가진 개체를 인식하는 것. 이름, 장소, 시간같이 고유명사같은 것들을 다른 일반 명사와 구분해서 인식하는 것. NER 전통적인 접근법 Rule Based : 사전(gazetteer)을 적용함. 다른 도메인으로가면 정확도 낮아짐 Unsupervised Learning : 문맥적 유사도 따라서 분류함. 문법적 지식에 의존함 IOB 표현법 B = Begin, I=Inside, O=Outside. 각각 개체명의 시작, 중간(끝포함), 개체명 아님을 나타낸다. 예를들어, ”해리포터 보러가자” 라는 문장이 있으면, 해=B, 리,포,터=I, 보,러,가,자=O Abstract 당시 SOTA NER모델은 도메인 의존 지식(gazetteer)이나 수제작..
-
4주차, Logistic Regression공부기록/인공지능개론 2022. 6. 9. 14:05
4.1 Decision Boundary Optimal Classification and Bayes Risk Sigmoid(S-curve)형태로 optimal 해야 좋다 Classification with One Variable class C에 대해(Credit) log를 씌워서 보면 좀 급격한걸 꺾어서 볼 수 있음. 좀더 구분하기 좋음. A15크면 받고 작으면 못받음(트렌드를 봤을 때) 어떤 기준으로 해야할까? Linear Function vs Non-Linear Function 빨간색 : 선형 로지스틱 : 초록색 → decision boundary가 앞쪽에 있어서 좀 찌그러져보이긴함 이것도 로그를 보내서(오른쪽)보면 편함 4.2 Introduction to Logistic Regression Logis..
-
3강, Naive Bayes Classifier공부기록/인공지능개론 2022. 6. 3. 15:02
Bayes Classifier는 f(x) (=y hat)과 Y가 같지 않을 확률 f를 최소화하는 f*를 찾는 classifier이다. 에러를 최소화하기 위해 function approximation을 하는 거라고 볼 수 있다. Y=y일 확률을 최대화하는건 Y=y-1일 확률을 최소화하는것과 같다(2개의 class일때) 따라서 MLE(data만 가지고 가설 만듬)와 MAP(알파, 베타등 prior정보포함)와 관련이 있다. 이런 걸 어떻게 navie bayes classifier에 적용할것인가가 이번 챕터의 대략 내용이다. 점선과 실선중에서는 실선이 더 명확하게 두 데이터를 구분한다. 두 선이 만나는 중간은 decision boundary이고, 파란색으로 색칠된 부분이 error부분이고, Bayes Risk이..