안녕하세요 임창록입니다

5강, Recurrent Neural Networks and Language Models

공부기록/cs224n 2022. 6. 10. 18:22

categorical features에는 문제가 있음 sparse(희박)하고 완전하지 않고 계산하기 너무 비용이 많이 든다 그래서 Neural Approach를 한다. 나머지(stack, buffer…)는 똑같지만 더 dense한 벡터를 학습함 Neural dependency parser는 symbolic dependency parser보다 훨씬 빠름 성공한 첫번째 이유는 Distributed Representations(=Word embedding)을 사용했고, part-of-speech tag(POS)와 dependecny label도 vector로 표현했음 stack/buffer 에서 word, POS, dep.의 벡터를 추출해 이를 concat해서 사용함 두번째 이유는, DL classifier가..

4강, Dependency Parsing

공부기록/cs224n 2022. 6. 10. 17:07

우리는 언어를 어떻게 해석하는가? 단어가 가장 기본의 단위고, 가장 쉽게 생각할 수 있는건 context-free grammers(CGF)이다. 단어를 결합시켜 phrases, 그걸 합쳐서 더 큰 pharases로 만들 수 있다. CFG는 오토마타 시간에 배웠던거같다 문법 규칙(NP→Det N)과 어휘(Lexicon)이 있으면, 어떤 문장을 파싱해볼 수 있다. 문법을 보는 다른 방식으로, 종속성 구조를 보는 방법도 있음. 이게 요즘 많이 사용됨. Dependency grammer는 단어가 문장 안의 어떤 다른 단어에 종속된다고 본다. 그 관계로 문장을 분석하는 것이다. 위 그림에서 화살표가 출발하는 단어를 지배소, 화살표가 도착하는 단어를 의존소라고 한다. 이 문장처럼 중의적으로 읽힐 수 있다.(경찰이 ..

3강, Backprop and Neural Networks

공부기록/cs224n 2022. 6. 10. 17:06

Paris는 인명으로도, 지명으로도 쓰일 수 있다. 이걸 구별하는걸 Neural Network(이하 NN)으로 편하게 해볼 수 있다. 단어의 컨텍스트 벡터를 NN layer→ logistic classifier(negative sampling)순으로 넣어서 찾아볼것임 window를 만들어서 word vector(word2vec이나 glove로 만든)들을 concat해서 하나의 긴 벡터를 만들고, 이를 classifier에 넣는다고 해보자. 출력은 단어가 특정 클래스에 들어갈 확률임. #근데 이거 대신에 다른 방법 쓸거임 위의 모델에서, 내놓은 답이 위치이면 1이고 아니면 0이 되니까 0.9 같은걸 반환할건데, 이걸 MSE Loss로 사용할 것이고, SGD로 propagation 할것임 모델(W)만 업데이..

6주차, Training Testing and Regularization

공부기록/인공지능개론 2022. 6. 9. 18:26

어떤 모델이 좋은걸까? → 예측 결과 정확도가 높은게 좋다. 그렇지만, Accuracy만이 전부는 아니다. 명확한 정의가 없기도 하고 Precison/Recall에 대해서도 고려해야하고 데이터셋의 validity도 고려해야 한다. dataset이 바뀌면 잘 안 될 수도 있음. 도메인이 바뀌거나, 수집한 데이터의 variance가 충분하지 않은 경우에서 그럼. 그래서, dataset에서 일부를 test set으로 둬서 미래에 올 데이터라 상정하고 테스트함 이렇게 세 함수 Y=F(x)가 있을 때, underfitting하고 overfitting을 피해야 함 모델이 너무 복잡한것도 별로다(overfitting) 머신러닝에서 에러는, approximation(예측못함)과 generalization(미래 데이터셋..

5주차, Support Vector Machine

공부기록/인공지능개론 2022. 6. 9. 15:04

빨간 점들과 파란 선들을 어떻게하면 가장 잘 classifcation하는 decision bounary를 잡을 수 있을까? ⇒ 경계에서 가장 가까운 점들을 관통하는 두 직선에서 가장 멀리 떨어져있는 점(Margin 최대화) 이를 위해서 3개의 점(2빨간, 1파란)을 찾는다고 하자. 어떻게 찾을 수 있을까? decision boundary를 $$wx+b$$로 정의할 때, $$wx+b>0$$이면 positive, $$wx+b

Neural Architectures for Named Entity Recognition(2016)

공부기록/논문리뷰 2022. 6. 9. 14:32

NER(Named Entity Recognition) 문장에서 이름을 가진 개체를 인식하는 것. 이름, 장소, 시간같이 고유명사같은 것들을 다른 일반 명사와 구분해서 인식하는 것. NER 전통적인 접근법 Rule Based : 사전(gazetteer)을 적용함. 다른 도메인으로가면 정확도 낮아짐 Unsupervised Learning : 문맥적 유사도 따라서 분류함. 문법적 지식에 의존함 IOB 표현법 B = Begin, I=Inside, O=Outside. 각각 개체명의 시작, 중간(끝포함), 개체명 아님을 나타낸다. 예를들어, ”해리포터 보러가자” 라는 문장이 있으면, 해=B, 리,포,터=I, 보,러,가,자=O Abstract 당시 SOTA NER모델은 도메인 의존 지식(gazetteer)이나 수제작..

4주차, Logistic Regression

공부기록/인공지능개론 2022. 6. 9. 14:05

4.1 Decision Boundary Optimal Classification and Bayes Risk Sigmoid(S-curve)형태로 optimal 해야 좋다 Classification with One Variable class C에 대해(Credit) log를 씌워서 보면 좀 급격한걸 꺾어서 볼 수 있음. 좀더 구분하기 좋음. A15크면 받고 작으면 못받음(트렌드를 봤을 때) 어떤 기준으로 해야할까? Linear Function vs Non-Linear Function 빨간색 : 선형 로지스틱 : 초록색 → decision boundary가 앞쪽에 있어서 좀 찌그러져보이긴함 이것도 로그를 보내서(오른쪽)보면 편함 4.2 Introduction to Logistic Regression Logis..

3강, Naive Bayes Classifier

공부기록/인공지능개론 2022. 6. 3. 15:02

Bayes Classifier는 f(x) (=y hat)과 Y가 같지 않을 확률 f를 최소화하는 f*를 찾는 classifier이다. 에러를 최소화하기 위해 function approximation을 하는 거라고 볼 수 있다. Y=y일 확률을 최대화하는건 Y=y-1일 확률을 최소화하는것과 같다(2개의 class일때) 따라서 MLE(data만 가지고 가설 만듬)와 MAP(알파, 베타등 prior정보포함)와 관련이 있다. 이런 걸 어떻게 navie bayes classifier에 적용할것인가가 이번 챕터의 대략 내용이다. 점선과 실선중에서는 실선이 더 명확하게 두 데이터를 구분한다. 두 선이 만나는 중간은 decision boundary이고, 파란색으로 색칠된 부분이 error부분이고, Bayes Risk이..

ABOUT ME

안녕하세요 임창록입니다 안녕하세요 임창록입니다

티스토리툴바

ABOUT ME

전체 글

티스토리툴바