ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 3강, Naive Bayes Classifier
    공부기록/인공지능개론 2022. 6. 3. 15:02

    Bayes Classifier는 f(x) (=y hat)과 Y가 같지 않을 확률 f를 최소화하는 f*를 찾는 classifier이다.

    에러를 최소화하기 위해 function approximation을 하는 거라고 볼 수 있다.

    Y=y일 확률을 최대화하는건 Y=y-1일 확률을 최소화하는것과 같다(2개의 class일때) 

    따라서 MLE(data만 가지고 가설 만듬)와 MAP(알파, 베타등 prior정보포함)와 관련이 있다. 이런 걸 어떻게 navie bayes classifier에 적용할것인가가 이번 챕터의 대략 내용이다.

    점선과 실선중에서는 실선이 더 명확하게 두 데이터를 구분한다. 두 선이 만나는 중간은 decision boundary이고, 파란색으로 색칠된 부분이 error부분이고, Bayes Risk이다. 이를 줄이기 위해서 logistic function등을 사용할 수 있다.

    Prior=Class Prior=P(Y=y)는 경험적으로나, 데이터셋에서 알아낼 수 있다.

    P(X=x | Y=y) = Likelihood = Class Conditional Density이다. 

    특정 값을 예측할때 필요한 여러 value들이 있으면 그것들간의 combination을 통해서 prediction을 해야할 것이다. naive bayes classifier는 이런 value들간의 interaction을 무시한다. naive라는 이름은 여기에서 유래했다. 

    위 예제처럼 6개의 value가 2가지 종류로 있다면, 앞에서 likelihood였던 P(X=x | Y=y)가 joint probability로 나타내지니까, (2^6-1) * k개의 파라미터가 필요하다.(k는 (P=y)의 라벨개수 -1)

    feature가 늘어날 때마다, 기하급수적으로parameter의 개수가 늘어난다. 이를 줄이기 위해선 어떡해야 할까?

    -> Conditionail Independence(조건부독립)이란 가정을 도입한다.

    conditional independence

    이렇게 개별 feature간의 독립을 가정해 식을 나누면,

    joint probability 대신 좀더 단순하게 곱셈으로(Pi)로 나타낼 수 있게 된다

     

    conditional independence와 marginal independence의 차이를 보자.

     

    conditional independence

    - C가 없으면, a와 b는 독립이 아니지만, C가 주어지면 독립되는 것. 

    - P(a|b,c) = P(a|c) 지만, P(a|b) =/= P(a)

    marginal independence

    - 우리가 흔히 생각하는 독립으로, P(X|Y) = P(X)

     

    Navie Bayes Classifer에서는, Class Variable인 Y를 condition으로 해서 각 feature간의 독립을 정의하는 모델이 된다.

     

    따라서, 아까 식의 joint probability로 바꾸면, 아래 식처럼 Pi를 사용한 식이 된다. 이때, =이 물결로 바뀐 이유는, conditional independent라고 assumtion했기 때문이다.

    파라미터 수는 아까의 2^n꼴에서 (2-1)dk로 바뀌었다(2-1인 이유는 feature가 2가지 case고, 하나의 case알면 다른 하나도 추정할 수 있기 때문이다)

     

    Naive Bayes Classifier는, 주어진 데이터에서 이를 가장 잘 설명하는 파라미터를 찾는 것이고 이는 P(세타|X)를 최대화하는 것이다. 이런 모양을 posterior라고 하는데, 식을 보면 P(X=x | Y=y)가 likelihood, P(Y=y)가 prior이다. 이 둘을 곱하면 posterior와 비례하고, 그래서 posterior를 최대화하는 naive bayes classifier는 optimal classifier(최적, 이거보다 더 잘 예측하지못함)인 것이다.

-