티스토리

🌷나의 선인장🌵

검색하기

Naive Bayes Classifier

Computer Science/Data Science

Naive Bayes Classifier

_cactus 2021. 3. 8. 00:02

개요

단순규칙모형: 예측변수가 필요 없는 모형, 주로 고급 모형들과 비교하기 위한 baseline
단순 베이즈 분류모형

=> 이 기법들은 데이터 구조에 대한 가정을 거의 하지 않는다는 공통점! (data-driven)

(makes no assumption about the data)

단순규칙

모든 예측변수를 분류한 상채에서 어느 한 record를 m개의 집단 중에 제일 많은 하나(prevalent class)로 분류하는 단순한 규칙

단순 베이즈 분류모형

단순규칙보다 정교한 방법 : 단순규칙 + 예측변수 정보
다른 분류모형과 달리 naive bayes classifier는 예측변수가 범주형인 경우에만 적용됨

따라서 수치형 예측변수는 범주형 예측변수로 변환하여야 함

단순 베이즈 기법은 데이터 집합이 매우 클 경우 유용

예) google과 같은 웹 검색 엔진 회사들에서 사용자가 철자를 잘못 입력할 때 이를 수정하기 위해 단순 베이즈 모델을 사용

조건부 확률 exact bayes classifier
- 분류문제의 목적: 예측변수군이 주어질 때, 각 집단에 소할 확률 추정 => 조건부 확률
- 사건 B가 주어질 때, 사건 A가 일어날 확률 P(A|B)
- 일반적으로 m개의 집단 C1,C2,...Cm 의 반응변수(Y)와 X1,X2,...,Xp인 예측변수(X)에 대해 P(Ci|X1,X2,...,Xp) i=1,2,...,m 을 측정
- 하나의 record를 분류하기 위해, 각 집단 i에 대한 P(Ci|X1,X2,...,Xp)를 계산 -> 각 집단에 속할 기회를 측정 -> 그 후 가장 높은 확률 값을 가지는 집단으로 분류

실제 적용상의 어려움
- 위와 같이 조건부 확률을 추정할 경우, 예측변수 수 p가 20정도로 매우 크고, 집단 수 m이 2라면, record가 많은 경우에는 자신들과 정확히 일치하는 규칙들을 찾을 수 없는 문제 발생
- relies on finding other records that share same predictor values as record-to-be-classified
- want to find ‘probability of belonging to class C, given specified values of predictors’
- 예: 투표 예측
  - 아무리 데이터의 크기가 크더라도, 4명의 자녀가 있고, 이혼했으며, 중서부 지역에 살고, 고소득층이며, hispanic의 남성에 속하는 사람들은 그다지 많지 않다
- 해결방안: naive bayes

naive bayes
- 각 집단 내의 예측변수에 대한 독립성(independence)의 가정을 단순화시키기 (use multiplication rule)
- 모든 예측변수들이 상호 독립적이다 -> 계산과정 단순화 가능 -> 동시발생의 확률 = 모든 관련 예측변수의 한계변동분을 서로 곱한 값

bayes theorem 베이즈 이론
- 베이즈 이론: 어떤 특정 후속사건이 발생한다고 할 때, 이전 사건의 확률을 알려줌
- 예) 만약 분식보고에 대해 소송이 제기된 것을 알고 있다면 회사가 분식 재무제표를 제출할 확률이 얼마인지 알 수 있음
- 베이즈 이론은 record가 집단 Ci에 속하는 확률을 계산하기 위해 다음 공식 사용

이 공식은 예측변수에 대한 정보를 포함하는 집단 Ci에 속할 사후확률(posterior probability)로 알려져 있다
- P(Ci|X1,X2,...,Xp) = 사후확률 (posterior probability)
- P(Ci) = 사전 확률(prior probability)
따라서 bayes theorem은 record의 속성이 주어질 때 해당 record가 어느 한 집단에 속하는 확률을 계산해 내는 공식을 제공
다음 단계:

예) Financial Fraud
- target variable: fraud / no fraud
- predictors: prior pending legal charges (yes/no), size of firm (small/large)
  - 각 회사에 대해서 법적 책임이 제소되었는지 여부, 기업의 규모가 큰지/작은지 여부, 조사 후에 재무보고가 분식 또는 정상으로 판명되었는지에 대한 정보

목표: classify a small firm with charges field : (size=small, charges=yes)의 분류

1. exact bayes calculation

P(fraud|yes,small) = P(yes,small|fraud)P(fraud)P(yes,small|fraud)P(fraud) + P(yes,small|truthful)P(truthful)
P(fraud | charges=yes, size=small) = ½ = 0.50

2. naive bayes calculation

P(fraud|yes,small) = P(yes|fraud)P(small|fraud)P(fraud)P(yes|fraud)P(small|fraud)P(fraud) + P(yes|truthful)P(small|truthful)P(truthful)
위는 multiplication rule을 적용..(뇌 피셜..)
P(fraud | charges=yes, size=small) = 0.075/(0.075+0.067) = 0.53
exact bayes로 계산한 결과와 값이 크게 차이가 나지 않는다는 것을 알 수 있다
all records are used in calculations, not just those matching predictor values
relies on assumption of independence between predictor variables within each class

단순 베이지 분류모형의 장단점

장점

handles purley categorical data well

분석의 목적이 집단을 분류하는 것이거나 어느 특정 집단에 속할 확률에 기초해서 레코드의 순위를 정하는 것이라면 naive bayes는 아주 좋음
만약 목적이 집단에 속할 확률을 추정하는 것일 때는 편향된 결과를 낳음
good for applications using lift(ex. response to mailing), less so for applications requiring probabilities(ex. credit scoring)

works well with very large data sets
simple & computationally efficient 모형이 단순하고 계산이 효율적

단점

requires large number of records
problematic when a predictor category is not present in training data
- 만약 학습용 데이터가 ‘요트 소유’=1인 record를 가지고 있지 않다면, ‘요트 소유’=1인 새로운 record에 대해서 naive bayes는 목표변수 ‘보험 구매’에 0의 확률값을 부여

예측변수의 범주가 학습용 데이터에서 존재하지 않는 경우 단순 베이지는 이러한 예측변수의 범주를 갖는 새로운 record가 0의 확률값을 갖는다고 가정한다
assigns 0 probability of response, ignoring information in other variables단
예) 목표변수가 ‘보험 구매’이고 예측변수가 ‘요트 소유’라고 가정

728x90