나이브 베이즈 분류기 (Naive Bayes Classfier) | 정확한 베이즈 분류기(Bayes Optimal Classifier) | |
조건부 확률에 기반 | 조건부 확률과 베이즈 확률에 기반 | |
모델 중심이 아닌 데이터 중심, 대용량 데이터에서 작동가능 | 독립변수가 많으면 계산하기 어려움 | |
자료에 대한 가정이 필요 없음 | ||
범주형 자료에서 작동함 (수치형은 범주형으로 변환 필요) |
베이즈 정리의 문제점
정확히 일치하는 케이스(데이터)가 있어야 계산이 가능하다.
-> 나이브 베이즈
정확히 일치하는 데이터가 없어도 전체 데이터를 이용해(근삿값) 계산 가능하다.
나이브 베이즈 장단점
장점
- 간단하고 빠르며 매우 효과적이다.
- noisy가 있거나 누락된 데이터에서도 잘 작동한다.
- 훈련을 위한 예제가 비교적 적게 필요하지만, 많은 예제에서도 잘 작동한다.
- 예측에 대한 추정 확률을 쉽게 얻을 수 있다
단점
- 독립적이고 동일하게 중요한 특성이라는 잘못된 가정에 의존한다.
- 많은 수의 수치형 특성을 가진 데이터셋에는 적합하지 않다.
- 추정 확률은 예측된 클래스보다 신뢰성이 떨어진다.
Example
1. 이전에 법적 문제를 가지고 있고, 회사규모가 작은 기업이 사기 재무보고를 할 확률은?
2. 이전에 법적 문제가 없고, 회사규모가 작은 기업이 사기 재무보고를 할 확률은?
'데이터 공부' 카테고리의 다른 글
#8 Odds and Log(Odds), 오즈와 로그오즈에 대해 (1) | 2024.06.11 |
---|---|
#7 Linear Regression (0) | 2024.06.11 |
#5 (KNN) k-Nearest Neighbors (1) | 2024.06.10 |
#4 Deicison Tree Model (의사결정나무) (1) | 2024.06.10 |
#3 RMSE와 R^2에 대해 (1) | 2024.06.09 |