본문 바로가기

전체 글41

#6 나이브 베이즈(Naive Bayes)와 베이즈 정리(Bayes Theorem) 나이브 베이즈 분류기 (Naive Bayes Classfier)정확한 베이즈 분류기(Bayes Optimal Classifier) 조건부 확률에 기반조건부 확률과 베이즈 확률에 기반 모델 중심이 아닌 데이터 중심, 대용량 데이터에서 작동가능독립변수가 많으면 계산하기 어려움 자료에 대한 가정이 필요 없음  범주형 자료에서 작동함 (수치형은 범주형으로 변환 필요)  베이즈 정리의 문제점정확히 일치하는 케이스(데이터)가 있어야 계산이 가능하다. -> 나이브 베이즈정확히 일치하는 데이터가 없어도 전체 데이터를 이용해(근삿값) 계산 가능하다.  나이브 베이즈 장단점장점간단하고 빠르며 매우 효과적이다.noisy가 있거나 누락된 데이터에서도 잘 작동한다.훈련을 위한 예제가 비교적 적게 필요하지만, 많은 예제에서도 잘.. 2024. 6. 10.
#5 (KNN) k-Nearest Neighbors k-최근접 이웃 알고리즘(k-Nearest Neighbors, KNN)지도 학습(supervised learning) 알고리즘의 일종으로, 분류(classification) 및 회귀(regression) 문제에 사용된다.이 알고리즘의 기본 아이디어는 새로운 데이터 포인트가 주어졌을 때, 가장 가까운 k개의 이웃 데이터를 기준으로 분류하거나 값을 예측하는 것이다.위의 사진에서 ★모양의 새로운 데이터가 들어왔을 때, 근접한 3개의 이웃 데이터를 분류한다고 했을 때(K=3), Class A이웃이 1개, Class B이웃이 2개이므로 ★은 Class B로 분류될 것이다.그러나 K=6라면 Class A가 4개, Class B가 2개로 ★은 Class A로 분류된다. 장점1. 학습 Data에 대한 가정이 필요없다... 2024. 6. 10.
#4 Deicison Tree Model (의사결정나무) Deicison Tree Model은 예측력은 다른 기법들에 비해 떨어지지만, 해석이 수월하고 투명하다는 장점이 있다. 과도하게 성장한 의사 결정 트리는 훈련 데이터셋에서만 관찰되는 너무 구체적인 오류를 포착할 수 있으며, 이는 일반적인 경우에서는 관찰되지 않을 수 있습니다.훈련 데이터에서 매우 잘 예측한다고 해도 실제 세계 문제에서 잘 작동한다는 보장은 항상 없습니다.# 즉, Overfitting의 가능성이 높다. Overfitting  문제를 피하기 위해 어떤 식으로든 복잡성을 제한해야 한다. 두 가지 접근 방식Pre-pruning (사전 가지치기)모델을 성장시키기 전에 복잡성을 제한Post-pruning (사후 가지치기)의사 결정 트리 모델이 형성된 후에 너무 복잡한 가지를 제거Pre-pruning.. 2024. 6. 10.
#3 RMSE와 R^2에 대해 MSE & RMSEMSE(Mean Squared Error)는 오차를 제곱한 것들의 합의 평균이라고 할 수 있다.오차를 제곱한 이유는 그래프의 오차(실제값-예측값)가 음수인 경우도 있어서 모두 더할 때, 양수오차와 음수오차가 서로 상쇄되어 버리기 때문이다.RMSE(Root Mean Squared Error)는 오차를 제곱했기 때문에 MSE에 루트를 씌워준 것이다.RMSE가 작다는 것은 오차가 작다는 것이고 실제값과 예측값의 차이가 적기에 좋은 모델로 볼 수 있다. 즉, 예측을 잘했다는 말이다.  R² (Coefficient of Determination)TSS (Total Sum of Squares)  = RSS + ESS(실제값 - 평균)의 제곱의 합 RSS (Residual Sum of Squares.. 2024. 6. 9.
#2 AUC, ROC에 대해 전 시간에 Precision과 Recall, F1 Score에 대해 알아보았다.이번시간엔 AUC와 ROC에 대해 알아보자.그전에 Threshold가 Precison과 Recall에 미치는 영향을 살펴보자.여기 Spam을 분류하는 모델이 있다.TP, TN, FP, FN은 아래와 같다. TP : 8TN : 17FP : 2FN : 3 Precision과 Recall은 아래와 같다.Precision = (TP) / (TP+TN) = 8 / (8+2) = 0.8Recall = (TP) / (TP+FN) = 8 / (8+3) = 0.73 여기서 Threshold (임계값)은 Precision과 Recall에 어떤 영향을 미칠까? Threshold를 증가 시켰을 때를 보자. TP : 8 -> 7TN : 17 -> 1.. 2024. 6. 9.
#1 Precision과 Recall, F1 Scored에 대해 먼저, 위의 표를 보면 중요한 개념이 나온다. TP : True로 예측했을 때, 실제로 True인 경우 (정답을 맞춘 느낌, True Positive!)TN : False로 예측했을 때, 실제로 False인 경우 (이것도 정답을 맞췄다. 그래서 True Negative!)FP : True로 예측했는데, 실제로 False인 경우 (예측실패,, 그래서 False인데, True일거로 예상한게 틀렸으므로 False Positive)FN : False로 예측했는데, 실제로 True인 경우 (예측실패,, False로 예상했는데 실제로는 True였다.. 그래서 False Negative)위의 개념에서 Precision (정밀도) 과 Recall (재현율)의 개념이 뻗어져 나온다.Precision  Precision은.. 2024. 6. 9.