본문 바로가기

분류 전체보기26

#5 (KNN) k-Nearest Neighbors k-최근접 이웃 알고리즘(k-Nearest Neighbors, KNN)지도 학습(supervised learning) 알고리즘의 일종으로, 분류(classification) 및 회귀(regression) 문제에 사용된다.이 알고리즘의 기본 아이디어는 새로운 데이터 포인트가 주어졌을 때, 가장 가까운 k개의 이웃 데이터를 기준으로 분류하거나 값을 예측하는 것이다.위의 사진에서 ★모양의 새로운 데이터가 들어왔을 때, 근접한 3개의 이웃 데이터를 분류한다고 했을 때(K=3), Class A이웃이 1개, Class B이웃이 2개이므로 ★은 Class B로 분류될 것이다.그러나 K=6라면 Class A가 4개, Class B가 2개로 ★은 Class A로 분류된다. 장점1. 학습 Data에 대한 가정이 필요없다... 2024. 6. 10.
#4 Deicison Tree Model (의사결정나무) Deicison Tree Model은 예측력은 다른 기법들에 비해 떨어지지만, 해석이 수월하고 투명하다는 장점이 있다. 과도하게 성장한 의사 결정 트리는 훈련 데이터셋에서만 관찰되는 너무 구체적인 오류를 포착할 수 있으며, 이는 일반적인 경우에서는 관찰되지 않을 수 있습니다.훈련 데이터에서 매우 잘 예측한다고 해도 실제 세계 문제에서 잘 작동한다는 보장은 항상 없습니다.# 즉, Overfitting의 가능성이 높다. Overfitting  문제를 피하기 위해 어떤 식으로든 복잡성을 제한해야 한다. 두 가지 접근 방식Pre-pruning (사전 가지치기)모델을 성장시키기 전에 복잡성을 제한Post-pruning (사후 가지치기)의사 결정 트리 모델이 형성된 후에 너무 복잡한 가지를 제거Pre-pruning.. 2024. 6. 10.
#3 RMSE와 R^2에 대해 MSE & RMSEMSE(Mean Squared Error)는 오차를 제곱한 것들의 합의 평균이라고 할 수 있다.오차를 제곱한 이유는 그래프의 오차(실제값-예측값)가 음수인 경우도 있어서 모두 더할 때, 양수오차와 음수오차가 서로 상쇄되어 버리기 때문이다.RMSE(Root Mean Squared Error)는 오차를 제곱했기 때문에 MSE에 루트를 씌워준 것이다.RMSE가 작다는 것은 오차가 작다는 것이고 실제값과 예측값의 차이가 적기에 좋은 모델로 볼 수 있다. 즉, 예측을 잘했다는 말이다.  R² (Coefficient of Determination)TSS (Total Sum of Squares)  = RSS + ESS(실제값 - 평균)의 제곱의 합 RSS (Residual Sum of Squares.. 2024. 6. 9.
#2 AUC, ROC에 대해 전 시간에 Precision과 Recall, F1 Score에 대해 알아보았다.이번시간엔 AUC와 ROC에 대해 알아보자.그전에 Threshold가 Precison과 Recall에 미치는 영향을 살펴보자.여기 Spam을 분류하는 모델이 있다.TP, TN, FP, FN은 아래와 같다. TP : 8TN : 17FP : 2FN : 3 Precision과 Recall은 아래와 같다.Precision = (TP) / (TP+TN) = 8 / (8+2) = 0.8Recall = (TP) / (TP+FN) = 8 / (8+3) = 0.73 여기서 Threshold (임계값)은 Precision과 Recall에 어떤 영향을 미칠까? Threshold를 증가 시켰을 때를 보자. TP : 8 -> 7TN : 17 -> 1.. 2024. 6. 9.