본문 바로가기

데이터 공부8

#4 Deicison Tree Model (의사결정나무) Deicison Tree Model은 예측력은 다른 기법들에 비해 떨어지지만, 해석이 수월하고 투명하다는 장점이 있다. 과도하게 성장한 의사 결정 트리는 훈련 데이터셋에서만 관찰되는 너무 구체적인 오류를 포착할 수 있으며, 이는 일반적인 경우에서는 관찰되지 않을 수 있습니다.훈련 데이터에서 매우 잘 예측한다고 해도 실제 세계 문제에서 잘 작동한다는 보장은 항상 없습니다.# 즉, Overfitting의 가능성이 높다. Overfitting  문제를 피하기 위해 어떤 식으로든 복잡성을 제한해야 한다. 두 가지 접근 방식Pre-pruning (사전 가지치기)모델을 성장시키기 전에 복잡성을 제한Post-pruning (사후 가지치기)의사 결정 트리 모델이 형성된 후에 너무 복잡한 가지를 제거Pre-pruning.. 2024. 6. 10.
#3 RMSE와 R^2에 대해 MSE & RMSEMSE(Mean Squared Error)는 오차를 제곱한 것들의 합의 평균이라고 할 수 있다.오차를 제곱한 이유는 그래프의 오차(실제값-예측값)가 음수인 경우도 있어서 모두 더할 때, 양수오차와 음수오차가 서로 상쇄되어 버리기 때문이다.RMSE(Root Mean Squared Error)는 오차를 제곱했기 때문에 MSE에 루트를 씌워준 것이다.RMSE가 작다는 것은 오차가 작다는 것이고 실제값과 예측값의 차이가 적기에 좋은 모델로 볼 수 있다. 즉, 예측을 잘했다는 말이다.  R² (Coefficient of Determination)TSS (Total Sum of Squares)  = RSS + ESS(실제값 - 평균)의 제곱의 합 RSS (Residual Sum of Squares.. 2024. 6. 9.
#2 AUC, ROC에 대해 전 시간에 Precision과 Recall, F1 Score에 대해 알아보았다.이번시간엔 AUC와 ROC에 대해 알아보자.그전에 Threshold가 Precison과 Recall에 미치는 영향을 살펴보자.여기 Spam을 분류하는 모델이 있다.TP, TN, FP, FN은 아래와 같다. TP : 8TN : 17FP : 2FN : 3 Precision과 Recall은 아래와 같다.Precision = (TP) / (TP+TN) = 8 / (8+2) = 0.8Recall = (TP) / (TP+FN) = 8 / (8+3) = 0.73 여기서 Threshold (임계값)은 Precision과 Recall에 어떤 영향을 미칠까? Threshold를 증가 시켰을 때를 보자. TP : 8 -> 7TN : 17 -> 1.. 2024. 6. 9.
#1 Precision과 Recall, F1 Scored에 대해 먼저, 위의 표를 보면 중요한 개념이 나온다. TP : True로 예측했을 때, 실제로 True인 경우 (정답을 맞춘 느낌, True Positive!)TN : False로 예측했을 때, 실제로 False인 경우 (이것도 정답을 맞췄다. 그래서 True Negative!)FP : True로 예측했는데, 실제로 False인 경우 (예측실패,, 그래서 False인데, True일거로 예상한게 틀렸으므로 False Positive)FN : False로 예측했는데, 실제로 True인 경우 (예측실패,, False로 예상했는데 실제로는 True였다.. 그래서 False Negative)위의 개념에서 Precision (정밀도) 과 Recall (재현율)의 개념이 뻗어져 나온다.Precision  Precision은.. 2024. 6. 9.