본문 바로가기
데이터 공부

#2 AUC, ROC에 대해

by 컴돌이_예준 2024. 6. 9.

전 시간에 Precision과 Recall, F1 Score에 대해 알아보았다.

이번시간엔 AUC와 ROC에 대해 알아보자.

그전에 Threshold가 Precison과 Recall에 미치는 영향을 살펴보자.


https://developers.google.com/machine-learning/crash-course/classification/precision-and-recall

여기 Spam을 분류하는 모델이 있다.

TP, TN, FP, FN은 아래와 같다.

 

TP : 8

TN : 17

FP : 2

FN : 3

 

Precision과 Recall은 아래와 같다.

Precision = (TP) / (TP+TN) = 8 / (8+2) = 0.8

Recall = (TP) / (TP+FN) = 8 / (8+3) = 0.73

 

여기서 Threshold (임계값)은 Precision과 Recall에 어떤 영향을 미칠까?


Threshold를 증가 시켰을 때를 보자.

Threshold를 증가시킨 Model

TP : 8 -> 7

TN : 17 -> 18

FP : 2 -> 1

FN : 3 -> 4

 

Threshold가 높으면 더 많은 예측이 negative로 분리가 된다.

TP와 FP는 감소하고 TN과 FN이 증가하였다.

 

Precision = 7 / (7+1) = 0.88

Recall = 7 / (7+4) = 0.64

 

FP가 감소했으므로  Precision은 증가하였다.

FN이 증가했으므로 Recall은 감소하였다.

 

정리하면, Threshold가 증가한 경우 Precision은 증가, Reacall은 감소한다.


Threshold를 감소 시켰을 때를 보자.

Threshold를 감소시킨 Model

TP : 8 -> 9

TN : 17 -> 16

FP : 2 -> 3

FN : 3 -> 2

 

Threshold가 낮으면 더 많은 예측이 positive로 분리가 된다.

TP와 FP는 증가하고 TN과 FN이 감소하였다.

 

Precision = 9 / (9+3) = 0.75

Recall = 9 / (9+2) = 0.82

 

FP가 증가했으므로  Precision은 감소하였다.

FN이 감소했으므로 Recall은 증가하였다.

 

정리하면, Threshold가 감소한 경우 Precision은 감소, Reacall은 증가한다.


ROC 곡선 (Receiver Operating Characteristic Curve)

ROC 곡선은 분류모델에서 Threshold 값을 변화시켰을 때, 분류모델의 성능을 나타내는 그래프이다.

이 그래프는 TPR과 FPR로 표시한다.

 

TPR은 실제 positive 중에서 모델이 positive로 예측한 비율,

FPR은 실제 negative 중에서 모델이 positive로 잘못 예측한 비율이다.

 

TPR (Ture Positive Rate) = TP / (TP + FN) = Recall

FPR (False Positive Rate) = FP / (FP + TN)

 

TPR은 Recall과 같다.

https://en.wikipedia.org/wiki/Receiver_operating_characteristic

위 그림은 가로축은 FPR, 세로축은 TPR인 ROC 그래프이다.

이상적인 ROC 곡선은 왼쪽 위 모서리에 위치하며, 이는 TPR이 높고 FPR이 낮은 모델을 나타낸다.

 

AUC (Area Uder the Curve)

https://developers.google.com/machine-learning/crash-course/classification/roc-and-auc?hl=ko

 

AUC의 범위는 0.5~1.0 이다.

# AUC는 ROC 곡선 아래의 면적을 나타내며, 이는 분류 모델의 성능을 요약하는 지표로 사용된다.

# AUC가 1에 가까울수록 모델이 더 우수한 성능을 갖는다는 것을 의미한다.

# AUC가 0.5에 가까울수록 모델의 성능이 낮다는 것을 의미한다. 이는 무작위로 예측하는 것과 비슷한 수준의 성능을 나타낸다.

 


정리

Threshold가 증가할 때, Precision 증가, Recall 감소

Threshold가 감소할 때, Precision 감소, Recall 증가

 

ROC 곡선이 왼쪽 위 모서리와 가까울 수록 성능이 좋은 모델

 

AUC가 1에 가까울수록 분류 모델의 성능이 좋은 것

AUC가 0.5에 가까울 수록 모델의 성능이 낮음