본문 바로가기
데이터 공부

#1 Precision과 Recall, F1 Scored에 대해

by 컴돌이_예준 2024. 6. 9.

먼저, 위의 표를 보면 중요한 개념이 나온다.

 

TP : True로 예측했을 때, 실제로 True인 경우 (정답을 맞춘 느낌, True Positive!)

TN : False로 예측했을 때, 실제로 False인 경우 (이것도 정답을 맞췄다. 그래서 True Negative!)

FP : True로 예측했는데, 실제로 False인 경우 (예측실패,, 그래서 False인데, True일거로 예상한게 틀렸으므로 False Positive)

FN : False로 예측했는데, 실제로 True인 경우 (예측실패,, False로 예상했는데 실제로는 True였다.. 그래서 False Negative)


위의 개념에서 Precision (정밀도) 과 Recall (재현율)의 개념이 뻗어져 나온다.

Precision

 

Precision은 FP가 중요하게 작용하는데, FP가 낮을수록 Precision은 높아진다. 반비례 관계를 형성하고 있다.

다시말하자면, True로 예측했으나 실제로 False인 확률을 줄일수록 Precision이 높아진다. 

 

Recall

 

Recall은 FN이 중요하게 작용하는데, FN이 낮을수록 Recall은 높아진다.

FN과 Recall은 반비례 관계를 형성하고 있다.

다시말하자면, False로 예측했으나 실제로 True인 확률을 줄일수록 Recall 이 높아진다. 

 


실제 활용의 예

# 암진단의 경우, Precision과 Recall 중 어느 것이 중요하게 작용할까?

암진단의 경우, 암이 아니라고 예측했는데 암인 경우가 발생하면 안된다.

즉 암이 False라고 예측했는데 실제로 True인 경우 -> False Negative (FN) 을 줄여야 한다.

즉 FN과 연관있는 Recall을 높이는 것이 암진단에 있어 중요하다.

 

# 이메일 스팸메일 분류의 경우, 어느 것이 중요할까?

스팸메일의 분류하는 경우, 중요한 메일이 스팸메일이 분류되는 경우를 막아야 한다.

스팸메일이 걸러지지 않는 상황보다 중요한 메일이 스팸으로 걸러지는 것을 막아야 하는 것이 중요하다.

스팸메일이 맞다고(TRUE) 예측했는데, 실제로 스팸메일이 아닌경우 (FALSE)를 줄여야 하는 것이다.

즉, True Negative (TN)을 줄여야한다.

다시 말해서, TN과 연관있는 Precision을 높이는 것이 스팸메일 분류에 있어 중요하다.

 

각 상황마다 Precision과 Recall이 중요하게 판단되는 경우가 있는 것이다.

 


Precision과 Recall의 관계

Q. Precision과  Recall 모두 좋게 만들면 되는 것 아닌가??

맞는 말이다. 그러나 Precision과 Recall은 상호보완적인 관계에 있다.

쉽게 말해서 Precision이 높으면 Recall은 낮아지고, Precision이 낮으면 Recall이 높아진다는 말이다.

 

왜 그럴까?

위에서 Precision은 TN과 연관이 있고 Recall은 FN과 연관이 있다고 했다.

TN이 줄어들면 Precision은 높아진다.

FN이 줄어들면 Recall은 높아진다.

 

그런데 TN 과 FN의 관계에서, TN이 높아지면 자연스럽게 FN은 낮아지고 TN이 낮아지면 FN은 높아진다.

그래서 Precision과 Recall은 반비례적 관계, 상호보완적 관계에 있는 것이다.

 

이것의 균형을 맞추는 것이 중요하다. 그래서 나온 개념이 F1 Score이다.


F1 Score란?

F1 Score는 2 X (Precision과 Recall의 곱) / (Precision과 Recall의 합) 으로 계산된다.

F1 Score가 높을수록 Precision과 Recall이 좋은 균형을 이루고 있다고 말할 수 있는 것이다.

 


 

이번 장에서는

- TP, TN, FP, FN의 개념

- Precision, Recall의 개념

- F1 Score의 개념에 대해 알아보았다.

 

다음 장에서는 AUC, ROC에 대해 알아보자.