데이터분석3 #7 Linear Regression 회귀분석은 일련의 입력값("독립 변수")에서 수치적 결과("종속 변수")를 예측하는 방법통계적 의미: 결과의 기대값을 예측합니다. 인과적 의미: 수치적 결과를 예측하며, 범주형 결과가 아닙니다. Q. "우리가 판매할 제품의 수량은 얼마나 되는지?" (회귀) Q. "이 고객이 우리 제품을 구매할까? (예/아니오)" (분류) Q. "고객이 우리 제품에 지불할 가격은 얼마인지?" (회귀) 머신러닝에서의 회귀는 다음과 같은 두 가지 관점으로 접근할 수 있습니다: # 과학적 마인드셋(Scientific mindset): 데이터 생성 과정을 이해하기 위해 모델링합니다. # 공학적 마인드셋(Engineering mindset): 정확한 예측을 위해 모델링합니다. 머신러닝은 주로 공학적 마인드셋에 초점을 맞춥니다. .. 2024. 6. 11. #6 나이브 베이즈(Naive Bayes)와 베이즈 정리(Bayes Theorem) 나이브 베이즈 분류기 (Naive Bayes Classfier)정확한 베이즈 분류기(Bayes Optimal Classifier) 조건부 확률에 기반조건부 확률과 베이즈 확률에 기반 모델 중심이 아닌 데이터 중심, 대용량 데이터에서 작동가능독립변수가 많으면 계산하기 어려움 자료에 대한 가정이 필요 없음 범주형 자료에서 작동함 (수치형은 범주형으로 변환 필요) 베이즈 정리의 문제점정확히 일치하는 케이스(데이터)가 있어야 계산이 가능하다. -> 나이브 베이즈정확히 일치하는 데이터가 없어도 전체 데이터를 이용해(근삿값) 계산 가능하다. 나이브 베이즈 장단점장점간단하고 빠르며 매우 효과적이다.noisy가 있거나 누락된 데이터에서도 잘 작동한다.훈련을 위한 예제가 비교적 적게 필요하지만, 많은 예제에서도 잘.. 2024. 6. 10. #5 (KNN) k-Nearest Neighbors k-최근접 이웃 알고리즘(k-Nearest Neighbors, KNN)지도 학습(supervised learning) 알고리즘의 일종으로, 분류(classification) 및 회귀(regression) 문제에 사용된다.이 알고리즘의 기본 아이디어는 새로운 데이터 포인트가 주어졌을 때, 가장 가까운 k개의 이웃 데이터를 기준으로 분류하거나 값을 예측하는 것이다.위의 사진에서 ★모양의 새로운 데이터가 들어왔을 때, 근접한 3개의 이웃 데이터를 분류한다고 했을 때(K=3), Class A이웃이 1개, Class B이웃이 2개이므로 ★은 Class B로 분류될 것이다.그러나 K=6라면 Class A가 4개, Class B가 2개로 ★은 Class A로 분류된다. 장점1. 학습 Data에 대한 가정이 필요없다... 2024. 6. 10. 이전 1 다음