분류 3

[4장-1] 분류(classfication)와 결정트리(decision tree)

1. 분류란? - 학습 데이터로 주어진 데이터의 피처와 레이블값을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것 2. 결정트리와 앙상블 1) 결정 트리 - 매우 쉽고 유연하고 적용될 수 있는 알고리즘, 데이터의 스케일링이나 정규화 등의 사전 가공의 영향이 매우 적음 - 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내는 트리 기반의 분류규칙을 만든다 - 장점: 쉽다, 직관적이다, 사전 가공 영향도가 크지 않다. - 단점: 과적합으로 알고리즘 성능이 떨어진다. 이를 극복하기 위해 트리의 크기를 사전에 제한하는 튜닝이 필요하다 2) 앙상블 - 매우 많은 여러개의 약한 학습기를 결합해 확률적 보완과 오류가 발생한 부분에 대한 가중치..

[3장-1] 분류 성능 평가 지표

성능 평가 지표(Evaluation Metric)는 모델이 회귀인지 분류인지에 따라 여러 종류로 나뉨 1) 회귀의 경우 대부분 실제값과 예측값의 오차 평균값에 기반 2) 분류의 성능 평가 지표 분류 성능 평가지표: classification - 정확도 - 오차행렬 - 정밀도 - 재현율 - F1 스코어 - ROC AUC 1) 정확도 정확도 : 실제 데이터에서 예측 데이터가 얼마나 같은지 판단하는 지표 = 예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수 정확도는 직관적으로 모델 예측 성능을 나타내는 평가 지표이지만 이진 분류의 경우 정확도만으로 성능 평가하면 안됨 (ML 모델의 성능을 왜곡할 수 있기 때문) import sklearn print(sklearn.__version__) #버전 확인 1..

[2장-2] 붓꽃 품종 예측_파이썬 머신러닝 완벽가이드

# 사이킷런을 이용하여 붓꽃(Iris) 데이터 품종 예측하기 1. 사이킷런 버전 확인 import sklearn print(sklearn.__version__) 2. 붓꽃 예측을 위한 사이킷런 필요 모듈 로딩(필수 라이브러리 불러오기) from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier #결정트리 from sklearn.model_selection import train_test_split #학습과 분류 데이터 3. 학습 데이터와 테스트 데이터 세트로 분리 # X_train과 y_train은 모델을 학습시킬 때 사용되고(X_train과 y_train은 서로 겹치는 데이터가 없어야 함) # X_test는..

728x90