1. 분류란? - 학습 데이터로 주어진 데이터의 피처와 레이블값을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것 2. 결정트리와 앙상블 1) 결정 트리 - 매우 쉽고 유연하고 적용될 수 있는 알고리즘, 데이터의 스케일링이나 정규화 등의 사전 가공의 영향이 매우 적음 - 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내는 트리 기반의 분류규칙을 만든다 - 장점: 쉽다, 직관적이다, 사전 가공 영향도가 크지 않다. - 단점: 과적합으로 알고리즘 성능이 떨어진다. 이를 극복하기 위해 트리의 크기를 사전에 제한하는 튜닝이 필요하다 2) 앙상블 - 매우 많은 여러개의 약한 학습기를 결합해 확률적 보완과 오류가 발생한 부분에 대한 가중치..