선형 회귀 (Linear Regression)
선형 회귀는 독립 변수(x)와 종속 변수(y) 사이의 선형 관계를 모델링하는 통계적 방법입니다.
- 목적: 독립 변수(들)를 사용하여 종속 변수를 예측하는 것
- 수학적 표현: y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ + ε
- y: 종속 변수
- x₁, x₂, ..., xₙ: 독립 변수들
- β₀: y절편
- β₁, β₂, ..., βₙ: 각 독립 변수의 계수
- ε: 오차항
주요 특징
- 선형성: 독립 변수와 종속 변수 사이의 관계가 선형이라고 가정합니다.
- 연속적인 종속 변수: 예측하려는 값(y)은 연속적인 숫자여야 합니다.
- 해석 용이성: 각 독립 변수의 계수는 해당 변수가 종속 변수에 미치는 영향을 나타냅니다.
평가 지표
- R-squared (결정 계수): 모델이 데이터의 분산을 얼마나 잘 설명하는지 나타냅니다.
- Mean Squared Error (MSE): 예측값과 실제값 사이의 평균 제곱 오차입니다.
- Root Mean Squared Error (RMSE): MSE의 제곱근으로, 종속 변수와 같은 단위를 가집니다.
장점:
- 해석이 쉽고 직관적입니다.
- 계산이 상대적으로 간단합니다.
로지스틱 회귀 (Logistic Regression)
로지스틱 회귀는 독립 변수들을 사용하여 이진 결과(0 또는 1)를 예측하는 통계적 방법입니다.
- 목적: 독립 변수(들)를 사용하여 특정 사건이 발생할 확률을 예측하는 것
- 수학적 표현: log(p/(1-p)) = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ
- p: 사건이 발생할 확률
- x₁, x₂, ..., xₙ: 독립 변수들
- β₀: y절편
- β₁, β₂, ..., βₙ: 각 독립 변수의 계수
주요 특징
- S자 곡선: 로지스틱 함수를 사용하여 확률을 0과 1 사이로 변환합니다.
- 이진 분류: 주로 두 개의 클래스 중 하나를 예측하는 데 사용됩니다.
- 다중 클래스 분류로 확장 가능: 여러 클래스를 예측하는 데도 사용할 수 있습니다.
평가 지표
- Accuracy (정확도): 올바르게 분류된 샘플의 비율
- Precision (정밀도): 양성으로 예측한 것 중 실제 양성의 비율
- Recall (재현율): 실제 양성 중 양성으로 예측한 비율
- F1 Score: Precision과 Recall의 조화 평균
- ROC 곡선과 AUC: 모델의 성능을 시각화하고 요약하는 방법
장점:
- 해석이 쉽습니다.
- 과적합의 위험이 상대적으로 낮습니다.
- 클래스 확률을 직접 제공합니다.
'Data Statistics' 카테고리의 다른 글
차원 축소(Dimensionality Reduction) (1) | 2024.11.02 |
---|---|
딥러닝_통계 분석 종류 (1) | 2024.11.02 |
[3] Simple Linear Regression (0) | 2023.05.27 |
기초통계 R 실습_오픈북 대비 (0) | 2023.05.06 |
기초통계 R 실습 (0) | 2023.05.02 |