Data Statistics

선형 회귀와 로지스틱 회귀

뉴욕킴 2024. 9. 22. 23:14

 

 

 

선형 회귀 (Linear Regression)

선형 회귀는 독립 변수(x)와 종속 변수(y) 사이의 선형 관계를 모델링하는 통계적 방법입니다.

 

  • 목적: 독립 변수(들)를 사용하여 종속 변수를 예측하는 것
  • 수학적 표현: y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ + ε
    • y: 종속 변수
    • x₁, x₂, ..., xₙ: 독립 변수들
    • β₀: y절편
    • β₁, β₂, ..., βₙ: 각 독립 변수의 계수
    • ε: 오차항

주요 특징

  1. 선형성: 독립 변수와 종속 변수 사이의 관계가 선형이라고 가정합니다.
  2. 연속적인 종속 변수: 예측하려는 값(y)은 연속적인 숫자여야 합니다.
  3. 해석 용이성: 각 독립 변수의 계수는 해당 변수가 종속 변수에 미치는 영향을 나타냅니다.

평가 지표

  • R-squared (결정 계수): 모델이 데이터의 분산을 얼마나 잘 설명하는지 나타냅니다.
  • Mean Squared Error (MSE): 예측값과 실제값 사이의 평균 제곱 오차입니다.
  • Root Mean Squared Error (RMSE): MSE의 제곱근으로, 종속 변수와 같은 단위를 가집니다.

 

장점:

  • 해석이 쉽고 직관적입니다.
  • 계산이 상대적으로 간단합니다.

 


로지스틱 회귀 (Logistic Regression)

로지스틱 회귀는 독립 변수들을 사용하여 이진 결과(0 또는 1)를 예측하는 통계적 방법입니다.

 

  • 목적: 독립 변수(들)를 사용하여 특정 사건이 발생할 확률을 예측하는 것
  • 수학적 표현: log(p/(1-p)) = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ
    • p: 사건이 발생할 확률
    • x₁, x₂, ..., xₙ: 독립 변수들
    • β₀: y절편
    • β₁, β₂, ..., βₙ: 각 독립 변수의 계수

주요 특징

  1. S자 곡선: 로지스틱 함수를 사용하여 확률을 0과 1 사이로 변환합니다.
  2. 이진 분류: 주로 두 개의 클래스 중 하나를 예측하는 데 사용됩니다.
  3. 다중 클래스 분류로 확장 가능: 여러 클래스를 예측하는 데도 사용할 수 있습니다.

평가 지표

  • Accuracy (정확도): 올바르게 분류된 샘플의 비율
  • Precision (정밀도): 양성으로 예측한 것 중 실제 양성의 비율
  • Recall (재현율): 실제 양성 중 양성으로 예측한 비율
  • F1 Score: Precision과 Recall의 조화 평균
  • ROC 곡선과 AUC: 모델의 성능을 시각화하고 요약하는 방법

장점:

  • 해석이 쉽습니다.
  • 과적합의 위험이 상대적으로 낮습니다.
  • 클래스 확률을 직접 제공합니다.

'Data Statistics' 카테고리의 다른 글

차원 축소(Dimensionality Reduction)  (1) 2024.11.02
딥러닝_통계 분석 종류  (1) 2024.11.02
[3] Simple Linear Regression  (0) 2023.05.27
기초통계 R 실습_오픈북 대비  (0) 2023.05.06
기초통계 R 실습  (0) 2023.05.02