Machine Learning

5wk_Regularization

뉴욕킴 2024. 4. 6. 13:59

Regularization

 

  1. Overfitting (과적합):
    • 원인: 데이터가 적을 경우, 복잡한 데이터일 경우(변수가 너무 많음, weights이 큰 경우)
    • 정의: 모델이 훈련 데이터에 너무 밀접하게 맞춰져서 생성되는 오류입니다. 이 경우, 모델은 훈련 데이터의 노이즈와 잡음까지 학습하여, 새로운 데이터나 테스트 데이터에 대해서는 일반화를 잘 수행하지 못합니다.
    • 특징:
      • 모델이 훈련 데이터에서는 매우 높은 성능을 보이지만, 테스트 데이터나 실제 적용 시에는 성능이 저하됩니다.
      • 복잡한 모델(많은 파라미터를 가진)이 과적합될 위험이 더 큽니다.
    • 해결 방법:
      • 데이터 양 증가, 불필요한 변수 제거, weights 줄이기, 교차 검증, 정규화 기법 적용, 간단한 모델 사용 등이 있습니다.
  2. Underfitting (과소적합):
    • 원인: 
    • 정의: 모델이 데이터의 기본 구조를 충분히 포착하지 못하여 발생하는 오류입니다. 이는 주로 모델이 너무 단순하여 데이터의 복잡성을 학습할 수 없을 때 발생합니다.
    • 특징:
      • 모델이 훈련 데이터에서조차 낮은 성능을 보입니다.
      • 데이터의 중요한 패턴이나 관계를 놓치게 되어, 예측이나 분류가 부정확합니다.
    • 해결 방법:
      • 더 복잡한 모델 선택, 특성 수 증가, 모델 파라미터 조정, 충분한 훈련 등이 있습니다.

이 두 문제는 모델의 복잡성과 훈련 데이터에 대한 모델의 적합도 사이의 균형을 맞추는 것과 관련이 있습니다. 과적합은 모델이 너무 복잡하거나 특정 훈련 데이터에 과도하게 최적화되었을 때, 과소적합은 모델이 너무 단순하거나 충분히 학습되지 않았을 때 발생합니다.

 


Lasso와 Ridge는 두 가지 주요한 정규화(regularization) 기법입니다. 이들은 머신 러닝 모델의 과적합(overfitting)을 방지하고 일반화 성능을 향상시키는 데 사용됩니다. Lasso와 Ridge의 핵심 차이점은 그들이 가중치(weights) 또는 계수(coefficients)에 적용하는 방법에 있습니다.

  1. Ridge (릿지) 회귀:
    • Ridge 회귀는 L2 정규화를 사용합니다. 이는 가중치의 제곱 합(Sum of Squares of weights)에 대한 패널티를 도입합니다.
    • Ridge는 가중치를 0에 가깝게 만들지만, 완전히 0으로 만들지는 않습니다.
    • 모든 특성이 출력에 어느 정도 영향을 미친다고 가정할 때 유용합니다.
  2. Lasso (라쏘) 회귀:
    • Lasso 회귀는 L1 정규화를 사용합니다. 이는 가중치의 절대값 합(Sum of Absolute values of weights)에 대한 패널티를 적용합니다.
    • Lasso는 일부 가중치를 완전히 0으로 만듭니다. 이는 모델이 더욱 희소(sparse)해지게 하며, 일종의 자동 특성 선택 기능을 수행합니다.
    • 불필요한 특성이 많은 경우 유용하며, 모델을 해석하기가 더 쉽습니다.

Ridge와 Lasso의 공통점 및 차이점:

  • 둘 다 모델의 복잡성을 줄이고 과적합을 방지하는 데 목적이 있습니다.
  • 차이점은 Lasso가 0이 아닌 가중치를 완전히 0으로 만들 수 있으며, 이로 인해 특성 선택 효과가 있다는 점입니다. 이는 Ridge에는 없는 특징입니다.

실제 활용에서는 데이터의 특성과 모델링의 목적에 따라 Lasso, Ridge, 또는 이들의 조합인 Elastic Net을 사용할 수 있습니다.