Robotics & AI

머신러닝 회귀 모델 성능 평가 방법 본문

AI & MLOps

머신러닝 회귀 모델 성능 평가 방법

필로9 2024. 1. 20. 17:52

회귀 모델(Regression Model)과 분류 모델(Classification Model)은 머신 러닝에서 널리 사용되는 두 가지 주요 유형의 모델입니다.
이들 모델의 차이는 주로 출력 값의 유형과 사용되는 알고리즘, 그리고 적용되는 문제 유형에 있습니다. 이번 글에서는 회귀 모델에 대한 성능 평가 방법에 대해 알아보겠습니다.

회귀 모델이란

회귀 모델은 연속적인 값을 예측하는 데 사용됩니다. 모델의 출력값으로는 실수 값(예: 가격, 온도, 점수 등)과 같은 연속적인 값을 출력합니다. 사용 사례로는 집 가격 예측, 기온 예측, 판매량 예측 등에 사용 됩니다.

  • 알고리즘 예시: 선형 회귀(Linear Regression), 릿지(Ridge) 및 라쏘(Lasso) 회귀, 의사결정 나무(Decision Trees) 회귀, 랜덤 포레스트(Random Forest) 회귀 등

회귀 모델의 성능 평가 방법

회귀 모델의 성능을 평가하는 데에는 여러 지표들이 사용되며, 이들 각각은 모델이 얼마나 잘 또는 못하고 있는지를 다른 관점에서 측정합니다. 주로 사용되는 평가 지표에는 평균 제곱 오차(Mean Squared Error, MSE), 평균 절대 오차(Mean Absolute Error, MAE), R² 점수(R-squared) 등이 있습니다. 각각 지표를 예시를 통해 알아보겠습니다.

  • 평균 제곱 오차 (Mean Squared Error, MSE)는 실제 값과 예측 값의 차이를 제곱한 값의 평균값으로 많이 사용되는 평가 방법입니다.
    • MSE = $\frac{1}{n}\sum_{i=1}^{n} \left ( y_i - \hat{y_i} \right )$
  • 집의 실제 가격이 300만원, 500만원, 400만원, 모델이 각각 310만원, 490만원, 380만원으로 예측했다면
    오차제곱과 MSE는 아래와 같습니다.
    • 오차제곱 : $(300-310)^{2}$, $(500-490)^{2}$, $(400-380)^{2}$
    • MSE : $\frac{(10)^2 + (10)^2 + (20)^2}{3} = \frac{100 + 100 + 400}{3} = \frac{600}{3} = 200$

평균 절대 오차 (Mean Absolute Error, MAE)

  • 평균 절대 오차는 실제 값과 예측 값의 차이의 절대값의 평균입니다. 수식은 아래와 같습니다.
    • MAE = $\frac{1}{n}\sum_{i=1}^{n} \left | y_i - \hat{y_i}\right |$
  • 집의 실제 가격이 300만원, 500만원, 400만원, 모델이 각각 310만원, 490만원, 380만원으로 예측했다면
    절대오차와 MAE는 아래와 같습니다.
    • 절대오차 : $\left | 300 - 310\right |, \left | 500 - 490 \right|, \left | 400 - 380 \right|$
    • MAE = $\frac{10+10+20}{3} = \frac{40}{3} \approx 13.33$

R² 점수 (R-squared)

  • 데이터의 분산 중 모델이 설명하는 비율입니다. 값이 클수록 모델이 데이터를 더 잘 설명한다는 의미입니다. 수식은 아래와 같습니다.
  • 여기서 $\bar{y}$는 실제 값의 평균입니다.
    • ${R^2}$ = 1 - $\frac{\frac{1}{n}\sum_{i=1}^{n} \left ( y_i - \hat{y_i} \right )}{\frac{1}{n}\sum_{i=1}^{n} \left ( y_i - \bar{y_i} \right )}$
  • 실제 값의 평균이 400만원이고, 각 실제 값과의 차이 제곱의 합이 600만원이며, 예측 값과의 차이 제곱의 합이 200만원이라면
    ${R^2}$계산 값은 아래와 같습니다.
    • ${R^2} = 1 - \frac{200}{600} = 1 - \frac{1}{3} \approx 0.67$

각 지표는 모델의 성능을 다른 측면에서 보여줍니다. MSE는 큰 오차에 더 많은 가중치를 주며, MAE는 모든 오차에 동일한 가중치를 줍니다. R²는 모델이 데이터의 분산을 얼마나 잘 설명하는지를 나타냅니다