[Machine Learning] 머신러닝, 모델의 편향(bias)과 분산(variance) : trade-off 관계

Computer Science/Data Science

[Machine Learning] 머신러닝, 모델의 편향(bias)과 분산(variance) : trade-off 관계

_cactus 2021. 5. 12. 20:13

머신러닝에서 편향과 분산은 언제 쓰이는 용어인가?

Supervised Learning(지도학습)에 대해서 간단히 설명해보자면 사람이 정해준 정답이 있고, 우리의 모델은 그 정답을 잘 맞추는 방향으로 학습(training)을 한다. 이때, 학습을 하면서 모델이 내놓는 예측값들의 경향을 표현하기위해 편향과 분산이라는 용어를 사용한다.

쉽게 말하자면, 다음과 같다
A. 예측값과 정답 간의 관계를 "편향"으로 표현 (bias : model의 output과 실제값 사이의 제곱 error, 정확도와 비슷한 개념)
B. 예측값끼리의 관계를 "분산"으로 표현 (variance : model이 각기 다른 train set에 대하여 성능의 변화정도가 급하게 변하는지, 안정적으로 변하는지를 나타내는 척도)

[딥러닝] Bias-Variance Tradeoff 와 앙상블

● Bias-Variance Tradeoff 머신러닝을 이용해 분류기를 만들때, 테스트 하는 과정을 거치며 많은 에러들이 나오게 되는데 이런 에러들을 MSE로 분석해보면 Bias와 Variance의 식으로 정리됩니다. Learning Err

ebbnflow.tistory.com

활쏘기로 비유

편향과 분산을 비유할 때 가장 흔히 등장하는 "활쏘기"로 빗대어보자
- 빨간 점 : 사람이 정해준 정답 (true)
- 파란 점 : 컴퓨터가 예측한 값 (predicted value)

위 그림을 해석해보자.
1. 왼쪽 위
A. 예측값과 정답간의 관계 : 예측값들이 대체적으로 정답 근방에 분포한다 ➡ 편향이 낮다⬇
B. 예측값들간의 관계 : 예측값들까리 서로 몰려있다 ➡ 분산이 낮다⬇

2. 오른쪽 위 - overfitting
A. 예측값과 정답간의 관계 : 예측값들이 대체적으로 정답 근방에 분포한다 ➡ 편향이 낮다⬇
B. 예측값들간의 관계 : 예측값들까리 서로 퍼져있다 ➡ 분산이 높다⬆

3. 왼쪽 아래 - underfitting
A. 예측값과 정답간의 관계 : 예측값들이 대체적으로 정답으로부터 멀리 분포한다 ➡ 편향이 높다⬆
B. 예측값들간의 관계 : 예측값들까리 서로 몰려있다 ➡ 분산이 낮다⬇

4. 오른쪽 아래
A. 예측값과 정답간의 관계 : 예측값들이 대체적으로 정답으로부터 멀리 분포한다 ➡ 편향이 높다⬆
B. 예측값들간의 관계 : 예측값들까리 서로 퍼져있다 ➡ 분산이 높다⬆

이제 활쏘기 과녁에서 벗어나 머신러닝 모델을 가지고 이해해보자.

편향과 분산은 머신러닝 모델의 "복잡하게 생긴 정도"와 큰 관련이 있다

먼저, Regression Model (회귀) 예시를 보겠다
아래는 3가지의 서로 다른 머신러닝 모델이다. 이 모델들은 모두 같은 데이터를 설명하고 있다.
- 점 : 정답
- 선 : 모델이 내놓은 예측값

(앞서 말했듯이 모델이 내놓은 예측값들의 경향을 우리가 알아보자고 하는 것이며 이를 위해 쓰이는 용어가 편향과 분산이다.)
1번 그래프 :
선이 점들로부터 멀다 ➡ 편향이 높다
모델이 내놓은 예측값끼리는 서로 몰려있다 (같은 직선위의 점들이니까) ➡ 분산이 낮다

2번 그래프 : (가장 이상적 모델)
선이 점들로부터 가깝다 ➡ 편향이 낮다
모델이 내놓은 예측값들끼리는 서로 몰려있다 (같은 직선위의 점들이니까) ➡ 분산이 낮다

3번 그래프 :
선이 점들로부터 가깝다 ➡ 편향이 낮다
모델이 내놓은 예측값들끼리 서로 퍼져있다 (구불구불한 선 위의 점들이니까) ➡ 분산이 높다

다음으로, Classification Model (분류) 예시를 보겠다
아래는 3가지의 서로 다른 머신러닝 모델이다. 이 모델들은 모두 같은 데이터를 설명하고 있다.
- 빨간 점/초록 십자가 : 정답
- 선 : 모델이 내놓은 예측값

Underfitting과 Overfitting

위에서 본 바와 같이, regression 모델이든 classification 모델이든 1번 그래프와 같은 상황을 "Underfitting", 3번째 그림과 같은 상황을 "Overfitting" 이라고 한다

앞서 편향과 분산은 모델의 "복잡하게 생긴 정도"와 관련이 있다고 했다.

모델이 너무 단순하게 생겼으면(=학습이 덜 되어 있으면) 정답에서 먼 예측값을 내놓는다(=정답을 잘 맞추지 못한다)
모델이 너무 복잡하게 생겼으면(=학습이 너무 심하게 되어 있으면) 학습 데이터를 외워서 맞추는 것과 같은 현상이 벌어지기 때문에 새로운 데이터로 test하게 되면 모델이 외웠던 데이터가 아니기 때문에 틀릴 답을 내놓을 가능성이 높다.

따라서 2번 그래프와 같이 모델이 적당히 훈련되었을 때가 가장 이상적이지만 이게 제일 어렵다

Model Complexity

편향과 분산은 trade-off 경향을 띤다
trade-off는 한쪽이 증가하면 다른 한쪽은 감소하거나 한쪽이 감소하면 다른 한쪽은 증가하는 현상을 말한다

우리의 모델이 train set을 여러번 학습할수록 모델의 복잡도(model complexity)는 이에 따라 늘어나게 되는데, 이는 모델이 train set을 그대로 외우는 방향이기 때문이다
따라서, training error는 학습할수록 줄어들게 되지만, validation error는 줄어들다가 어느 지점 이후부터는 다시 상승하게 된다

(training error, validation error를 모르시는 분은 아래 접은 글을 확인해주세요)

training error

- train set으로 모델을 훈련시킬 때 발생하는 오차

- 데이터가 모델의 내부구조를 변화시키면서 이 오차를 줄이는 것이 모델의 지향점 (즉, 모델의 구조에 영향을 준다)

validation error

- 데이터로 모델을 평가할 때 발생하는 오차

- 데이터가 모델의 내부구조를 변화시키지 않고, 그저 validation set을 집어넣었을 때 모델의 output(예측값)을 관찰 (즉, 모델의 구조에 영향을 주지 않는다)