큐:
머신 러닝의 편향과 분산을 설명하는 간단한 방법은 무엇입니까?
ㅏ:머신 러닝의 편향과 분산을 설명하는 복잡한 방법이 많이 있습니다. 이들 중 다수는 상당히 복잡한 수학 방정식을 활용하고 특정 예제가 다양한 양의 바이어스와 분산을 나타내는 방법을 그래프로 보여줍니다.
머신 러닝에서 바이어스, 분산 및 바이어스 / 분산 트레이드 오프를 설명하는 간단한 방법이 있습니다.
핵심은 편견이 지나치게 단순화 된 것입니다. 편향의 정의에 일부 가정 또는 가정 된 오류를 추가하는 것이 중요 할 수 있습니다.
매우 편향된 결과가 잘못되지 않은 경우 (돈이 많은 경우) 매우 정확합니다. 문제는 단순화 된 모델에 약간의 오차가 포함되어 있다는 점입니다. 따라서 기계 학습 프로그램이 작동함에 따라 중대한 오차가 계속 반복되거나 증폭됩니다.
분산의 간단한 정의는 결과가 너무 흩어져 있다는 것입니다. 이것은 종종 프로그램의 복잡성과 시험과 훈련 세트 사이의 문제로 이어진다.
차이가 크면 작은 변화로도 결과 나 결과에 큰 변화가 생깁니다.
분산을 간단히 설명하는 또 다른 방법은 모델에 노이즈가 너무 많아서 기계 학습 프로그램이 실제 신호를 분리하고 식별하기가 더 어려워진다는 것입니다.
따라서 바이어스와 분산을 비교하는 가장 간단한 방법 중 하나는 머신 러닝 엔지니어가 너무 많은 바이어스 또는 과도 단순화와 너무 많은 분산 또는과 복잡도 사이에 미세한 선을 따라야한다는 것을 제안하는 것입니다.
이를 잘 나타내는 또 다른 방법은 고분 산과 저 분산의 모든 조합을 보여주는 4 사분면 차트를 사용하는 것입니다. 낮은 바이어스 / 저 분산 사분면에서 모든 결과는 정확한 군집으로 모입니다. 높은 편향 / 낮은 분산 결과에서는 모든 결과가 부정확 한 군집으로 모입니다. 낮은 바이어스 / 고 분산 결과에서는 결과가 정확한 군집을 나타내는 중심점 주위에 흩어져 있고, 높은 바이어스 / 고 분산 결과에서는 데이터 점이 흩어져 있고 전체적으로 부정확합니다.