큐:
머신 러닝에 왜 바이어스 대 분산이 중요한가?
ㅏ:기계 학습에서 "바이어스"및 "분산"이라는 용어를 이해하면 엔지니어는 기계 학습 시스템을보다 완벽하게 교정하여 의도 한 목적을 달성 할 수 있습니다. 바이어스와 분산은 중요합니다. 이는 머신 러닝 프로젝트에서 일부 시스템이 기업용 또는 기타 목적에 얼마나 효과적인지 결정하는 트레이드 오프를 관리하는 데 도움이되기 때문에 중요합니다.
편향 대 분산을 설명 할 때 이러한 두 가지 문제가 서로 다른 방식으로 데이터 결과를 손상시킬 수 있다는 점에 유의해야합니다.
무료 다운로드 : 기계 학습 및 중요한 이유 |
바이어스는 클러스터가 부정확 한 문제로 설명 될 수 있습니다. 머신 러닝은 많은 결과를 정밀하게 반환 할 수 있지만 정확도 측면에서 점수가 누락되는 상황입니다. 대조적으로, 분산은 정보의 "분산"입니다. 이는 광범위한 결과 범위를 보여주는 데이터이며, 일부는 정확할 수 있지만, 대부분은 특정 정확도 범위를 벗어나 전체 결과를 떨어 뜨립니다. 정확하고 훨씬 더 "잡음".
실제로, 분산을 설명하는 일부 전문가는 변형 결과가 "소음을 따르는"경향이 있다고 설명합니다. 높은 바이어스 결과는 데이터 세트를 탐색하기에 충분하지 않습니다. 이것은 편향 문제와 분산 문제를 대조하는 또 다른 방법입니다. 전문가들은 편견을 미달 피팅과 연관시킵니다.이 경우 시스템은 최적의 결과를 포함 할만큼 유연하지 않을 수 있습니다. 대조적으로, 분산은 일종의 반대 일 것입니다. 과적 합은 시스템이 너무 역동적이고 섬세하여 많은 동적 변화를 견딜 수 없게 만듭니다. 엔지니어는이 복잡한 렌즈를 통해 바이어스와 편차를 살펴봄으로써 시스템의 피팅을 최적화하여 너무 복잡하지 않고 단순하지 않고 충분히 복잡하게 만드는 방법을 생각할 수 있습니다.
이것은 바이어스 대 분산의 철학이 기계 학습 시스템을 설계하는 데 유용한 두 가지 방법입니다. 기계 바이어스를 사용하여 적용되는 용도에 맞는 전체 결과 세트를 얻으려고하는 것이 항상 중요합니다. 고도로 흩어 지거나 분산 된 결과의 혼돈 또는 야생을 제어하고 특정 시스템의 노이즈를 처리하는 데있어 차이를 살펴 보는 것도 항상 중요합니다.