오디오 머신 러닝에서 배깅이 왜 분산을 줄입니까?

머신 러닝에서 배깅이 왜 분산을 줄입니까?

Anonim

큐:

머신 러닝에서 배깅이 왜 분산을 줄입니까?

ㅏ:

머신 러닝의 부트 스트랩 집계 또는 "포장"은 복잡한 데이터 세트의 고급 모델을 구축하여 분산을 줄입니다. 구체적으로, 배깅 접근법은보다 복잡한 방식으로 데이터를 모델링하기 위해 종종 겹치는 부분 집합을 만듭니다.

배깅을 적용하는 방법에 대한 흥미롭고 간단한 개념 중 하나는 임의의 샘플 세트를 가져 와서 간단한 평균을 추출하는 것입니다. 그런 다음 동일한 샘플 세트를 사용하여 의사 결정 트리로 빌드 된 수십 개의 서브 세트를 작성하여 최종 결과를 조작하십시오. 두 번째 평균은 이러한 개별 샘플이 어떻게 가치 측면에서 서로 관련되어 있는지에 대한 더 정확한 그림을 보여 주어야합니다. 동일한 아이디어를 모든 데이터 포인트 집합의 모든 속성에 적용 할 수 있습니다.

무료 다운로드 : 기계 학습 및 중요한 이유

이 접근 방식은 발견을보다 정의 된 경계로 통합하므로 분산을 줄이고 과적 합에 도움이됩니다. 다소 분산 된 데이터 포인트가있는 산점도를 생각해보십시오. 엔지니어는 배깅 방법을 사용하여 복잡성을 줄이고 "발견 선 방향을 조정하여 더 부드러운 매개 변수를 만듭니다."

일부는 "분할 및 정복"또는 일종의 "보조 휴리스틱"으로 배깅의 가치에 대해 이야기합니다. 임의 포리스트 사용과 같은 앙상블 모델링을 통해 배깅을 기술로 사용하는 사람들은 분산이 낮은 데이터 결과를 얻을 수 있습니다. 복잡성을 줄이려면, 자루에 넣는 것도 과적 합에 도움이 될 수 있습니다. 데이터 포인트가 너무 많은 모델을 생각해보십시오. 예를 들어 100 개의 정렬되지 않은 도트가있는 도트 연결. 결과적인 시각적 데이터 라인은 들쭉날쭉하고 역동적이며 일시적입니다. 그런 다음 평가 세트를 모아서 분산을 "철거"합니다. 앙상블 학습에서 이것은 종종 "강한 학습"협업 결과를 제공하기 위해 여러 "약한 학습자"에 참여하는 것으로 생각됩니다. 결과적으로 더 매끄럽고 윤곽이 뚜렷한 데이터 라인이 생성되며 모델의 거친 분산이 줄어 듭니다.

bagging 아이디어가 어떻게 엔터프라이즈 IT 시스템에 적용될 수 있는지 쉽게 알 수 있습니다. 비즈니스 리더는 종종 제품, 고객 등의 상황에 대한 "조감도"를 원합니다. 과적 합 된 모델은 덜 소화 가능한 데이터와 더 많은 "분산 된"결과를 반환 할 수 있습니다. 최종 사용자에게.

머신 러닝에서 배깅이 왜 분산을 줄입니까?