큐:
기계 학습에서 기능 선택이 중요한 이유는 무엇입니까?
ㅏ:기능 선택은 주로 머신 러닝 시스템에서 가장 효율적이고 효과적인 것에 변수 사용을 지시하는 기본 기술로 작용하기 때문에 머신 러닝에서 매우 중요합니다.
전문가들은 피처 선택 및 피처 추출이 어떻게 차원의 저주를 최소화하거나 과적 합을 처리하는 데 도움이되는지에 대해 이야기합니다. 이는 지나치게 복잡한 모델링 아이디어를 해결하는 다른 방법입니다.
무료 다운로드 : 기계 학습 및 중요한 이유 |
이를 말하는 또 다른 방법은 기능 선택이 개발자에게 머신 러닝 교육 세트에서 가장 관련성이 높고 유용한 데이터 만 사용할 수있는 툴을 제공함으로써 비용과 데이터 양을 크게 줄인다는 것입니다.
한 가지 예는 복잡한 모양을 스케일로 측정하는 아이디어입니다. 프로그램이 확장됨에 따라 더 많은 수의 데이터 포인트를 식별하고 시스템이 훨씬 더 복잡해집니다. 그러나 복잡한 모양은 머신 러닝 시스템에서 사용하는 일반적인 데이터 세트가 아닙니다. 이러한 시스템은 서로 다른 변수 사이의 차이가 크게 다른 데이터 세트를 사용할 수 있습니다. 예를 들어, 종을 분류 할 때 엔지니어는 기능 선택을 사용하여 가장 목표 한 결과를 제공하는 변수 만 연구 할 수 있습니다. 차트의 모든 동물의 눈 또는 다리 수가 같은 경우 해당 데이터가 제거되거나 다른 관련 데이터 포인트가 추출 될 수 있습니다.
기능 선택은 엔지니어가 기계 학습 시스템을 목표로 향하게하는 식별 프로세스입니다. 대규모 시스템에서 복잡성을 제거한다는 아이디어 외에도 기능 선택은 전문가가 기계 학습에서 "바이어스 분산 균형 조정"이라고 부르는 측면을 최적화하는 데 유용 할 수 있습니다.
기능 선택이 바이어스 및 분산 분석에 도움이되는 이유는 더 복잡합니다. 기능 선택, 바이어스 편차 및 배깅에 대한 Cornell University의 연구는 기능 선택이 프로젝트를 지원하는 방법을 보여줍니다.
저자에 따르면이 논문은 "특징 선택이지도 학습의 정확성을 향상시키는 메커니즘을 검토한다"고한다.
이 연구는 다음과 같이 설명합니다.
특징 선택이 진행됨에 따른 경험적 바이어스 / 분산 분석은 가장 정확한 특징 세트가 학습 알고리즘에 대한 최고의 바이어스-분산 트레이드 오프 지점에 해당함을 나타냅니다.
강한 관련성 또는 약한 관련성 사용에 대해 설명 할 때 작성자는 기능 선택을 "분산 감소 방법"이라고합니다. 이는 분산을 기본적으로 주어진 변수의 변동량으로 생각할 때 적합합니다. 분산이 없으면 데이터 포인트 또는 배열이 본질적으로 쓸모가 없을 수 있습니다. 분산이 매우 높으면 엔지니어가 기계 소음 시스템이 관리하기 어려운 "잡음"또는 관련없는 임의 결과로 생각할 수 있습니다.
이를 고려하여 기능 선택은 머신 러닝 디자인의 기본 요소입니다.