큐:
엔지니어는 머신 러닝에서 과적 합을 발견하기 위해 교육 세트와 테스트 세트를 어떻게 평가할 수 있습니까?
ㅏ:이 작업을 수행하는 방법을 이해하려면 일반적인 기계 학습 프로젝트에서 여러 데이터 세트의 역할을 기본적으로 파악해야합니다. 훈련 세트는 프로그램에 예측 및 확률 적 결정을 내리는 데 사용하는 데이터 기준선 인 기술에 참조 프레임을 제공하도록 설정되었습니다. 테스트 세트는 데이터에서 머신을 테스트하는 곳입니다.
과적 합은 모델이 데이터 나 목적에 완전히 맞지 않는 기계 학습의 증후군입니다.
무료 다운로드 : 기계 학습 및 중요한 이유 |
머신 러닝의 가장 중요한 계명 중 하나는 훈련 데이터와 테스트 데이터가 별도의 데이터 세트 여야한다는 것입니다. 머신 러닝 프로그램을 테스트하기 위해 훈련에 사용했던 것과 동일한 세트를 사용하는 데 특정한 문제가 있기 때문에 적어도 많은 응용 분야에서 이것에 대해 상당히 광범위한 합의가 있습니다.
기계 학습 프로그램이 본질적으로 일련의 입력이라고 할 수있는 훈련 세트를 사용하는 경우 예측 결과에 대한 결정을 내리기 위해 해당 훈련 세트를 사용합니다. 그것을 생각하는 매우 기본적인 방법 중 하나는 훈련 세트가 지적 컴퓨팅 프로세스를위한 "음식"이라는 것입니다.
이제 동일한 세트가 테스트에 사용될 때 기계는 종종 우수한 결과를 반환 할 수 있습니다. 그것은 이전에 이미 그 데이터를 보았 기 때문입니다. 그러나 머신 러닝의 많은 목표는 이전에는 볼 수 없었던 데이터에 대한 결과를 만드는 것입니다. 범용 머신 러닝 프로그램은 다양한 데이터 세트에서 작동하도록 만들어졌습니다. 다시 말해서 머신 러닝의 원리는 발견이며, 테스트 목적으로 초기 교육 세트를 사용하여 그 정도를 얻지 못하는 경우가 많습니다.
가능한 과적 합에 대한 훈련 세트 및 테스트 세트를 평가할 때 엔지니어는 결과를 평가하고이 두 세트의 비교 결과에서 프로그램이 다르게 수행하는 이유 또는 경우에 따라 훈련 데이터 자체에서 기계가 너무 잘 수행되는 방식을 파악할 수 있습니다. .
기계 학습 마스터리의 Jason Brownlee는 2014 년 기계 학습에서 이러한 문제 중 일부를 적절하게 설명하면서 다음과 같이 과적 합을 설명합니다.
Brownlee는 "보이지 않는 테스트 데이터 세트의 정확도보다는 훈련 데이터 세트의 정확도로 선택된 모델은 보이지 않는 테스트 데이터 세트의 정확도가 낮을 가능성이 높습니다"라고 Brownlee는 말합니다. "이유는 모델이 일반화되지 않았기 때문입니다.이 모델은 훈련 데이터 세트의 구조에 스펙을 적용했습니다 (이탈리아 추가).이를 과적 합이라고하며 생각보다 더 교묘합니다."
간단히 말해서 훈련 데이터 세트 자체를 전문화 할 때 프로그램이 너무 엄격 해 졌다고 말할 수 있습니다. 이것이 테스트 세트에 대한 훈련 세트를 사용하여 기계 학습 프로그램이 최적으로 제공되지 않는 이유를 보는 은유 적 방법입니다. 또한이 두 가지 다른 세트를 평가하는 데 좋은 방법입니다. 결과는 엔지니어에게 프로그램의 작동 방식에 대해 많은 정보를 제공하기 때문입니다. 두 모델의 정확도간에 더 작은 간격을 원합니다. 시스템이 특정 데이터 세트에 과도하게 공급되거나 "정확하게 융합되지"않았는지 확인하고 싶지만보다 일반적이며 명령에 따라 확장 및 발전 할 수 있습니다.