차례:
정의-이상치 탐지 란 무엇입니까?
이상치 탐지는 주어진 데이터 세트에서 이상 치를 탐지 한 후 제외시키는 프로세스입니다.
특이 치는 데이터 세트의 주어진 표준 또는 평균에서 크게 벗어나는 데이터 또는 관측치로 정의 될 수 있습니다. 특이 치는 우연히 발생할 수 있지만 측정 오류 또는 지정된 데이터 세트에 꼬리가 큰 분포가 있음을 나타낼 수도 있습니다.
이상치 탐지의 간단한 시나리오는 다음과 같습니다. 측정 프로세스는 지속적으로 1에서 10 사이의 판독 값을 생성하지만 드문 경우에 20보다 큰 측정 값을 얻습니다.
표준을 넘어서는 이러한 희귀 측정 값은 정규 분포 곡선의 "외부"에 있기 때문에 이상치라고합니다.
Techopedia는 특이점 탐지를 설명합니다
이상치 (outlier)를 결정하는 표준화되고 엄격한 수학적 방법은 실제로 세트 또는 데이터 모집단에 따라 다르기 때문에 결정 및 탐지는 궁극적으로 주관적이됩니다. 주어진 데이터 필드에서 연속 샘플링을 통해 탐지를 쉽게하기 위해 특이 치의 특성을 설정할 수 있습니다.
특이 치를 탐지하는 모델 기반 방법이 있으며 데이터가 모두 정규 분포에서 가져온 것으로 가정하여 관측치 또는 점을 식별 할 수 있으며, 이는 관측치 또는 점을 평균 또는 표준 편차를 기반으로 할 가능성이없는 것으로 간주합니다. 이상 값 탐지에는 몇 가지 방법이 있습니다.
- Grubb의 특이 치에 대한 검정 – 데이터가 정규 분포임을 가정하고 더 이상 특이점을 찾을 수 없을 때까지 테스트를 반복하여 한 번에 하나의 특이 치를 제거합니다.
- Dixon 's Q Test – 데이터 세트의 정규성을 기반으로이 방법은 불량 데이터를 테스트합니다. 이것은 데이터 세트에서 드물게 사용되어야하며 한 번 이상 사용되지 않아야합니다.
- Chauvenet 's Criterion – Chauvenet 's Criterion – 특이 치가 의심 스럽거나 여전히 경계 내에 있고 세트의 일부로 간주되는지 분석하는 데 사용됩니다. 평균 및 표준 편차가 취해지고 특이 치가 발생할 확률이 계산됩니다. 결과는 포함 여부를 결정합니다.
- Pierce 's Criterion – 오류 한계는 일련의 관측치에 대해 설정되며, 초과 된 모든 관측치는 이미 그러한 큰 오차를 포함하므로 버려집니다.




