큐:
빅 데이터에 너무 많은 데이터가있을 수 있습니까?
ㅏ:질문에 대한 대답은 YES입니다. 빅 데이터 프로젝트에는 데이터가 너무 많을 수 있습니다.
이런 일이 발생할 수있는 여러 가지 방법이 있으며 전문가가 올바른 결과를 얻기 위해 여러 가지 방법으로 데이터를 제한하고 선별해야하는 다양한 이유가 있습니다. (빅 데이터에 대한 10 가지 큰 신화를 읽으십시오.)
일반적으로 전문가들은 모델에서 "신호"와 "잡음"을 구별하는 것에 대해 이야기합니다. 다시 말해, 빅 데이터의 바다에서 관련 통찰력 데이터를 타겟팅하기가 어려워집니다. 어떤 경우에는 건초 더미에서 바늘을 찾고 있습니다.
예를 들어, 회사에서 빅 데이터를 사용하여 고객 기반 세그먼트에 대한 특정 통찰력과 특정 기간 동안의 구매를 시도한다고 가정합니다. (빅 데이터의 기능은 무엇입니까?를 읽어보십시오.)
엄청난 양의 데이터 자산을 사용하면 관련이없는 임의의 데이터를 섭취하거나 데이터를 한 방향 또는 다른 방향으로 왜곡시키는 편향이 발생할 수 있습니다.
또한 컴퓨팅 시스템이 더 크고 더 큰 데이터 세트와 씨름해야하므로 프로세스 속도가 크게 느려집니다.
다양한 종류의 프로젝트에서 데이터 엔지니어는 데이터를 제한된 특정 데이터 세트로 선별하는 것이 매우 중요합니다. 위의 경우, 해당 고객 세그먼트에 대한 데이터 만 해당 시간에 대한 데이터 일 것입니다. 연구중인 프레임과 혼동하거나 시스템 속도를 늦출 수있는 추가 식별자 또는 배경 정보를 제거하는 접근 방식 (ReadJob 역할 : 데이터 엔지니어)
자세한 내용은 머신 러닝의 최첨단에서 어떻게 작동하는지 살펴 보겠습니다. (기계 학습 101을 읽으십시오.)
머신 러닝 전문가는 새로운 생산 데이터에서 머신 러닝 프로그램이 느슨해지면 지나치게 복잡한 모델로 인해 결과가 덜 효과적이라는 "과적 합 (overfitting)"에 대해 이야기합니다.
복잡한 데이터 포인트 세트가 초기 트레이닝 세트와 너무 잘 일치하고 프로그램이 새로운 데이터에 쉽게 적응할 수없는 경우 과적 합이 발생합니다.
이제 기술적으로 과적 합은 너무 많은 데이터 샘플의 존재가 아니라 너무 많은 데이터 포인트의 대관식으로 인해 발생합니다. 그러나 데이터가 너무 많으면 이러한 유형의 문제에 기여할 수 있다고 주장 할 수 있습니다. 차원의 저주를 다루는 것은 전문가들이 IT 시스템에 공급하는 것을 정확히 찾아 내려고했던 것처럼 초기 빅 데이터 프로젝트에서 수행 된 것과 동일한 기술 중 일부를 포함합니다.
결론은 빅 데이터가 회사에 큰 도움이되거나 큰 도전이 될 수 있다는 것입니다. 이것의 한 측면은 회사가 올바른 데이터를 가지고 있는지 여부입니다. 전문가들은 모든 데이터 자산을 단순히 호퍼에 덤프하고 그런 식으로 통찰력을 얻는 것이 바람직하지 않다는 것을 알고 있습니다. 새로운 클라우드 네이티브 및 정교한 데이터 시스템에서는 더 정확하고 데이터 자산을 효율적으로 사용합니다.