차례:
빅 데이터는 대량의 데이터 처리를 나타내는 데 사용되는 포괄적 인 단어입니다. 우리는 데이터의 양이 클수록 더 복잡해진다는 것을 알고 있습니다. 기존 데이터베이스 솔루션은 복잡성과 크기 때문에 대량의 데이터를 제대로 관리하지 못하는 경우가 많습니다. 따라서 많은 양의 데이터를 관리하고 실제 통찰력을 추출하는 것은 어려운 작업입니다. 동일한 "값"개념이 작은 데이터에도 적용됩니다.
빅 데이터 사용 방법
RDBMS 개념을 기반으로하는 기존의 데이터베이스 솔루션은 트랜잭션 데이터를 매우 잘 관리 할 수 있으며 다른 응용 프로그램에서 널리 사용됩니다. 그러나 많은 양의 데이터 (아카이브 및 테라 바이트 또는 페타 바이트에있는 데이터)를 처리 할 때 이러한 데이터베이스 솔루션이 실패하는 경우가 많습니다. 이러한 데이터 세트는 너무 커서 대부분의 경우 기존 데이터베이스의 아키텍처에 맞지 않습니다. 요즘 빅 데이터는 더 큰 규모의 데이터를 처리하기위한 비용 효율적인 접근 방식이되었습니다. 조직의 관점에서 볼 때 빅 데이터 사용은 다음과 같은 범주로 나눌 수 있습니다. 빅 데이터의 실제 가치는 다음과 같습니다.- 분석적 사용
빅 데이터 분석가들은 처리하기에는 너무 많은 비용이 드는 중요한 숨겨진 데이터 측면을 많이 밝혀 냈습니다. 예를 들어 특정 주제에 대한 학생들의 관심을 확인해야하는 경우 매일 출석 기록과 기타 사회적 및 지리적 사실을 분석하여이를 수행 할 수 있습니다. 이러한 사실은 데이터베이스에서 캡처됩니다. 효율적인 방식으로이 데이터에 액세스 할 수 없으면 결과를 볼 수 없습니다.
- 신제품 활성화
최근에는 Facebook과 같은 많은 새로운 웹 회사가 새로운 제품을 출시하기위한 솔루션으로 빅 데이터를 사용하기 시작했습니다. 우리 모두 페이스 북의 인기를 알고 있습니다. 빅 데이터를 사용하여 고성능 사용자 경험을 성공적으로 준비했습니다.
진정한 가치는 어디에 있습니까?
다른 빅 데이터 솔루션은 데이터를 저장하는 방식이 다르지만 결국에는 모두 플랫 파일 구조로 데이터를 저장합니다. 일반적으로 Hadoop은 파일 시스템과 일부 운영 체제 수준의 데이터 추상화로 구성됩니다. 여기에는 MapReduce 엔진과 HDFS (Hadoop Distributed File System)가 포함됩니다. 간단한 Hadoop 클러스터에는 하나의 마스터 노드와 여러 작업자 노드가 포함됩니다. 마스터 노드는 다음으로 구성됩니다.- 작업 추적기
- 직업 추적기
- 이름 노드
- 데이터 노드
- 작업 추적기
- 데이터 노드
일부 구현에는 데이터 노드 만 있습니다. 데이터 노드는 데이터가있는 실제 영역입니다. HDFS는 여러 시스템에 분산 된 대용량 파일 (테라 바이트에서 페타 바이트까지)을 저장합니다. 모든 노드에서 데이터의 신뢰성은 모든 호스트에서 데이터를 복제함으로써 달성됩니다. 따라서 노드 중 하나가 작동 중지 된 경우에도 데이터를 사용할 수 있습니다. 이렇게하면 쿼리에 대한 응답이 빨라집니다. 이 개념은 Facebook과 같은 거대한 응용 프로그램의 경우 매우 유용합니다. 사용자는 거의 즉시 채팅 요청에 대한 응답을받습니다. 채팅하는 동안 사용자가 오랫동안 기다려야하는 시나리오를 고려하십시오. 메시지와 후속 응답이 즉시 전달되지 않으면 실제로 얼마나 많은 사람들이 채팅 도구를 사용합니까?
Facebook 구현으로 돌아가서 데이터가 클러스터 전체에 복제되지 않으면 매력적인 구현을 할 수 없습니다. Hadoop은 더 큰 클러스터의 시스템에 데이터를 분산시키고 파일을 일련의 블록으로 저장합니다. 이 블록들은 마지막 블록을 제외하고 동일한 크기입니다. 블록 및 복제 팩터의 크기는 필요에 따라 사용자 지정할 수 있습니다. HDFS의 파일은 한 번만 쓰기 접근 방식을 엄격하게 따르므로 한 번에 한 명의 사용자 만 작성하거나 편집 할 수 있습니다. 블록 복제에 관한 결정은 이름 노드에 의해 이루어집니다. 이름 노드는 각 데이터 노드에서 보고서 및 펄스 응답을받습니다. 펄스 응답은 해당 데이터 노드의 가용성을 보장합니다. 보고서에는 데이터 노드의 블록 세부 사항이 포함됩니다.
또 다른 빅 데이터 구현 인 Cassandra도 비슷한 배포 개념을 사용합니다. Cassandra는 지리적 위치에 따라 데이터를 배포합니다. 따라서 Cassandra에서는 데이터 사용량의 지리적 위치에 따라 데이터가 분리됩니다.
때때로 작은 데이터가 더 큰 (그리고 덜 비싼) 영향을 미칩니다
Open Knowledge Foundation의 Rufus Pollock에 따르면 빅 데이터를 중심으로 과대 광고를 만들 필요는 없지만 작은 데이터는 여전히 실제 가치가있는 곳입니다.
이름에서 알 수 있듯이 작은 데이터는 더 큰 데이터 집합을 대상으로하는 데이터 집합입니다. 작은 데이터는 데이터 사용에서 포커스를 이동 시키려고하며 빅 데이터로 이동하는 추세에 대응하는 것을 목표로합니다. 소규모 데이터 접근 방식은 적은 노력으로 특정 요구 사항에 따라 데이터를 수집하는 데 도움이됩니다. 결과적으로 비즈니스 인텔리전스를 구현하는 동안보다 효율적인 비즈니스 관행입니다.
기본적으로 소규모 데이터의 개념은 추가 조치가 필요한 결과가 필요한 비즈니스를 중심으로 이루어집니다. 이러한 결과는 빠르게 가져와야하며 후속 조치도 즉시 실행해야합니다. 따라서 빅 데이터 분석에 일반적으로 사용되는 시스템을 제거 할 수 있습니다.
일반적으로 빅 데이터 수집에 필요한 특정 시스템 중 일부를 고려할 경우 회사는 많은 서버 스토리지 설정에 투자하고 정교한 고급 서버와 최신 데이터 마이닝 응용 프로그램을 사용하여 다양한 데이터 비트를 처리 할 수 있습니다 사용자 작업 날짜 및 시간, 인구 통계 정보 및 기타 정보를 포함합니다. 이 전체 데이터 세트는 중앙 집중식 데이터웨어 하우스로 이동합니다. 여기서 복잡한 알고리즘을 사용하여 데이터를 정렬하고 처리하여 상세 보고서 형태로 표시합니다.
우리는 이러한 솔루션이 확장 성과 가용성 측면에서 많은 비즈니스에 도움이되었다는 것을 알고 있습니다. 이러한 접근 방식을 채택하려면 상당한 노력이 필요하다는 조직이 있습니다. 경우에 따라 덜 견고한 데이터 마이닝 전략을 사용하여 유사한 결과를 얻을 수도 있습니다.
소규모 데이터는 조직이보다 복잡한 비즈니스 프로세스를 지원하는 최신 최신 기술에 대한 집착에서 벗어날 수있는 방법을 제공합니다. 소규모 데이터를 홍보하는 회사는 비즈니스 관점에서 리소스를 효율적으로 사용하는 것이 중요하므로 기술에 대한 초과 지출을 어느 정도 피할 수 있습니다.
우리는 빅 데이터와 작은 데이터 현실에 대해 많이 논의했지만 올바른 사용을 위해 올바른 플랫폼 (빅 데이터 또는 작은 데이터)을 선택하는 것이 전체 연습에서 가장 중요한 부분이라는 것을 이해해야합니다. 사실 빅 데이터는 많은 이점을 제공 할 수 있지만 항상 최선의 방법은 아닙니다.