트렌드 hadoop이 빅 데이터 문제를 해결하는 데 어떻게 도움이됩니까?

hadoop이 빅 데이터 문제를 해결하는 데 어떻게 도움이됩니까?

차례:

Anonim

빅 데이터는 ・ ・ ・ ・ ・ ・ ・ 큰 사이즈입니다! 정확히 빅 데이터로 분류 할 수있는 데이터의 양이 명확하지 않기 때문에이 논쟁에 얽매이지 말자. 기가 바이트 단위의 데이터를 처리하는 데 사용되는 소규모 회사의 경우 10TB의 데이터가 BIG가됩니다. 그러나 Facebook 및 Yahoo와 같은 회사의 경우 페타 바이트가 큽니다.


빅 데이터의 크기만으로 데이터베이스 또는 기존 파일러와 같은 기존 스토리지에 데이터를 저장하는 것이 불가능하거나 비용이 많이들 수 있습니다. 우리는 기가 바이트의 데이터를 저장하는 비용에 대해 이야기하고 있습니다. 기존 스토리지 파일러를 사용하면 빅 데이터를 저장하는 데 많은 비용이 듭니다.


여기서는 빅 데이터, 그 과제 및 Hadoop이 이러한 문제를 해결하는 데 어떻게 도움이되는지 살펴 보겠습니다. 첫째, 빅 데이터의 가장 큰 과제입니다.


빅 데이터가 구조화되지 않았거나 반 구조화되어 있음

많은 빅 데이터가 구조화되어 있지 않습니다. 예를 들어 클릭 스트림 로그 데이터는 다음과 같습니다.


타임 스탬프, user_id, 페이지, referrer_page


구조 부족으로 인해 관계형 데이터베이스는 빅 데이터를 저장하기에 적합하지 않습니다. 또한 수십억 행의 데이터 저장에 대처할 수있는 데이터베이스는 많지 않습니다.

빅 데이터를 처리 할 수없는 경우 스토리지에 아무런 의미가 없습니다

빅 데이터 저장은 게임의 일부입니다. 인텔리전스를 활용하려면 정보를 처리해야합니다. 전통적인 스토리지 시스템은 단지 비트 만 저장한다는 의미에서 "멍청한"것입니다. 처리 능력을 제공하지 않습니다.


기존의 데이터 처리 모델에는 스토리지 클러스터에 저장된 데이터가 있으며 처리를 위해 컴퓨팅 클러스터로 복사됩니다. 결과는 스토리지 클러스터에 다시 기록됩니다.


그러나이 모델은 너무 많은 데이터를 계산 클러스터로 복사하는 데 너무 많은 시간이 걸리거나 불가능하기 때문에 빅 데이터에는 적합하지 않습니다. 그래서 대답은 무엇입니까?


한 가지 솔루션은 컴퓨팅 클러스터로 배가되는 스토리지 클러스터와 같이 빅 데이터를 처리하는 것입니다.


위에서 살펴본 것처럼 빅 데이터는 기존 스토리지를 무시합니다. 그렇다면 빅 데이터는 어떻게 처리합니까?

하둡이 빅 데이터 문제를 해결하는 방법

하둡은 컴퓨터 클러스터에서 실행되도록 구축

예를 들어 보자. 많은 사진을 저장해야한다고 가정 해 봅시다. 단일 디스크로 시작하겠습니다. 단일 디스크를 초과하면 머신에 몇 개의 디스크를 쌓을 수 있습니다. 단일 머신에서 모든 디스크를 최대한 활용하려면 각각 디스크가 많은 머신이 필요합니다.


이것이 바로 하둡이 만들어지는 방식입니다. 하둡은 시스템 클러스터에서 실행되도록 설계되었습니다.



하둡 클러스터 수평 확장

Hadoop 클러스터에 노드를 더 추가하여 더 많은 스토리지 및 컴퓨팅 성능을 달성 할 수 있습니다. 이를 통해 점점 더 강력하고 비싼 하드웨어를 구입할 필요가 없습니다.


하둡은 비정형 / 반 정형 데이터를 처리 할 수 ​​있습니다

하둡은 저장된 데이터에 스키마를 적용하지 않습니다. 임의의 텍스트와 이진 데이터를 처리 할 수 ​​있습니다. 따라서 Hadoop은 비정형 데이터를 쉽게 소화 할 수 있습니다.


하둡 클러스터는 스토리지 및 컴퓨팅을 제공합니다

개별 스토리지 및 처리 클러스터를 갖는 것이 빅 데이터에 가장 적합하지 않은 방법을 보았습니다. 그러나 하둡 클러스터는 하나의 스토리지 및 분산 컴퓨팅을 모두 제공합니다.

하둡 비즈니스 사례

하둡은 합리적인 비용으로 빅 데이터를위한 스토리지를 제공합니다

기존 스토리지를 사용하여 빅 데이터를 저장하면 비용이 많이들 수 있습니다. 하둡은 상용 하드웨어를 기반으로 구축되므로 합리적인 비용으로 상당히 큰 스토리지를 제공 할 수 있습니다. 하둡은 페타 바이트 규모로 현장에서 사용되었습니다.


Cloudera의 한 연구에 따르면 기업은 일반적으로 연간 테라 바이트 당 약 25, 000 ~ $ 50, 000를 소비합니다. 하둡을 사용하면이 비용은 연간 테라 바이트 당 수천 달러로 떨어집니다. 하드웨어가 저렴하고 저렴 해짐에 따라이 비용은 계속 감소합니다.


하둡은 새로운 또는 더 많은 데이터를 캡처 할 수 있습니다

조직은 데이터를 저장하기에는 너무 비용이 많이 들기 때문에 데이터 유형을 캡처하지 않는 경우가 있습니다. Hadoop은 합리적인 비용으로 스토리지를 제공하므로이 유형의 데이터를 캡처하고 저장할 수 있습니다.


예를 들어 웹 사이트 클릭 로그가 있습니다. 이러한 로그의 볼륨이 매우 높을 수 있기 때문에 많은 조직에서 이러한 로그를 캡처하지 못했습니다. 이제 Hadoop을 사용하면 로그를 캡처하고 저장할 수 있습니다.


Hadoop을 사용하면 데이터를 더 오래 저장할 수 있습니다

저장된 데이터의 양을 관리하기 위해 회사는 정기적으로 오래된 데이터를 제거합니다. 예를 들어, 지난 3 개월 동안의 로그 만 저장할 수 있지만 오래된 로그는 삭제되었습니다. Hadoop을 사용하면 히스토리 데이터를 더 오래 저장할 수 있습니다. 이를 통해 오래된 과거 데이터에 대한 새로운 분석을 수행 할 수 있습니다.


예를 들어, 웹 사이트에서 클릭 로그를 가져옵니다. 몇 년 전, 이 로그는 인기 페이지와 같은 통계를 계산하기 위해 잠시 동안 저장되었습니다. 이제 Hadoop을 사용하면 이러한 클릭 로그를 더 오랫동안 저장할 수 있습니다.


하둡은 확장 가능한 분석을 제공합니다

이 모든 데이터를 분석 할 수없는 경우 저장하지 않아도됩니다. 하둡은 분산 스토리지뿐만 아니라 분산 처리도 제공하므로 대량의 데이터를 병렬로 처리 할 수 ​​있습니다. Hadoop의 컴퓨팅 프레임 워크를 MapReduce라고합니다. MapReduce는 페타 바이트 규모로 입증되었습니다.


하둡은 풍부한 분석 기능을 제공합니다

기본 MapReduce는 기본 프로그래밍 언어로 Java를 지원합니다. Ruby, Python 및 R과 같은 다른 언어도 사용할 수 있습니다.


물론, 맞춤형 MapReduce 코드를 작성하는 것이 하둡에서 데이터를 분석하는 유일한 방법은 아닙니다. 더 높은 수준의 맵 감소가 가능합니다. 예를 들어, Pig라는 도구는 데이터 흐름 언어와 같은 영어를 가져와 MapReduce로 변환합니다. 또 다른 도구 인 Hive는 SQL 쿼리를 가져와 MapReduce를 사용하여 실행합니다.


비즈니스 인텔리전스 (BI) 도구는 훨씬 더 높은 수준의 분석을 제공 할 수 있습니다. 이 유형의 분석을위한 도구도 있습니다.


이 내용은 Mark Kerzner와 Sujee Maniyam의 "Hadoop Illuminated"에서 발췌 한 것입니다. Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License를 통해 제공되었습니다.

hadoop이 빅 데이터 문제를 해결하는 데 어떻게 도움이됩니까?