차례:
- 하둡은 어떻게 시작 했습니까?
- 하둡에서 무엇이 중요합니까?
- 읽은 스키마 란 무엇입니까?
- 하이브 란?
- 하둡은 어떤 종류의 데이터를 분석합니까?
- 실제 Hadoop의 예를들 수 있습니까?
- 하둡은 이미 쓸모 없거나 모핑입니까?
하둡이란? 노란색 장난감 코끼리입니다. 당신이 기대했던 것이 아니십니까? 이 오픈 소스 소프트웨어 프로젝트의 공동 제작자 인 Doug Cutting은 장난감 코끼리 하둡이라고 불리는 아들로부터 이름을 빌 렸습니다. 간단히 말해서, Hadoop은 Apache Software Foundation에서 개발 한 소프트웨어 프레임 워크로 데이터 집약적 인 분산 컴퓨팅을 개발하는 데 사용됩니다. 그리고 그것은 다른 유행어 독자들에게는 결코 얻을 수없는 큰 데이터 인 빅 데이터의 핵심 요소입니다. 무료로 라이센스가 부여 된이 고유 한 소프트웨어에 대해 알아야 할 7 가지 사항이 있습니다.
하둡은 어떻게 시작 했습니까?
12 년 전에 Google은 수집 한 방대한 양의 데이터를 조작 할 수있는 플랫폼을 구축했습니다. 회사와 마찬가지로 Google은 Google 파일 시스템과 MapReduce라는 두 가지 논문의 형태로 대중에게 디자인을 공개했습니다.
동시에 Doug Cutting과 Mike Cafarella는 새로운 검색 엔진 인 Nutch를 연구하고있었습니다. 두 사람은 또한 대량의 데이터를 처리하는 방법에 어려움을 겪고있었습니다. 그런 다음 두 연구원은 Google의 논문에 바람을 받았습니다. 그 행운의 교차점은 Cutting과 Cafarella를 더 나은 파일 시스템과 데이터를 추적하는 방법으로 도입하여 모든 것을 바꾸어 결국 Hadoop을 만들었습니다.
하둡에서 무엇이 중요합니까?
오늘날 데이터 수집이 그 어느 때보 다 쉬워졌습니다. 이 모든 데이터를 갖는 것은 많은 기회를 제공하지만 도전 과제도 있습니다 :- 방대한 양의 데이터에는 새로운 처리 방법이 필요합니다.
- 캡처되는 데이터는 구조화되지 않은 형식입니다.
다음으로, 표준 관계형 데이터베이스 시스템이 처리 할 수없는 형식의 비정형 데이터 또는 데이터를 처리해야했습니다. Cutting and Cafarella는 구조, 비정형, 이미지, 오디오 파일, 텍스트 등 모든 유형의 데이터를 처리 할 수 있도록 Hadoop을 설계했습니다. 이 Cloudera (Hadoop 통합 자) 백서에서는 이것이 중요한 이유를 설명합니다.
-
"하둡은 데이터베이스에있는 것뿐만 아니라 모든 데이터를 사용 가능하게함으로써 숨겨진 관계를 발견하고 항상 접근 할 수 없었던 답변을 공개 할 수있게합니다. 직감 대신 하드 데이터를 기반으로 더 많은 결정을 내릴 수 있습니다. "샘플 및 요약뿐만 아니라 완전한 데이터 세트에서"
읽은 스키마 란 무엇입니까?
앞에서 언급했듯이 Hadoop의 장점 중 하나는 구조화되지 않은 데이터를 처리하는 기능입니다. 어떤 의미에서는 "길을 따라 깡통을 걷어차는 것"입니다. 결국 데이터를 분석하려면 일종의 구조가 필요합니다.
바로 여기에서 읽기 스키마가 작동합니다. 읽은 스키마는 데이터의 형식, 데이터를 찾을 위치 (데이터가 여러 서버에 분산되어 있음) 및 간단한 작업이 아닌 데이터에 수행 할 작업을 통합 한 것입니다. 하둡 시스템에서 데이터를 조작하려면 비즈니스 분석가, 통계 학자 및 Java 프로그래머의 기술이 필요하다고합니다. 불행히도, 그러한 자격을 가진 사람들은 많지 않습니다.
하이브 란?
하둡이 성공하려면 데이터 작업을 단순화해야했습니다. 따라서 오픈 소스 군중이 작동하여 Hive를 만들었습니다.-
"Hive는이 데이터에 구조를 투영하고 HiveQL이라는 SQL과 같은 언어를 사용하여 데이터를 쿼리하는 메커니즘을 제공합니다. 동시에이 언어를 사용하면 기존의 맵 / 리 듀스 프로그래머가 불편하거나 HiveQL에서이 논리를 표현하는 것은 비효율적입니다. "
Hive는 두 가지 이점을 모두 제공합니다. SQL 명령에 익숙한 데이터베이스 담당자가 데이터를 조작 할 수 있으며 읽기 프로세스에 대한 스키마에 익숙한 개발자는 여전히 사용자 정의 조회를 작성할 수 있습니다.
하둡은 어떤 종류의 데이터를 분석합니까?
웹 분석은 웹 로그를 최적화하기 위해 웹 로그 및 웹 트래픽을 분석하는 첫 번째 방법입니다. 예를 들어 Facebook은 Hadoop을 사용하여 회사가 축적 한 테라 바이트 단위의 데이터를 정렬하여 웹 분석에 사용됩니다.
회사는 Hadoop 클러스터를 사용하여 위험 분석, 사기 탐지 및 고객 기반 세분화를 수행합니다. 유틸리티 회사는 Hadoop을 사용하여 전력망에서 센서 데이터를 분석하여 전력 생산을 최적화 할 수 있습니다. Target, 3M 및 Medtronics와 같은 주요 회사는 Hadoop을 사용하여 제품 배포, 비즈니스 위험 평가 및 고객 기반 세분화를 최적화합니다.
대학들도 하둡에 투자합니다. University of St. Thomas 소프트웨어 대학원 프로그램의 부교수 인 브래드 루빈 (Brad Rubin)은 그의 하둡 전문 지식이 대학의 연구 그룹이 수집 한 많은 양의 데이터를 분류하는 데 도움이된다고 언급했다.
실제 Hadoop의 예를들 수 있습니까?
더 잘 알려진 예 중 하나는 TimesMachine입니다. New York Times에는 1851 년부터 1922 년까지 테라 바이트 급 데이터에 이르는 전체 페이지 신문 TIFF 이미지, 관련 메타 데이터 및 기사 텍스트가 있습니다. EC2 / S3 / Hadoop 시스템 및 특수 코드를 사용하는 NYT의 Derek Gottfrid :-
"405, 000 개의 매우 큰 TIFF 이미지, SGML의 330 만 기사 및 TIFF의 직사각형 영역에 기사를 매핑하는 405, 000 개의 xml 파일을 수집했습니다.이 데이터는 웹 친화적 인 810, 000 개의 PNG 이미지 (축소판 및 전체 이미지) 및 405, 000 개의 JavaScript 파일로 변환되었습니다. "
Gottfrid는 Amazon Web Services 클라우드의 서버를 사용하여 36 시간 이내에 TimesMachine에 필요한 모든 데이터를 처리 할 수 있다고 언급했습니다.
하둡은 이미 쓸모 없거나 모핑입니까?
하둡은 10 년 넘게 존재 해 왔습니다. 그것은 쓸모 없다고 말하는 많은 사람들이 있습니다. 한 전문가 인 데이비드 리코 (David Rico) 박사는 "IT 제품은 수명이 짧다. 개 년 동안 구글 제품은 약 70 세이고 하둡은 56 세"라고 말했다.
리코의 말에는 약간의 진실이있을 수 있습니다. 하둡이 대대적 인 개편을 진행하고있는 것으로 보입니다. 이에 대해 자세히 알아보기 위해 Rubin은 Twin Cities Hadoop User Group 회의에 초대했으며 토론 주제는 YARN 소개입니다.
-
"Apache Hadoop 2에는 새로운 MapReduce 엔진이 포함되어 있습니다.이 맵리 듀스 엔진은 확장 성과 자원 활용도 향상을 포함하여 이전 구현에 비해 여러 가지 장점이 있습니다. 새로운 구현은 YARN이라는 분산 애플리케이션을 실행하기위한 일반 자원 관리 시스템을 기반으로합니다."