트렌드 무슨 $ @! 하둡인가?

무슨 $ @! 하둡인가?

차례:

Anonim

모두가 개발자들에게 높은 평가를 받고 세상을 바꿀 수있는 최신 기술인 하둡에 대해 이야기하고 있습니다. 어쨌든 무엇입니까? 프로그래밍 언어입니까? 데이터베이스? 처리 시스템? 아늑한 인도 차?


넓은 대답 : 하둡은 이러한 모든 것 (차 아늑한 제외) 등입니다. 다른 최신 유행어 인 빅 데이터를 저렴하고 유용하게 처리 할 수있는 프로그래밍 프레임 워크를 제공하는 소프트웨어 라이브러리입니다.

하둡은 어디에서 왔습니까?

Apache Hadoop은 비영리 조직인 Apache Software Foundation의 재단 프로젝트의 일환으로 "공공재를 위해 소프트웨어를 제공하는 것"입니다. 따라서 Hadoop 라이브러리는 모든 개발자가 사용할 수있는 무료 오픈 소스 소프트웨어입니다.


하둡을 구동하는 기본 기술은 실제로 Google에서 발명 한 것입니다. 초기에는 거대하지 않은 검색 엔진이 인터넷에서 수집 한 방대한 양의 데이터를 색인화하여 사용자에게 의미 있고 관련성있는 결과로 전환 할 수있는 방법이 필요했습니다. Google은 시장에서 요구 사항을 충족 할 수있는 제품이 없어 자체 플랫폼을 구축했습니다.


이러한 혁신은 Nutch라는 오픈 소스 프로젝트에서 발표되었으며 나중에 Hadoop이 기초로 사용했습니다. 기본적으로 Hadoop은 모든 규모의 회사에 적합한 방식으로 Google의 강력한 기능을 빅 데이터에 적용합니다.

하둡은 어떻게 작동합니까?

앞에서 언급했듯이 하둡은 한 가지가 아니라 여러 가지입니다. Hadoop 인 소프트웨어 라이브러리는 네 가지 주요 부분 (모듈)과 실제 사용을 향상시키는 데이터베이스 및 프로그래밍 언어와 같은 여러 가지 애드온 솔루션으로 구성됩니다. 네 가지 모듈은 다음과 같습니다.

  • Hadoop Common : Hadoop 모듈을 지원하는 공통 유틸리티 (공용 라이브러리) 모음입니다.
  • HDFS (Hadoop Distributed File System) : 중복 데이터를 사용하여 처리량이 많은 액세스를 제공하는 저장된 데이터에 대한 제한이없는 강력한 분산 파일 시스템 HDFS를 사용하면 여러 시스템에 데이터를 저장할 수 있으므로 한 시스템에 장애가 발생하면 다른 시스템을 통해 가용성이 유지됩니다.
  • Hadoop YARN :이 프레임 워크는 작업 예약 및 클러스터 리소스 관리를 담당합니다. 중복성을 유지하기 위해 데이터가 여러 머신에 충분히 분산되어 있는지 확인합니다. YARN은 Hadoop을 빅 데이터를 처리하기위한 경제적이고 비용 효율적인 방법으로 만드는 모듈입니다.
  • Hadoop MapReduce : Google 기술을 기반으로하는이 YARN 기반 시스템은 대규모 데이터 세트 (구조화 및 비 구조화)를 병렬 처리합니다. MapReduce는 MPP 및 NoSQL 데이터베이스를 포함한 오늘날의 대부분의 빅 데이터 처리 프레임 워크에서도 찾을 수 있습니다.
이러한 모든 모듈이 함께 작동하면 대규모 데이터 세트에 대한 분산 처리가 생성됩니다. Hadoop 프레임 워크는 컴퓨터 클러스터 전체에 복제되는 간단한 프로그래밍 모델을 사용하므로 시스템은 하드웨어에만 의존하지 않고 단일 서버에서 수천 대의 컴퓨터로 확장하여 처리 능력을 향상시킬 수 있습니다.


빅 데이터를 처리하는 데 필요한 처리 능력을 처리 할 수있는 하드웨어는 비용이 많이 들기 때문에 비용이 많이 듭니다. 이것이 바로 Hadoop의 진정한 혁신입니다. 각각의 자체 로컬 화 된 계산 및 스토리지와 장애를 방지하기 위해 내장 된 이중화와 함께 여러 개의 작은 시스템에서 대량의 처리 능력을 분해하는 기능입니다.

하둡은 무엇을합니까?

간단히 말해서 하둡은 모든 사람이 빅 데이터에 액세스하고 사용할 수 있도록합니다.


하둡 이전에는 빅 데이터를 사용하는 회사가 주로 관계형 데이터베이스 및 엔터프라이즈 데이터웨어 하우스 (대량의 고가의 하드웨어를 사용)와 관련이있었습니다. 이러한 도구는 구조화 된 데이터 (이미 관리 가능한 방식으로 정렬 및 정리 된 데이터)를 처리하는 데 유용하지만 구조화되지 않은 데이터를 처리하는 용량은 극히 제한되어있어 실제로는 존재하지 않았습니다. 사용하기 위해서는 먼저 테이블에 잘 맞도록 데이터를 구성해야했습니다.


Hadoop 프레임 워크는 이러한 요구 사항을 변경하고 저렴하게 수행합니다. Hadoop을 사용하면 일반 및 상용 서버를 사용하여 구조화되거나 구조화되지 않은 10-100 기가 바이트 이상의 대량의 데이터를 처리 할 수 ​​있습니다.


하둡은 모든 산업에서 모든 규모의 비즈니스에 잠재적 인 빅 데이터 애플리케이션을 제공합니다. 오픈 소스 프레임 워크를 통해 금융 회사는 포트폴리오 평가 및 위험 분석을위한 정교한 모델을 만들거나 온라인 소매 업체가 검색 답변을 미세 조정하고 고객이 구매 가능성이 높은 제품을 가리 키도록 할 수 있습니다.


하둡을 통해 가능성은 무한합니다.

무슨 $ @! 하둡인가?