> 빅데이터: 하둡, 비즈니스 분석툴을 넘어 (5) : '하둡'의 기술적 구성:ITX 클라우드

Hadoop Technical Components


둡의 '스택(stack)'은 다수의 콤포넌트로 구성된다. 이는 다음과 같다 :


    • 하둡 분산 파일시스템 (HDFS; Hadoop Distributed File System): 하둡 클러스터의 디폴트 스토리지 레이어
    • 네임노드 (Name Node): 클러스터 상의 특정 데이터의 저장 위치 또는 노드의 오류 여부에 대한 정보를 클라이언트에 제공하는 하둡 클러스터의 특정 노드
    • 2차노드 (Secondary Node): 네임노드의 백업으로 네임노드 오류를 대비하여 주기적으로 데이터를 복제하고 저장한다.
    • 잡트래커 (Job Tracker): 하둡 클러스터의 노드로 맵리듀스 작업을 개시하고 조정하거나, 데이터 처리를 지시함슬레이브노드 (Slave Nodes): 하둡 클러스터에서 보조적인 역할을 하며, 슬레이브 노드들은 데이터를 저장하고 잡트래커로부터 이를 처리하도록 지시한다.



 상기 구성에 덧붙여, 하둡 에코시스템은 수 많은 하위 프로젝트들로 보완된다. 하둡에서는 맵리듀스 작업의 결과물을 저장하기 위하여 카산드라 또는 HBase와 같은 NoSQL 데이터 저장방식을 이용한다. 기본적으로는 자바로 작성되었으나, 일부 맵리듀스 잡(job)과 기타 하둡 함수들은 피그(Pig) 언어를 사용하여 개발되었는데, 피그는 하둡을 위해 고안된 오픈 소스 언어이다. 하이브(Hive)는 오픈 소스 데이터웨어하우스로 하둡 내에서 분석 모델링을 위해 페이스북에 의해 개발되었다.


음은 하둡 구성에 대한 가이드이다. :


 HDFS

(Hadoop Distributed File System) : 하둡의 스토리지 레이어는 분산, 확장, 자바 기반의 파일시스템으로 대대량의 비정형 데이터 저장에 적합하다.

 MapReduce

: 하둡의 컴퓨트(compute) 레이어 역할을 하는 소프트웨어 프레임워크

 Hive

: 하둡 기반 데이터웨어하우스로 페이스북이 개발하였다.

 Pig

: 하둡 기반 오픈 소스 언어로 야후에서 개발되었다.

 HBase

: 비 관계 데이터베이스로 하둡에서 빠른 검색과 로우 레이턴시가 가능. 이베이와 페이스북에서 주로 사용


기타 콤포넌트


 Flume

   Avro

 BigTop 

 Oozie

    Mahout 

 Whirr

 Sqoop


Ref: Jeff Kelly, the Wikibon Community, 2012

Changoh Joo

주창오, 효성ITX 클라우드사업부

자유로운 서버생성 / 무약정,최저가 / 1주일 무료, ITX클라우드 서비스 www.itxcloud.co.kr

저작자 표시 비영리 변경 금지
신고

댓글을 달아 주세요



티스토리 툴바