> 빅데이터: 하둡, 비즈니스 분석툴을 넘어 (4) : 첫번째 접근 '하둡':ITX 클라우드

New Approaches To Big Data Processing And Analytics


데이터 처리를 위한 많은 처리방법과 분석방법이 있다. 하지만, 대부분 몇 가지 공통된 특징을 지닌다. 즉, 범용 하드웨어를 활용한 스케일아웃(scale-out) 병렬처리기술; 비정형 또는 반정형 데이터 처리를 위하여 비관계형(Non-relational) 데이터 저장; 사용자에게 통찰력을 제공해 주기위한 고급 분석 및 데이터 시각화 기술의 빅데이터 적용이다.


 비즈니스 분석 및 데이터 관리 시장의 구도를 바꾸는 두 가지 빅데이터 접근 방식이 있다. 그 첫번째 접근 방식이 '하둡(Hadoop)'이다.

HADOOP


둡은 대량의 분산, 비정형 데이터를 저장하고 분석하기 위한 오픈소스 프레임웍이다. 야후!의 더그 커팅이 고안한 것으로 2000년 초에 구글에서 웹의 색인(indexing)을 위해 개발한 사용자 정의 함수인 맵리듀스(MapReduce)에 의해 활성화 되었다. 다수 노드에 병렬로 분산된 페타바이트에서 엑사바이트 단위의 데이터를 처리하기 위해 고안한 것으로, 하둡 클러스터는 저렴한 범용 하드웨어에서 구동한다. 따라서 큰 비용을 들이지 않고도 쉽게 스케일아웃(scale-out)이 가능하다. 하둡은 이제 아파치 소프트웨어 파운데이션의 프로젝트가 되었으며, 수많은 수백명의 자원자들이 핵심 기술 개선을 위해 지속적으로 노력하고 있다. 기본적인 컨셉은 하나의 머신에서 거대한 데이터 블록을 한 번에 처리하는 대신, 하둡은 빅데이터를 여러개의 단위로 분할하여 동시에 처리하고 분석하는 것이다.


How Hadoop Works 

 로그 파일, 소셜미디어 피드, 저장된 내부 데이터를 포함하는 소스(source)의 비정형, 반정형 데이터에 사용자가 접근하면, 데이터를 파트(parts)로 나누어 범용 하드웨어에서 구동하는 다수의 노드로 구성된 파일 시스템에 로딩한다. 하둡의 기본적인 파일저장방식은 HDFS(하둡 분산 파일 시스템, Hadoop Distributed File System)다. HDFS와 같은 파일 시스템은 대량의 비정형, 반정형 데이터를 저장하는데 적합하도록 설계되었으므로, 저장 데이터는 조직화되어 관계DB의 행과 열이 될 필요는 없다.

 각각의 분할된 파트는 몇차례에 걸친 복제 후 파일시스템으로 로딩된다. 따라서 특정 노드에 오류가 발생하더라도 다른 노드가 해당 데이터의 복사본을 가지고 있게 된다. '네임노드(Name Node)'는 유휴 노드에 대한 정보, 클러스터 상의 특정 데이터 위치, 오류 노드 정보 등에 대해 클라이언트에게 알려줌으로써, 일종의 촉진자(facilitator) 역할을 한다.


단 데이터가 클러스터에 로딩되면, 맵리듀스 프레임워크를 사용한 분석준비가 된 셈이다. 클리이언트가 잡트래커(Job Tracker)로 알려진 클러스터 상의 노드 중 하나에 '맵(Map' 작업(job)을 지시하게 되면 - 보통은 자바로 된 쿼리 - 잡트래커는 네임노드를 참조하여 작업 완료를 위하여 접근해야 하는 데이터와 클러스터 상의 데이터 위치를 결정한다. 일단 결정된 후에는, 잡트래커가 관련된 노드들에게 쿼리를 하게 되는데, 데이터 처리를 위해 모든 데이터를 중앙으로 보내는 것이 아니라, '처리'가 각각의 노드에서 동시에 또는 병렬로 진행된다. 이것이 하둡의 핵심 특징이라 할 수 있다.

 각각의 노드가 주어진 작업의 처리를 마무리한 후, 결과를 저장한다. 이제 클라이언트는 잡트래커를 통해 '리듀스(Reduce)' 작업을 개시한다. 맵 작업에 따라 개별 노드에 각각 저장된 결과물들이 합쳐지고 최초의 쿼리에 대한 '답(answer)'을 결정한 후, 이를 클러스터의 또 다른 노드로 로딩한다. 클라이언트가 결과에 접근하게 되면, 분석 환경 중 하나로 로딩될 수 있다. 이제야 맵리듀스가 마무리 된 것이다.


[Map/Reduce : blog.maxgarfinkel.com, 2010]


맵리듀스 단계가 완료되면, 처리된 데이터는 고급 데이터 분석 스킬을 보유한 데이터 과학자 등에 의한 추가적 분석을 위한 준비 완료 상태가 된다. 데이터 과학자는 많은 툴 중 하나를 여러번 사용하여 데이터를 조작하고 분석하는데, 이러한 과정을 통하여 사용자 지향 분석 애플리케이션을 만들기 위한 기초로 사용할 수 있는 숨겨진 통찰 또는 패턴을 발견하게 된다. 물론 추가적인 분석 또는 거래 프로세스를 지원하기 위해 필요할 경우, 데이터는 모델링 되어, 하둡 클러스터로 부터 현재 사용 중인 관계 데이터베이스, 데이터웨어하우스, 기존 IT 시스템으로 전송될 수 있다.

Ref: Jeff Kelly, the Wikibon Community, 2012

Changoh Joo

주창오, 효성ITX 클라우드사업부

자유로운 서버생성 / 무약정,최저가 / 1주일 무료, ITX클라우드 서비스 www.itxcloud.co.kr

저작자 표시 비영리 변경 금지
신고

댓글을 달아 주세요



티스토리 툴바