> 빅데이터: 하둡, 비즈니스 분석툴을 넘어 (7) : 두번째 접근 '차세대 데이터웨어하우징':ITX 클라우드

Next Generation Data Warehousing


존 데이터웨어하우스와는 달리, 차세대 데이터웨어하우스(Next Generation Data warehouse)는 대규모의 정형 데이터를 최소한의 데이터 모델링으로 처리하는데, 테라바이트에서 페타바이트의 데이터까지 처리가 가능하다. 사용자 입장에서 가장 중요한 것은, 차세대 데이터웨어하우스가 복합 SQL 쿼리에 대한 근실시간 처리를 지원한다는 것이다. 이는 하둡에는 없는 결정적인 기능이다.



차세대 데이터웨어하우스의 기본적인 특징들은 다음과 같다 :


1) 대량 병렬처리 (또는 MPP) : 차세대 데이터웨어하우스는 MPP, 즉 대량 병렬처리를 사용하여 여러대의 기기(서버)에서 동시에 데이터를 등록하고, 처리하며, 질의한다. 결과물은 하나의 대형 서버에서 병목현상의 제약조건을 가지고 운영되는 기존의 데이터웨어하우스 보다도 훨씬 빠른 성과로 나타난다.

2) 무공유 구조 (shared-nothing architecture) : 차세대 데이터웨어하우스 환경에서 오류는 있을 수 없다. 각각의 노드는 독립적으로 운영되므로, 하나의 서버에 장애가 발생된다 할지라도 다른 서버들은 여전히 정상 동작을 하게된다. MPP 환경에서 특히 중요한 것은 데이터 병렬처리 서버들이 수 백개가 될 때, 하나 또는 두개의 장애는 피할 수 없는 것이라는 사실이다.

3) 컬럼 구조 (Columnar architecture) : 대부분의 관계 데이터베이스는 행단위로 데이터를 저장하고 처리하는 것이 일반적인데, 대부분의 차세대 데이터웨어하우스는 컬럼 구조를 차용한다. 컬럼 구조 환경에서는 제시되는 쿼리에 대한 "응답(answer)"을 결정하기 위해 필요한 데이터는 전체 데이터 행보다는 컬럼(열)에서 보유한다. 이러한 구조는 매우 빠른 응답속도라는 결과를 낳는다. 이 뿐만 아니라 데이터는 기존의 관계 데이터베이스에서처럼 깔끔한 테이블 구조를 필요치 않는다는 것을 의미한다.

4) 데이터 고도 압축 : 차세대 데이터웨어하우스는 기존과 비교하여 더욱 큰 규모의 데이터 볼륨을 등록하고 저장할 수 있다. 동시에 기존의 데이터베이스 보다 현저히 적은 하드웨어 자원으로 이를 수행한다. 예를 들어 10-대-1 압축률을 가지는 웨어하우스는 10 테라바이트를 1테라바이트로 압축할 수 있다. 데이터 압축과 관련 기술을 데이터 인코딩이라 하며, 이는 대량의 데이터 볼륨의 효율적 확장에 있어서 결정적인 역할을 한다.

5) 범용 서 : 하둡 클러스터와 마찬가지로, 대부분의 차세대 데이터웨어하우스는 기존의 범용 서버를 활용한다.


지만, 차세대 데이터웨어하우스 또한 문제점이 있다. 가장 두드러진 것은, 차세대 데이터웨어하우스는 빅데이터 시대에 데이터 규모 폭증의 중심에 있는 반정형 또는 무정형 데이터의 등록, 처리, 분석을 위하여 설계된 것이 아니기 때문에, 기업의 데이터 자산을 전체적으로 활용하기 위해서는 하둡/NoSQL 및 차세대 데이터웨어하우스의 조합이 필수적인 경우가 많다.

Ref: Jeff Kelly, the Wikibon Community, 2012

Changoh Joo

주창오, 효성ITX 클라우드사업부

자유로운 서버생성 / 무약정,최저가 / 1주일 무료, ITX클라우드 서비스 www.itxcloud.co.kr

저작자 표시 비영리 변경 금지
신고

댓글을 달아 주세요



티스토리 툴바