> 빅데이터를 이해하기 위한 Four 'V':ITX 클라우드

Volume

Velocity

Variety

Variability 


계 전문가들과 오피니언 리더들이 바라보는 빅데이터의 본질에 대해서는 이견이 없다. 빅데이터를 말할 때는 규모(Volume)의 폭발적 증가만이 아니라, 속도(Velocity), 다양성(Variety) 또한 동등하게 다루어져야 한다. '속도'라는 말은 센서의 아웃풋이나 소셜 네트워크에서의 인터렉션과 같은 다양한 유형의 빅데이터가 동일한 시간 내에 얼마나 많이 생성되는 지를 의미하며, '다양성'은 센서의 단순한 깜박이는 신호나 웹페이지의 클릭스트림(페이지 이용 경로), 아니면 수 기가바이트의 맵 이미지에 이르기까지 다양한 형식을 의미한다.


 많은 전문가들은 공히 네번째 "V"로 변동성(Variability)을 제시한다. 변동성은 다소 까다로운 개념으로, 단순히 형식의 다양성 뿐만 아니라 관리되는 지점에 따라 변할 수 있다는 것이다. 즉, 데이터의 사용 및 배포가 제한되어 있는가, 아니면 누구나 사용할 수 있는가, 누가 데이터를 보유하고 있는가, 시간에 따라 변할 수 있는가와 같은 많은 요소들이 있다. 변동성은 많은 애플리케이션을 보유하고 있는 대기업에서 특히 중요하다. 반면, 소셜 네트워크나 웹클릭 또는 센서와 같이 단일 소스를 출처로 하는 데이터에서는 상대적으로 덜 중요하게 다루어진다.


데이터는 단일형식(uniform)도 아니며, 동일한 것들로 구성(homogeneous)되지도 않는다. 게다가 데이터의 출처 또한 제각각이며, 빅데이터를 통하여 알고자 하는 바들도 모두 다르다. 4월 초 '비비시모'社는 워싱톤 DC 지역 고객, 파트너, 엔지니어들의 모임인 '테크데이'를 개최하여 빅데이터를 포함한 많은 주제를 다루었는데, 서두 있었던 '테크데이 체험시간'에 빅데이터를 관리하고 값을 추출해 내는 툴들을 자세히 들여다 볼 기회가 있었다. 대부분의 사람들이 빅데이터는 볼륨만으로 다루어질 수 없음을 깨닫고 나서야, 빅데이터 관련 툴과 기술들을 이해하기 시작하고, 언제, 어떻게 이 툴들을 사용해야 하는 지 배우기 시작하였다. 조직 내에 빅데이터와 이로 부터 무엇을 얻어내고자 하는지에 따라 빅데이터 관련 툴들을 달리 선택하여 적용할 필요가 있다. 또한 4개의 'V'(볼륨, 속도, 다양성, 변동성)를 고려하여야만, 조직의 요구사항들을 밝혀 내는데 도움이 된다.


[the four V's of extreme scaleBrian Hopkins]


 오늘날 빅데이터에 대한 논의의 중심에는 필수적으로 하둡(동화에서 나오는 사랑스러운 코끼리의 이름을 딴 오픈소스 프로젝트)이 있다. 하둡이 빅데이터의 중심에 있지만, 하둡 자체가 모든것을 해결해 주지는 않는다. 아파치 하둡 프로젝트와 일반 기업들의 솔루션들이 퍼즐조각처럼 모여 빅테이터의 다양한 요구사항들을 처리한다.


시 테크데이로 돌아가 보자. 테크데이에 많은 툴 들(일부는 오픈소스며, 일부는 상업용 제품)이 4개의 'V'를 어떻게 반영하고 있는지를 살펴보았다. 그리고 각각의 툴들이 4개의 'V'에 대해 어떻게 대응하고 있는지를 보여주는 일련의 다이어그램을 작성하였다.(향후 Vivisimo 백서에서 상세하게 거론될 것이다.)


이러한 방법을 보완적 구성요소인 맵리듀스와 HDFS(하둡 분산 파일 시스템)와 함께 '하둡'에 적용해 보았다. 하둡/맵리듀스/HDFS는 데이터 크기(Volume) 및 다양성 처리에 매우 높은 점수 줄 수 있었다. 이질적 데이터의 방대한 양을 배치 시스템으로 분산하고 처리하는데는 적합하나, 반면 데이터 또는 상호작용 분석의 빠른 입력 및 기록을 가늠하는 '속도'에는 문제가 있었다. 또한 다양한 기업 시스템과 보안 모델에 대한 인터페이스와 커넥터가 부족하였는데, 이는 변동성에도 문제가 있음을 보여준다.


 반면, 기존의 관계 데이터베이스 관리 시스템은 행과 열의 정형 데이터로 구성된 테이블 들이 키(Key)로 결합되어 매우 빠르게 처리하도록 고안되었기 때문에, 특정 형식의 데이터에 대해서는 속도의 문제를 매끄럽게 다룬다고 볼 수 있겠다. 하지만 기존의 RDBMS는 단일 행의 다수 열로 구성되고, 스키마가 고정되어 있지 않으며, 데이터 유형이 다양할 경우에는 문제가 발생한다. 여기서 HBase와 같은 NoSQL ('not only SQL'의 줄임말)이 필요하게 되었다. 기존 데이터베이스는 데이터베이스 내, 네트워크 구성 또는 분산 구성된 데이터베이스에 저장된 데이터를 처리할 수 있도록 설계되었기 때문에, 다양성이라는 영역을 매끄럽게 처리하기에는 부족한 점이 많다.


, 이제 분산된 다양한 데이터 집합으로부터 빠른 응답을 필요로 한다고 가정해 보자. 데이터는 다양한 데이터 유형과, 대용량이며, 기업의 공급망, 이메일 시스템과 같은 변동성과 속도를 가진다. 이러한 상황을 해결하기 위해서는 다량의 데이터 처리를 위한 하둡, 그리고 이를 저장하기 위한 HDFS 뿐만 아니라, 많은 수의 벡엔드 시스템의 데이터에 접근하고 처리할 수 있는 검색 플랫폼을 필요로 한다. 이러한 시스템들 전반에 걸쳐 콘텐트 인덱스를 유지하고 관리하며, 데이터 스키마와 데이터 구조를 신경쓰지 않아도 데이터를 쿼리(query)하고 편집(fuse)할 수 있는 플랫폼은 폭발하는 빅데이터에 많은 기회를 제공하게 된다.

 간단히 말해서, 가장 어려운 문제들에 재빨리 대답할 수 있으며, 알기 어려운 관계를 찾아내게 될 것이다.


Ref: Mark Myers, informationoptimized.com, 2011

Changoh Joo

주창오, 효성ITX 클라우드사업부

자유로운 서버생성 / 무약정,최저가 / 1주일 무료, ITX클라우드 서비스 www.itxcloud.co.kr

저작자 표시 비영리 동일 조건 변경 허락
신고

댓글을 달아 주세요



티스토리 툴바