> 빅데이터: 하둡, 비즈니스 분석툴을 넘어 (3) : 데이터 속성의 변화:ITX 클라우드

The Changing Nature of Big Data


거의 데이터가 어떻게 바뀌고 있는지 자세히 살펴보도록 하겠다. 구체적으로는 :

    • 볼륨 – 기업 내부와 웹, 모바일 디바이스, IT 인프라 등 방화벽 외부의 데이터량이 매년 기하급수적으로 증가하고 있다.
    • 유형 – 데이터 유형이 지속적으로 다양화 되고 있다. 즉, 비정형 텍스트 기반 데이터와 소셜 미디어 데이터, 위치기반 데이터, 로그파일 데이터와 같은 반정형 데이터를 말한다.
    • 속도 – 새로운 데이터가 생성되는 속도 - 기업 가치를 끌어올리기 위해서는 이러한 데이터의 실시간 분석이 필요하다 - 는 거래의 디지털화, 모바일 컴퓨팅, 인터넷 및 모바일 사용자의 급증에 힘입어 갈수록 빨라지고 있다.

 생성 원천과 관련하여, 빅데이터는 다음과 같은 수많은 소스에 의해 생성된다 :

    • 소셜 네트워킹 및 미디어 : 현재 7억 명 이상의 페이스북 사용자, 2억 5천만 명 이상의 트이터 사용자, 1억 5천 6백만 개 이상의 퍼블릭 블로그가 개설되어 있다. 페이스북 업데이터 및 트윗, 블로그 포스팅 과 코멘트 하나하나는 엄청난 수의 데이터 생성지점이 되고, 이들 데이터는 정형, 반정형, 비정형 데이터 모든 유형을 포함한다. 이를 '데이터 이그조스트(data exhaust)'라 부르기도 한다.
    • 모바일 디바이스 : 지구상에는 50억 개 이상의 모바일 폰이 있다. 전화 수신/발신, 텍스트와 메시지 전송 각각은 로그데이터로 남는데, 이 중  스마트 폰과 태블릿은 소셜 미디어와 기타 데이터 발생 애플리케이션을 매우 쉽게 사용하도록 한다. 모바일 디바이스는 또한 위치데이터를 수집, 전송한다.
    • 인터넷 거래 : 수십억 건의 온라인 구매, 주식 거래 등의 온라인 거래가 매일 발생하며, 이 중에는 카운트하기 어려운 자동 거래 또한 존재한다. 각각은 소매, 은행, 크레디트 카드, 카드 에이전시 등에 의해 수집되는 수많은 데이터 지점들을 만들어 낸다.
    • 네트워크 디바이스와 센서 : 서버 및 기타 IT 하드웨어, 스마트 에너지 계량기, 온도 센서 등을 포함한 모든 종류의 전자 기기들 또한 매 순간을 기록한 반정형 로그 데이터를 생성한다.


[기존 데이터 vs. 빅데이터] source: Wikibon 2011

 "기존" 데이터

빅데이터 

기가바이트에서 테라바이트 

페타바이트에서 엑사바이트 

중앙 집중

분산

정형 

반정형 및 비정형 

안정적인 데이터 모델 

플랫 스키마 (flat schema) 

알려진 복합 상호관계

(known complex interrelationships)

소수 복합 상호관계

(few complex interrelationships)


존 데이터웨어하우스와 기타 데이터 관리툴은 시간(또는 비용) 효율적인 방식으로 빅데이터를 처리하고 분석하는 데 부적합하다. 즉, 기존 기업 데이터웨어하우스에 이를 수용하기 위해서, 데이터는 사전에 관계테이블(정리된 열과 행으로)에 구조화 되어야 한다. 비용과 인력의 문제로 방대한 양의 무정형 빅데이터 처리하는데 이러한 방식을 사용하는 것은 현실적이지 못하다. 더욱이 페타바이트 이상의 데이터를 위해 기존 데이터웨어하우스의 스케일-업(scale-up)을 고려한다면, 신규로 전용 하드웨어에 투자해야 하는데 투자 규모는 상상을 초월하는 정도일 것이다. 데이터웨어하우스의 성능 또한 데이터 로딩의 병목으로 대폭 저하될 확율이 높다. 따라서 빅데이터의 처리와 분석을 위한 새로운 방법이 요구된다.

Ref: Jeff Kelly, the Wikibon Community, 2012

Changoh Joo

주창오, 효성ITX 클라우드사업부

자유로운 서버생성 / 무약정,최저가 / 1주일 무료, ITX클라우드 서비스 www.itxcloud.co.kr

저작자 표시 비영리 변경 금지
신고

댓글을 달아 주세요



티스토리 툴바