사용자 삽입 이미지

- [딜라이트닷넷 창간3주년 특별기획/ 빅데이터③]

가트너는 2015년까지 포춘 500대 기업 대부분이 빅데이터 분석에 도전하겠지만 이중 85%는 실패할 것이라고 예측한 바 있습니다. 주목해야 할 점은 85%의 실패보다는 15%의 성공입니다. 빅데이터 분석에 성공하는 기업의 비결은 무엇일까요?

전문가들은 성공적인 빅데이터 분석을 위해서는 기술, 사람, 비즈니스 인사이트가 필수적이라고 지적합니다.

◆ 빅데이터 성공요소 ‘기술’ = 빅데이터가 주목을 받는 이유는 과거 기술로는 처리할 수 없었던 데이터들을 처리하고, 분석할 수 있는 새로운 기술들이 등장했기 때문입니다.

하 둡/맵리듀스가 가장 대표적인 빅데이터 기술이라고 볼 수 있습니다. 하둡은 대용량 데이터 처리를 위해 대규모 분산처리를 지원하는 프레임워크입니다. 맵리듀스는 대량의 데이터를 다수의 서버에 나눠 집계•가공하는 맵(Map) 과정과 처리 결과를 하나의 표에 정리해 출력하는 리듀스(Reduce)라는 과정을 반복하면서 비구조적 데이터를 처리해 나갑니다.

하둡/맵리듀스는 관계형 데이터베이스로는 엄두도 내지 못했던 데이터들을 분석의 대상으로 삼을 수 있게 한다는 점이 가장 큰 장점입니다.

최 근에는 CEP(복합 이벤트 처리)나 스트리밍 분석도 빅데이터 분석의 방법론으로 떠오르고 있습니다. 과거 비즈니스인텔리전스 기술은 일정 기간 저장된 데이터를 모델링 하고, 분석해 결과를 얻었습니다. 하지만 현대 기업들은 그렇게 한가하지 않습니다. 이 때문에 실시간 분석의 가치가 높아졌습니다. CEP는 실시간으로 발생하는 많은 이벤트 중에서 의미가 있는 것을 추출해 분석하는 기술입니다. 센서네트워크 등으로 통해 실시간으로 쏟아지는 무수한 데이터 등에서 필요한 데이터를 선별해 분석할 수 있습니다.

인 메모리 분석 기술도 빅데이터 시대를 맞아 인기를 끌고 있습니다. 이 역시 빠른 분석을 위한 것입니다. SAP는 HANA라는 인메모리 기반의 DB를 선보이기도 했고, SAS, 테라데이타 등도 인메모리 기술을 적극적으로 활용하고 있습니다.

◆ 빅데이터 성공요소 ‘사람’ = 빅데이터 시대에 가장 각광을 맞는 직업은 ‘데이터 사이언티스트’입니다. 백사장에서 바늘을 찾듯 엄청나게 쏟아지는 데이터 속에서 유의미한 무엇을 발견해 낼 수 있는 사람이 필요해진 것입니다.

하지만 이는 아무나 할 수 있는 일이 아닙니다. 기존에는 데이터를 다루는 직종으로 데이터 모델러, 데이터 아키텍트 등이 있었습니다. 이들은 전통적인 IT맨들이었습니다.

반면 데이터 사이언티스트들은 구조화되지 않은 데이터 속에서 지금까지 드러나지 않았던 숨겨진 패턴을 찾아내는 역할을 합니다.

가 트너는 데이터 사이언티스트가 컴퓨터 공학과 수학적 기반의 의미를 부여하고, 디지털 시스템에 지식을 결합하는 전문가로, 데이터의 저장ㆍ이동ㆍ통합, 분산처리를 활용해 정보를 요청하는 고객에게 최선의 기대 서비스를 제공한다고 설명합니다.  

이제는 IT뿐 아니라 통계학, 수학, 경제학 지식을 겸비한 전문가가 필요한 것입니다. 이런 데이터 사이언티스트를 확보하는 것은 매우 어려운 일입니다. 빅데이터 분석에 성공하는 기업들이 적은 가장 큰 이유도 데이터 사이언티스트를 확보하는 것이 어렵다는 점입니다.

◆ 빅데이터 성공요소 ‘비즈니스 인사이트’ = 빅데이터 기술과 데이터 사이언티스트가 있다고 빅데이터 분석이 성공할 수 있는 것은 아닙니다.

데 이터 사이언티스트들이 빅데이터 기술을 활용해 이끌어 낸 결과에 따라 어느 정도 비즈니스 방향은 예측할 수 있지만, 이 결과를 기업의 환경과 상황에 맞게 어떻게 활용할 것인지를 결정하지 못하면 기술과 사람은 쓸모 없게 됩니다. 이 때문에 빅데이터 분석에 비즈니스 통찰력은 필수적입니다.

SAS코리아 이재권 상무는 빅데이터 분석에 대해 “기술은 후순위, 비즈니스가 우선순위”라고 말합니다.

빅데이터 분석은 비즈니스를 예측하고, 최적화 하기 위한 활동입니다. 이를 위해서는 빅데이터 기술, 데이터사이언티스트, 비즈니스 통찰력 삼박자가 맞아야 합니다.

2012/10/09 14:33 2012/10/09 14:33

사용자 삽입 이미지
- [딜라이트닷넷 창간 3주년 특별기획/ 빅데이터]

최근 빅데이터 분석이 경영 전문가들에게 많은 관심을 받고 있습니다. 빅데이터가 치열한 경쟁 속에서 있는 기업 경영의 나침반이 될 것이라는 기대 때문입니다.


물론 기업이 IT 기술을 전략 수립에 활용하려는 시도는 어제오늘 일이 아닙니다. 기존에도 경영자정보시스템(EIS), 비즈니스인텔리전스 등의 이름으로 유사한 접근이 있었습니다.

그러나 이런 접근들이 적지 않은 성과를 내기도 한 반면, 데이터의 왜곡으로 인한 한계점을 노출하기도 했습니다.

그렇다면 빅데이터는 기존의 BI와 무엇이 다른 걸까요? 전문가들은 빅데이터 분석과 기존BI의 다른 점으로 ▲데이터 처리량 ▲데이터 유형 ▲데이터 (분석)속도▲데이터 분석 범위 등을 꼽습니다.

◆ 수백테라바이트를 넘어 페타바이트까지 = 우선 빅데이터 분석은 이름에서 알 수 있듯 대규모 데이터를 분석하는 역할을 합니다. 지금까지 기업들은 사내 정보를 데이터웨어하우스(DW)라는 창고에 쌓아두고 이를 분석해 통찰력을 얻고자 했습니다. 국내의 경우 대용량 DW라고 해도 100테라바이트를 조금 넘는 수준이었습니다.

그러나 빅데이터 분석은 DW에 쌓인 데이터만을 대상을 하지 않습니다. 이미 스마트폰과 소셜네트워킹, 센서네트워크 등을 통해 어마어마한 용량의 데이터가 수집되고 있습니다. 스마트폰은 전국민이 활용하는 시대를 눈앞에 두고 있고, 소셜네트워크는 모바일과 만나 갈수록 활용도가 높아지고 있습니다. 센서 가격도 떨어지면서 각종 전자제품에 센서들이 내장되고 있습니다. 예를 들어 로봇청소기에만 18개의 센서가 탑재돼 있다고 합니다.

IDC는 2011 년에 인류가 생성한 데이터가 1.8 제타바이트에 달한다고 합니다. 기업들이 분석할 데이터가 이제는 테라바이트 수준을 넘어 페타바이트까지 이르고 있습니다.

◆ 비정형, 비구조적 데이터는 기본  = IDC의 조사에 따르면 2009년부터 2014년까지 연평균 정형 데이터의 증가율은 24%에 불과한 반면 비정형 데이터의 증가율은 55%라고 합니다. 앞에서 언급한 센서네트워크 데이터, 소셜 데이터 등은 비정형 데이터를 기하급수적으로 늘리고 있습니다.

페이스북에서는 매월 300억개의 콘텐츠가 공유되고 있고, 트위터에서는 약 2억 건의 트윗이 발생하고 있다고 합니다. 이러한 소셜 미디어에서 생성되는 데이터는 주로 텍스트, 동영상, 오디오, 이미지 등의 비정형 데이터입니다.

최근에 소셜 분석이 국내외에서 인기를 끄는 것도 이 같은 이유 때문입니다. 트위터 등 소셜 미디어에서 쏟아지는 정보를 분석해 고객만족도 및 VoC(고객의 목소리)를 체크하겠다는 것입니다.

◆ 실시간 데이터 생성 시대…분석도 실시간으로 = 앞에서 언급한 것처럼 데이터의 양이 기하급수적으로 늘고 있다는 점은 데이터 분석 속도도 높여야 한다는 숙제도 안겨주고 있습니다.

과거의 분석 속도는 쌓이는 데이터를 감당하기도 힘들기 때문입니다. 빅데이터 시대는 실시간 데이터 분석이 필수적인 요소로 떠오르고 있습니다.

최 근 SAP HANA와 같은 인메모리 기반의 분석 플랫폼이 등장하고, 데이터를 저장하지 않고 흐르는 상태에서 분석하는 스트리밍 데이터 분석이나 복합 이벤트 처리 (Complex Event Processing : CEP) 등이 각광을 받는 것도 실시간 분석에 대한 요구의 반영입니다.

◆ 어제 데이터 분석을 넘어 내일 예측까지 = 기존에는 오늘 획득한 데이터를 업무가 끝난 밤 시간에 DW에 배치(Batch)하고, 그 정보를 분석했습니다. 이는 지금 분석하고 있는 정보가 지금 이순간이 아닌 어제의 정보를 분석하고 있다는 것을 의미합니다.

그 러나 빅데이터 분석 시대에는 지금까지 벌어진 일을 분석하는 것을 넘어 내일을 예측하는 것이 필요합니다. 예를 들어 지금까지 내비게이션은 목적지에 도달하는 길을 알려주는 역할에 충실했습니다. 조금 더 진보한 내비게이션은 교통량이 많은 길을 우회해 상대적으로 막히지 않는 길을 안내했습니다. 하지만 앞으로 막힐 곳까지 알려주는 내비게이션은 없었습니다.

빅데이터 시대에는 과거의 데이터와 현재의 데이터를 조합해 미래의 상황까지 예측해야 합니다.

2012/10/09 14:32 2012/10/09 14:32
사용자 삽입 이미지

- [딜라이트닷넷 창간3주년 특별기획/빅데이터]

IT는 정보기술(Information Technology)의 약자입니다. 정보를 다루는 기술이라는 의미입니다. 여기서 말하는 정보는 데이터에서 얻어집니다. 데이터를 수집∙가공해 의미있는 정보를 얻고, 이 정보를 분석해 지식을 얻어내는 것이 IT의 목적이라고 볼 수 있습니다. 정보와 지식으로 승화되지 않는 데이터는 저장소만 차지하는 낭비요소일 뿐입니다.

이는 빅데이터도 마찬가지입니다. 빅데이터에서 정보를 찾고, 그 안에서 지식을 얻는 것이 목적입니다.

가 트너는 빅데이터를 “고급 통찰력 및 의사 결정을 위해 비용 효과가 높은 혁신적인 정보 처리 과정을 필요로 하면서, 대량(Volume)이며 급격하게 늘어나고(Velocity), 다양한(Variety) 정보 자산”이라고 정의하고 있습니다.

가트너가 정의한 빅데이터의 조건은 “고급 통찰력 및 의사결정을 위해 사용되는 것”입니다. 단지 데이터의 양이 거대하고, 발생하는 속도가 빠르며, 종류가 다양하다는 것만으로는 빅데이터는 아니라는 이야기입니다.

예 를 들어 대부분의 기업들은 고객 콜센터의 전화통화 내용을 녹음하고 있습니다. 이는 10년 전이나 지금이나 마찬가지입니다. 하지만 과거에는 녹음의 목적이 문제가 발생하거나 분쟁이 일어났을 때 통화내용을 다시 확인하기 위한 용도에 불과했습니다. 이는 빅데이터 활용이 아닙니다. 콜센터 음성데이터가 쌓이면 테라데이터를 넘어 페타바이트에 이르는 거대한 분량이지만 우리는 이를 빅데이터라고 부르지 않았습니다.

반면 최근에는 음성인식 및 텍스트 마이닝, 하둡&맵리듀스 등의 기술을 이용해 이 음성데이터를 분석하려는 움직임이 일고 있습니다. 콜센터는 고객들의 불만과 요구사항이 가장 직접적으로 전달되는 창구입니다. 이 음성데이터를 분석해 고객들의 성별, 지역별, 연령별 문제점 및 요구사항을 찾아낸다면 고객만족도 및 충성도를 한층 높일 수 있을 것입니다. 이를 통해 용량만 차지하던 골치아픈 데이터였던 콜센터 음성데이터가 빅데이터로 거듭나게 되는 것입니다.

이처럼 같은 대량의 데이터라고 하더라도 분석을 통해 정보와 지식을 찾아내느냐에 따라 빅데이터와 단순한 데이터의 차이를 가져옵니다.

가 트너는 2015년까지 포춘 500대 기업 대부분이 빅데이터 활용에 나서지만, 이중 85%만이 성공을 거둘 것이라고 전망했습니다. 빅데이터 활용은 말처럼 쉽지 않다는 점을 보여줍니다. 빅데이터 활용을 위해서는 하둡이나 NoSQL과 같은 데이터 관리에 대한 기술적 접근 이외에도 제대로 된 분석 전략을 세우는 것이 필수적입니다.

2012/10/09 14:31 2012/10/09 14:31