사용자 삽입 이미지

- [딜라이트닷넷 창간3주년 특별기획/빅데이터]

IT는 정보기술(Information Technology)의 약자입니다. 정보를 다루는 기술이라는 의미입니다. 여기서 말하는 정보는 데이터에서 얻어집니다. 데이터를 수집∙가공해 의미있는 정보를 얻고, 이 정보를 분석해 지식을 얻어내는 것이 IT의 목적이라고 볼 수 있습니다. 정보와 지식으로 승화되지 않는 데이터는 저장소만 차지하는 낭비요소일 뿐입니다.

이는 빅데이터도 마찬가지입니다. 빅데이터에서 정보를 찾고, 그 안에서 지식을 얻는 것이 목적입니다.

가 트너는 빅데이터를 “고급 통찰력 및 의사 결정을 위해 비용 효과가 높은 혁신적인 정보 처리 과정을 필요로 하면서, 대량(Volume)이며 급격하게 늘어나고(Velocity), 다양한(Variety) 정보 자산”이라고 정의하고 있습니다.

가트너가 정의한 빅데이터의 조건은 “고급 통찰력 및 의사결정을 위해 사용되는 것”입니다. 단지 데이터의 양이 거대하고, 발생하는 속도가 빠르며, 종류가 다양하다는 것만으로는 빅데이터는 아니라는 이야기입니다.

예 를 들어 대부분의 기업들은 고객 콜센터의 전화통화 내용을 녹음하고 있습니다. 이는 10년 전이나 지금이나 마찬가지입니다. 하지만 과거에는 녹음의 목적이 문제가 발생하거나 분쟁이 일어났을 때 통화내용을 다시 확인하기 위한 용도에 불과했습니다. 이는 빅데이터 활용이 아닙니다. 콜센터 음성데이터가 쌓이면 테라데이터를 넘어 페타바이트에 이르는 거대한 분량이지만 우리는 이를 빅데이터라고 부르지 않았습니다.

반면 최근에는 음성인식 및 텍스트 마이닝, 하둡&맵리듀스 등의 기술을 이용해 이 음성데이터를 분석하려는 움직임이 일고 있습니다. 콜센터는 고객들의 불만과 요구사항이 가장 직접적으로 전달되는 창구입니다. 이 음성데이터를 분석해 고객들의 성별, 지역별, 연령별 문제점 및 요구사항을 찾아낸다면 고객만족도 및 충성도를 한층 높일 수 있을 것입니다. 이를 통해 용량만 차지하던 골치아픈 데이터였던 콜센터 음성데이터가 빅데이터로 거듭나게 되는 것입니다.

이처럼 같은 대량의 데이터라고 하더라도 분석을 통해 정보와 지식을 찾아내느냐에 따라 빅데이터와 단순한 데이터의 차이를 가져옵니다.

가 트너는 2015년까지 포춘 500대 기업 대부분이 빅데이터 활용에 나서지만, 이중 85%만이 성공을 거둘 것이라고 전망했습니다. 빅데이터 활용은 말처럼 쉽지 않다는 점을 보여줍니다. 빅데이터 활용을 위해서는 하둡이나 NoSQL과 같은 데이터 관리에 대한 기술적 접근 이외에도 제대로 된 분석 전략을 세우는 것이 필수적입니다.

2012/10/09 14:31 2012/10/09 14:31
최근 빅 데이터, 소셜네트워크서비스(SNS) 등이 떠오르면서 소셜 분석이라는 분야도 각광을 받고 있습니다. 소셜 분석이란 트위터∙페이스북, 인터넷 게시판, 뉴스 댓글 등 일반 사용자들이 솔직하게 남긴 글들을 취합해 분석하는 기술입니다.

기업은 사용자들이 자신의 제품과 서비스, 브랜드에 대해 어떻게 생각하고 있는지 알기를 원합니다. 때문에 많은 비용을 들여 설문조사를 하기도 하고, 전문기관에 분석을 맡기기도 합니다. 기업들은 이런 조사 결과를 기반으로 마케팅 및 영업 전략을 세워나갔습니다.

하지만 이런 조사들은 소비자들의 솔직한 마음을 알아내기에는 역부족이었습니다. 설문조사에 응했던 사람들이 100% 솔직하게 답하는 경우가 많지 않기 때문입니다. 응답자들은 고의적으로, 또는 자신도 모르게 거짓말을 하곤 합니다.

소셜 분석은 이 같은 한계를 극복할 수 있는 대안으로 떠올랐습니다. 소셜미디어를 통해 소비자들이 자신들끼리 이야기하는 것을 엿들을 수 있기 때문입니다. 이 목소리를 잘 종합해서 분석한다면 우리회사에 대한 정확한 평가를 기반으로 전략을 세울 수 있을 것으로 기대합니다.

기술적 측면으로 보자면 소셜분석을 위해서는 검색과 텍스트 마이닝 기술이 이용됩니다. 특정 키워드가 포함된 웹 문서(멘션)을 검색하고, 그 키워드가 긍정적으로 이용됐는지 부정적으로 이용됐는지 파악하는 것입니다.
 
국내 검색엔진 업체 코난테크놀로지가 제공하는 소셜분석 서비스 펄스K(www.pulsek.com)를 통해 직접 살펴보겠습니다.
사용자 삽입 이미지

펄스K에서 최근 사망한 ‘김정일’이라는 키워드를 넣으면 위와 같은 결과가 나옵니다. 부정적인 글들이 78.58% 차지했고, 긍정적인 글들은 11.84%밖에 되지 않습니다. 긍정도 부정의 감성도 포함되지 않은 글은 9.58%입니다.

이처럼 입력한 키워드가 어떤 평가를 받고 있는지 확인할 수 있습니다. 기업들은 자신의 제품이나 브랜드가 어떤 평가를 받고 있는지, 이런 평가를 주도하는 사람들이 누구인지 판단할 수 있습니다.

하지만 소셜 분석이라는 기술은 아직 허점이 많습니다. 웹 페이지나 트위터 멘션이 긍정적인 뉘앙스인지, 부정적인 뉘앙스인지 컴퓨터가 판단하는 것이 쉽지 않기 때문입니다.

소셜분석을 위해서는 각 단어가 부정적인 단어인지 긍정적인 단어인지 알 수 있는 태그를 달아둡니다. 예를 들어 ‘아름답다’ ‘사랑’ ‘훌륭하다’ 등에는 긍정의 태그가 붙을 것이고, ‘악마’ ‘나쁘다’ ‘어렵다’ 등의 단어에는 부정적인 태그가 달릴 것입니다.

하지만 인간의 언어는 그렇게 단순하지 않습니다.

트위터에서 한 이용자는 “경축, 김정일 사망. 민족의 대경사이자 이제 희망이 생겼다”라고 남겼습니다. 이 문장에는 경축, 대경사, 희망 등 긍정적인 단어가 가득합니다. 아마도 소셜 분석 솔루션(서비스)은 ‘김정일’이라는 키워드에 대해 이 멘션이 긍정적인 메시지고 판단할 것입니다.

언어의 오묘함도 소셜 분석을 어렵게 합니다. 개그콘서트에 등장하는 쌍칼 아저씨가 “예뻐~”라고 말하는 것은 단순히 예쁘다는 의미가 아니라 음흉한 느낌을 표현하는 것입니다. 과거 ‘사랑의 굴레’라는 드라마에는 “잘났어 정말”이라는 유행어가 있었는데, 이 역시 상대를 칭찬하는 표현이 아닙니다.

이처럼 단어 자체만 가지고 긍정적 메시지인지 부정적 메시지인지 판단하는 것은 어렵습니다. 때문에 소셜 문석 솔루션이 문맥까지 판단할 수 있어야 합니다.

하지만 이는 매우 어려운 일이며, 앞으로 업계가 풀어나가야 할 숙제입니다.
2011/12/29 13:28 2011/12/29 13:28