사용자 삽입 이미지
지난 주말 아파치 재단이 하둡1.0을 공식 발표했습니다. 아파치 하둡 데이터 프로세싱 프레임워크가 6년 만에 마침내 공식 버전이 나온 것입니다.

하둡은 대용량 데이터 처리를 위해 대규모 분산처리를 지원하는 프레임워크입니다

아파치 하둡 재단의 아룬 C. 무르티 부사장은  하둡 1.0에 대해 “수 많은 개발자와 위원회의 헌신적인 노력의 정점”이라고 평했습니다.

하둡은 이제 겨우 1.0 버전이 나왔을 뿐이지만, 최근 IT산업에서 차지하는 영향력이 적지 않습니다. 이미 여러 조직에서 하둡을 이용하고 있으며, 아직은 사용하지 않는 조직이라도 하둡에 대한 공부는 하고 있습니다.

유명한 클라우드 서비스인 아마존 웹 서비스(AWS)나 랙스페이스에서 이미 하둡을 이용하고 있고, 페이스북도 하둡의 추종자 중 하나입니다. 특히 하둡의 근원지인 야후는 4만2000 노드에서 하둡을 활용하고 있다고 합니다. 국내에서도 NHN 등이 하둡을 로그분석 등에 활용하고 있습니다.

이처럼 클라우드 컴퓨팅과 빅 데이터가 IT 업계의 핵심 화두로 떠오르면서, 하둡은 가장 인기있는 기술로 자리잡았습니다.

무르티 부사장은 “하둡은 조직들이 방대한 데이터를 저장∙처리하고, 쿼리를 던질 수 있는 사실상의 데이터 플랫폼이 됐다”면서 “새로운 버전은 성능∙안정성∙보안 면에서 가장 중요한 진보를 표상한다”고 강조했습니다.

무엇보다 하둡이 주목을 받는 것은 ‘빅 데이터’에 대한 가장 현실적인 대안이기 때문입니다. 지금까지 기업이나 조직들은 발생하는 수 많은 데이터 중 매우 일부만을 처리하고 분석했습니다. 고객의 다양한 목소리, 웹사이트∙SNS∙스마트 디바이스∙센서네트워크 등 다양한 채널을 통해 들어오는 정보들은 그냥 버려야 했습니다. 활용법이 없었기 때문입니다.
사용자 삽입 이미지

그러나 하둡은 이런 데이터를 기업이나 조직의 전략을 세울 때 이용할 수 있는 가능성을 제시합니다. 하둡과 맵리듀스(MapReduce)라는 데이터 처리 기술을 통해 기존에 버려야 했던 데이터까지 분석 대상으로 올릴 수 있기 때문입니다.

맵리듀스는 대량의 데이터를 다수의 서버에 나눠 집계•가공하는 맵(Map) 과정과 처리 결과를 하나의 표에 정리해 출력하는 리듀스(Reduce)라는 과정을 반복하면서 비구조적 데이터를 처리해 나갑니다.


이를 활용하면 고객이탈을 감지하거나 미래를 예측하는 등 그 동안 얻지 못했던 통찰력을 빅 데이터로부터 얻을 수 있을 것으로 전망됩니다.

특히 단순 오픈소스 프로젝트를 넘어 상업적인 IT업체들이 하둡을 적극적으로 채용하고 있다는 점에서 하둡의 전망이 밝습니다. 오라클, IBM, 테라데이타, 사이베이스 등 기존의 분석용 DB를 공급하던 업체들은 비구조적 데이터를 처리하기 위해 자신들의 솔루션을 하둡과 연계해 나가고 있습니다.

오픈소스 운영체제인 리눅스가 이들 기업들로부터 지원을 받기 시작하면서 급속도로 성장했다는 점을 상기하면 하둡에 대한 전망도 매우 밝아 보입니다.

하둡의 실질적인 활용은 이제 시작 단계입니다. IT기술을 선도하는 일부 업체들은 이미 하둡을 활용하고 있지만, 일반 기업들은 아직 저 멀리 있는 이야기입니다.

때문에 하둡1.0 출시는 적지 않은 의미를 가지고 있습니다. ‘공식’적으로 출시됐다는 점에서 일반 기업들이 안심하고 접근할 여지를 주기 때문입니다.

포털 업체나 클라우드 업체 이외에도 하둡은 쓸모가 많습니다. 통신사 등의 로그 데이터를 처리할 수도 있고, 의료분야에서는 대용량의 이미지 데이터를 처리할 수도 있습니다. 공장설비 장애 관리를 위한 데이터 분석도 하둡으로 할 수 있고, 판매시점관리(POS) 등에서 들어오는 데이터도 하둡으로 처리할 수 있습니다. 교통 흐름을 분석하거나 위치 정보와 연비 상황을 자동차 운전자에게 통보하는 등 다양한 활용이 가능합니다.

물론 이 같은 이야기는 아직 장밋빛 전망에 불과하니다. 하둡 역시 수 많은 IT업계의 기술들처럼 한 때의 유행으로 지나갈 수도 있습니다. 무엇보아 안정성과 보안을 중요시 여기는 CIP 하둡이 인터넷 기업에나 어울리는 기술이라고 생각할 수도 있습니다.

하지만 빅 데이터라는 거대한 흐름이 멈추지 않는 이상, 하둡과 같은 대용량 분산파일 시스템에 대한 탐구는 지속될 것입니다. 과연 2012년 하둡이 IT업계의 총아로 떠오를 수 있을지 주목됩니다

2012/01/10 10:32 2012/01/10 10:32
페이스북을 이용하시는 분들 중에는 상태 업데이트에 글을 올린 후 수정이 안 돼서 어려움이 겪은 분들이 있을 겁니다. 페이스북은 오탈자가 있어도 수정할 수 없도록 돼 있습니다. 오직 글을 삭제할 수 있을 뿐입니다.

왜 그럴까요?

이는 ‘빅 데이터’ 기술의 특징이라고 볼 수 있습니다. . ‘빅 데이터’는 정보기술 산업(IT)이 다루는 대상인 ‘정보’의 종류가 많아지고, 그 규모도 엄청나게 커지는 것을 의미합니다. 기존의 관계형 데이터베이스로는 감당할 수 없는 데이터가 등장한 것입니다.

페이스북의 경우 하루에 생성되는 데이터가 일반 기업들의 1년치 데이터보다 많다고 합니다. 페이스북은 지난 8월 기준으로 30페타 바이트의 데이터를 보유하고 있었습니다. 이는 미국 의회 도서관이 보유한 책의 3000배가 넘는 규모입니다.
사용자 삽입 이미지

기존 데이터 처리 기술로는 이 많은 양의 데이터를 감당할 수 없습니다. 때문에 빅 데이터를 처리할 때는 관계형 DB가 아닌 하둡과 맵리듀스, NoSQL이라는 새로운 기술을 주로 활용하게 됩니다.

페이스북 역시 하둡과 맵리듀스, 카산드라(NoSQL의 한 종류)를 이용해 데이터를 처리합니다.

이 기술들의 특징은 데이터 정합성 보다 대용량 데이터를 처리하는 데 중점을 두고 있다는 점입니다. 페이스북에서는 글을 입력했는데, 제 때 바로 반영되지 않거나 여러 개가 동시에 올라가기도 하고, 댓글 10개라고 표시돼 있는데 들어가보면 세 개밖에 없는 일들이 벌어지곤 합니다.

이는 위에 언급한 기술들의 특징입니다. 관계형DB는 단 하나의 데이터라도 잃어버리면 안 된다는 사상 위에 설계된 기술이지만, 하둡이나 NoSQL은 데이터에 조금쯤은 오류가 있어도 좋다는 생각입니다.
사용자 삽입 이미지

하지만 페이스북이 빅 데이터 기술만 이용하는 것은 아닙니다. 페이스북도 마이SQL이나 오라클 같은 관계형 DB를 사용합니다. 대표적인 것이 프로필입니다. 상태 업데이트와는 달리 사용자 프로필은 언제라도 수정할 수 있습니다. 또 사용자 프로필 데이터에는 오류가 발생하지도 않습니다.

최근 국내 기업들도 하둡과 맵리듀스, NoSQL을 이용하는 사례가 늘고 있습니다. 하지만 앞에서 살펴본 것처럼 이 기술들은 장.단점이 분명합니다. 데이터의 정합성이 중요한 업무에 이 기술들을 사용하면 안 됩니다.

페이스북처럼 데이터 정합성이 중요한 서비스에는 관계형 DB를 이용하고, 상대적으로 데이터 정합성은 중요하지 않지만, 많은 데이터를 빠르게 처리하고자 할 때만 빅 데이터 기술을 이용해야 합니다.
2011/12/12 08:51 2011/12/12 08:51
오늘날 IT업계의 가장 중요한 키워드 중 하나는 ‘빅 데이터’입니다. 빅 데이터는 단순히 데이터의 규모가 커졌다는 것을 의미하는 것은 아닙니다. 지금까지 IT산업이 다루지 못했던 새로운 종류의 데이터까지 관리의 영역으로 담는 것입니다.

웹 서버의 로그 데이터, 소셜네트워크서비스(SNS)의 수많은 텍스트와 음성, 이미지, 동영상 등 멀티미디어 데이터, 모바일 기기가 생성하는 데이터, 센서네트워크를 통해 수집된 데이터 등이 빅 데이터입니다.

빅 데이터가 중요한 이유는 이를 통해 더 깊은 통찰력을 얻을 수 있다고 보기 때문입니다. 기존의 관계형 DB만으로는 알지 못했던 새로운 정보가 빅 데이터에는 담겨 있고, 이 정보를 잘 찾아내는 기업 및 기관이 비즈니스를 선도할 것입니다.

빅 데이터라는 화두가 던져진 만큼, IT 업체들도 관련 기술을 개발하고 솔루션을 공급하기 위해 총력을 기울이고 있습니다. 클라우드 컴퓨팅과 함께 빅 데이터에서 뒤쳐진 IT업체는 생존경쟁에서도 한 발 물러설 것이기 때문입니다.

지금까지 IT업계를 주름잡아왔던 전통의 강호들이 빅 데이터를 위해 어떤 준비를 하고 있는지 살펴보겠습니다.
사용자 삽입 이미지

데이터 관리 분야 전통의 강호 ‘오라클’

‘빅 데이터’를 잘 활용한다는 것은 데이터 관리 및 분석 기술을 잘 활용한다는 것입니다. 때문에 기존의 데이터 관리 업체 및 분석기술을 보유한 업체들이 빅 데이터 시대에도 유리할 것으로 보입니다.

오라클은 세계적으로 가장 유명한 DB업체입니다. 데이터를 관리하는 데는 오랜 경험과 뛰어난 기술을 가지고 있습니다. 여기에 하이페리온을 인수하면서 분석 기술도 확보했습니다. 때문에 빅 데이터 시대를 맞아 오라클에 관심을 두는 것은 당연할 것입니다.

오라클은 지난 10월초 ‘오라클 빅 데이터 어플라이언스’라는 제품을 처음 선보였습니다. 오라클이 본격적으로 빅 데이터 시장에 뛰어든 것입니다. 이 제품은 이미지, 웹 로그, 비디오 파일, 소셜 미디어, 텍스트 데이터 등 대용량 비정형 데이터의 생명주기를 관리하기 위한 어플라이언스 솔루션으로, 썬마이크로시스템즈의 하드웨어에 빅 데이터 처리를 위한 소프트웨어가 통합돼 있습니다.

오라클 빅 데이터 어플라이언스 솔루션 안에는 ▲ 아파치 하둡 오픈소스 배포판 ▲ 오라클 NoSQL 데이터베이스 ▲하둡용 오라클 데이터 인테그레이터 애플리케이션 어댑터 ▲하둡용 오라클 로더 ▲ 오픈소스 통계 프로그램 ‘R’ 등이 결합돼 있습니다.

하지만 오라클은 빅 데이터 전용 어플라이언스를 출시했어도 무게중심은 여전히 관계형DB에 있는 듯 보입니다. 오라클은 이 제품을 소개하면서 자사의 DB 머신인 ‘엑사데이터’와 함께 연동할 것을 강조했습니다.

즉 빅 데이터 전용 어플라이언스는 오라클 엑사데이터를 보완하는 요소로 보고 있는 듯 보입니다.
사용자 삽입 이미지

EMC “드디어 EMC의 시대가 왔다”

EMC는 빅 데이터 시대 도래를 가장 환영하는 IT업체 중 하나입니다. 과거에는 스토리지 공급회사로 인식됐던 EMC이지만, 빅 데이터 시대를 맞아 종합 데이터 관리 업체로 확실히 자리매김 하겠다는 의지가 엿보입니다.

EMC는 지난 몇 년간 보안, 백업, 아카이빙, 중복제거, 콘텐츠 관리, 거버넌스∙리스크관리, 컴플라이언스, 데이터웨어하우징 등 무수히 많은 업체를 인수했습니다. 모두 데이터 관리와 관련된 업체들입니다. 단순한 하드웨어 박스가 아니라 스토리지를 기반으로 데이터 저장부터 관리, 분석까지 데이터와 관한 모든 것을 풀 패키지로 제공하겠다는 것입니다. 이는 빅 데이터 시대에 꼭 맞는 전략입니다.

우선 EMC는 빅 데이터에 대응하는 스토리지 솔루션으로 아이실론과 아트모스를 준비해뒀습니다. 여기에 빅 데이터 분석을 위한 DB로 그린플럼을 인수했습니다. 또 콘텐츠 관리 솔루션인 다큐멘텀도 있습니다.

EMC는 아울러 데이터 사이언티스트(http://shimsky.delighit.net/308) 육성에도 힘쓰고 있습니다. EMC 애널리틱스 랩이라는 부서를 운영하면서, 빅 데이터에서 통찰력을 얻어낼 인재들을 확보해 나가고 있습니다.

스마터 플래닛으로 준비된 강자, IBM

빅 데이터라는 말이 유행하기 전부터 IBM의 비즈니스 전략은 빅 데이터 중심이었습니다. 몇 년 전부터 IBM이 내걸고 있는 캐치 플레이즈인 ‘스마터 플래닛’은 빅 데이터를 잘 활용하자는 이야기와 다르지 않습니다.

스마터 플래닛의 핵심은 데이터이기 때문입니다. 똑똑한 지구를 만들기 위해서는 지구를 구성하고 있는 요소 (기온, 토양상태, 진동, 교통 흐름 등)들에 대한 정확한 데이터가 파악돼야 하고 이를 분석해야 합니다.

가령 홍콩에 새로 건설된 다리에는 1000개의 감시센서가 부착돼 있습니다. 이 센서로부터 실시간으로 수집된 데이터를 통해 패턴, 상관 관계, 이상치를 살펴보고, 수질량과 수질을 측정해 재난과 수질오염을 예방합니다.

이 같은 일을 하기 위해 IBM도 많은 기업을 인수했습니다. 분석용 데이터 저장관리를 위해 네티자를 인수했고, 데이터 통합 업체 에센셜과 분석 솔루션업체 코그너스 등을 인수했습니다.

IBM의 강점은 이 같은 솔루션 이외에도 잘 훈련된 컨설팅 조직이 있다는 점입니다. IBM은 이미 오래전 컴퓨터 제조업체에서 서비스 업체로의 변신에 성공했습니다. 이를 위해 수 많은 컨설턴트를 이미 보유하고 있습니다. 데이터 사이언티스트의 역할이 강조되고 있는 시점에서 IBM의 수 많은 컨설턴트의 역할이 커질 것으로 보입니다.
사용자 삽입 이미지

SAP, 메모리 기반 빅 데이터(?)

최근 업무용 애플리케이션 업체에서 DB 전문업체로의 변신을 선언한 SAP도 빅 데이터에 대한 메시지를 강하게 표출내고 있습니다. SAP는 메모리 기반 DB 어플라이언스인 HANA가 빅 데이터 시대에 유용하다고 선전하고 있습니다. HANA는 정형, 비정형 데이터를 모두 처리할 수 있는 기술이라고 SAP는 소개합니다. 여기에 몇 년 전 인수한 비즈니스 오브젝트를 통해 이 시장 공략을 준비하고 있습니다.

그러나 과연 빅 데이터와 인메모리가 어울리는 기술인지는 약간 의구심이 있습니다. 빅 데이터는 그야말로 데이터 규모가 어마어마하게 크다는 것을 의미합니다. 1~2테라바이트 규모가 아니라 수백 테라바이트, 심지어 제타바이트 규모의 데이터 시대가 도래할 것으로 보고 있습니다. 아무리 메모리 가격이 내려갔다고 해도 메모리에 이 모든 데이터를 담는다는 것은 비용면에서 불가능할 것으로 보입니다.

목소리 크지 않은 마이크로소프트

흥미로운 점은 지난 20년간 IT산업을 이끌어온 마이크로소프트의 목소리가 별로 크지 않다는 점입니다. 최근 윈도 서버와 윈도 애저 플랫폼용 아파치 하둡을 개발한다는 발표가 있기는 했지만, 아직 구현된 것은 아닙니다. MS는 올 연말까지 윈도 애저용 하둡 기반 서비스 시제품을 선보이겠다고 밝혔을 뿐입니다.

하지만 MS는 항상 시장에 빨리 합류하는 스타일이 아니었습니다. 뒤늦게 시장에 합류해도 기존 플랫폼의 영향력을 이용해 막강한 힘을 발휘하곤 했습니다. 빅 데이터 분야도 이와 같은 양상이 벌어질 지 주목됩니다.
2011/11/25 17:18 2011/11/25 17:18
사용자 삽입 이미지
IT업계에서 요즘 가장 뜨거운 화두 중 하나는 ‘빅 데이터(Big Data)’입니다. 빅 데이터는 말 그대로 데이터의 규모가 크다는 뜻입니다.

사실 데이터 규모가 커지는 것은 어제 오늘 일이 아닙니다.

이미 지난 20년 동안 데이터는 감당하기 힘들 정도로 늘어났습니다. 이런 상황에서 새삼스럽게 ‘빅 데이터’라는 새로운 용어가 등장한 이유는 무엇일까요?

일단 데이터 증가 속도가 과거와 달리 기하급수적으로 증가한다는 점이 달라졌습니다. 올해 생성될 디지털 데이터는 1.8 제타바이트로 추정됩니다. 제타바이트는 1.8조 기가바이트입니다. 2020년에는 약 35.2제타바이트에 이를 것으로 전망됩니다.

그러나 빅 데이터는 단순히 데이터의 규모만 커지는 것을 의미하지 않습니다.

데이터의 종류도 더욱 다양해진다는 점도 빅 데이터의 특징입니다. 지금까지의 데이터는 대부분 구조화된 데이터였습니다. 때문에 데이터를 분석하는 기술도 이런 구조화된 데이터를 중심으로 발전해 왔습니다.

하지만 이제는 구조화되지 않은 데이터가 중요해지고 있습니다. 페이스북에 형식에 맞춰 글을 쓰는 사람은 없습니다. 텍스트과 그림, 영상이 섞여있기도 합니다. 이 외에 각종 센서네트워크를 통해 수집되는 데이터, 위치 및 지리 데이터 등 엄청나게 다양합니다.

이처럼 다양한 데이터가 대규모로 군집해 있는 것이 ‘빅 데이터’입니다.

한편 ‘빅 데이터’가 주목을 받는 또 다른 이유는 그 안에 지금까지 깨닫지 못했던 정보들이 담겨 있기 때문입니다.

예를 들어, 페이스북에 올라온 ‘감기 걸렸다’는 문장들을 통합해 위치정보와 분석할 경우, 감기 바이러스가 어느 쪽으로 확산돼 가고 있는지 파악할 수 있습니다.

또 사람들이 트위터에 올린 글의 기분 변화를 분석한 결과 ‘불안감’이 늘어날 경우 주가가 낮아진다는 조사도 있습니다. 이처럼 빅 데이터를 잘 분석하면, 새로운 통찰력을 얻을 수 있을 것으로 기대됩니다.

하지만 여러 종류의 대규모 데이터를 모아만 놓는다고 저절로 통찰력이 생기는 것은 아닙니다. 이를 과학적으로 분석해서 통찰력을 찾아내야 합니다. 백사장에서 바늘을 찾듯 엄청나게 쏟아지는 데이터속에서 유의미한 무엇을 발견해 내는 것입니다.

빅 데이터에서 새로운 통찰력을 얻어내는 역할을 하는 사람을 ‘데이터 사이언티스트(Data Scientist)’라고 부릅니다.

비즈니스적 측면에서, 데이터 사이언티스트들은 구조화되지 않은 데이터 속에서 지금까지 드러나지 않았던 숨겨진 패턴을 찾아내는 역할을 합니다. 그 동안은 몰랐던 고객의 행동이나, 잠재 시장 등이 그것입니다.

기존에는 데이터를 다루는 직종으로 데이터 모델러, 데이터 아키텍트 등이 있었습니다. 이들은 전통적인 IT맨들이었습니다.

하지만 데이터 사이언티스트들은 전통적 개념의 IT맨들이 아닙니다.

이제는 통계학자, 수학자, 경제학자 등이 IT를 활용해 빅 데이터로부터 통찰력을 얻어냅니다.

당연히 IT업체들도 데이터 사이언티스트 확보에 혈안이 돼 있습니다. 예를 들어 글로벌 IT기업인 EMC는 ‘애널리틱스 랩’이라는 부서를 운영하고 있습니다. 이 부서는 데이터 사이언티스트들로 구성돼 있습니다. 경제학, 통계학, 심리학 등을 전공한 박사급 인재들입니다.

이들은 기업들이 빅 데이터로부터 통찰력을 얻어낼 수 있도록 조언을 하고, 교육을 하는 역할을 합니다.

데이터 사이언티스트가 되기 위해서는 단순히 하나의 분야만 알아서는 안 됩니다. 기본적으로 통계학이나 경제학에 대한 지식이 있어야 합니다.

또 분산 컴퓨팅, 하둡, 자료구조 등과 같은 IT기술과 엔지니어링도 알아야 하고, 수학과 같은 기초학문에 대한 능력도 필수적입니다.

때문에 데이터 사이언티스트가 되는 것은 실제로 매우 어려운 일입니다. 물론 이 같은 능력을 갖출 수 있다면 어느 회사에서라도 환영 받을 수 있을 것입니다.

2011/11/07 08:50 2011/11/07 08:50