사용자 삽입 이미지
지난 주말 아파치 재단이 하둡1.0을 공식 발표했습니다. 아파치 하둡 데이터 프로세싱 프레임워크가 6년 만에 마침내 공식 버전이 나온 것입니다.

하둡은 대용량 데이터 처리를 위해 대규모 분산처리를 지원하는 프레임워크입니다

아파치 하둡 재단의 아룬 C. 무르티 부사장은  하둡 1.0에 대해 “수 많은 개발자와 위원회의 헌신적인 노력의 정점”이라고 평했습니다.

하둡은 이제 겨우 1.0 버전이 나왔을 뿐이지만, 최근 IT산업에서 차지하는 영향력이 적지 않습니다. 이미 여러 조직에서 하둡을 이용하고 있으며, 아직은 사용하지 않는 조직이라도 하둡에 대한 공부는 하고 있습니다.

유명한 클라우드 서비스인 아마존 웹 서비스(AWS)나 랙스페이스에서 이미 하둡을 이용하고 있고, 페이스북도 하둡의 추종자 중 하나입니다. 특히 하둡의 근원지인 야후는 4만2000 노드에서 하둡을 활용하고 있다고 합니다. 국내에서도 NHN 등이 하둡을 로그분석 등에 활용하고 있습니다.

이처럼 클라우드 컴퓨팅과 빅 데이터가 IT 업계의 핵심 화두로 떠오르면서, 하둡은 가장 인기있는 기술로 자리잡았습니다.

무르티 부사장은 “하둡은 조직들이 방대한 데이터를 저장∙처리하고, 쿼리를 던질 수 있는 사실상의 데이터 플랫폼이 됐다”면서 “새로운 버전은 성능∙안정성∙보안 면에서 가장 중요한 진보를 표상한다”고 강조했습니다.

무엇보다 하둡이 주목을 받는 것은 ‘빅 데이터’에 대한 가장 현실적인 대안이기 때문입니다. 지금까지 기업이나 조직들은 발생하는 수 많은 데이터 중 매우 일부만을 처리하고 분석했습니다. 고객의 다양한 목소리, 웹사이트∙SNS∙스마트 디바이스∙센서네트워크 등 다양한 채널을 통해 들어오는 정보들은 그냥 버려야 했습니다. 활용법이 없었기 때문입니다.
사용자 삽입 이미지

그러나 하둡은 이런 데이터를 기업이나 조직의 전략을 세울 때 이용할 수 있는 가능성을 제시합니다. 하둡과 맵리듀스(MapReduce)라는 데이터 처리 기술을 통해 기존에 버려야 했던 데이터까지 분석 대상으로 올릴 수 있기 때문입니다.

맵리듀스는 대량의 데이터를 다수의 서버에 나눠 집계•가공하는 맵(Map) 과정과 처리 결과를 하나의 표에 정리해 출력하는 리듀스(Reduce)라는 과정을 반복하면서 비구조적 데이터를 처리해 나갑니다.


이를 활용하면 고객이탈을 감지하거나 미래를 예측하는 등 그 동안 얻지 못했던 통찰력을 빅 데이터로부터 얻을 수 있을 것으로 전망됩니다.

특히 단순 오픈소스 프로젝트를 넘어 상업적인 IT업체들이 하둡을 적극적으로 채용하고 있다는 점에서 하둡의 전망이 밝습니다. 오라클, IBM, 테라데이타, 사이베이스 등 기존의 분석용 DB를 공급하던 업체들은 비구조적 데이터를 처리하기 위해 자신들의 솔루션을 하둡과 연계해 나가고 있습니다.

오픈소스 운영체제인 리눅스가 이들 기업들로부터 지원을 받기 시작하면서 급속도로 성장했다는 점을 상기하면 하둡에 대한 전망도 매우 밝아 보입니다.

하둡의 실질적인 활용은 이제 시작 단계입니다. IT기술을 선도하는 일부 업체들은 이미 하둡을 활용하고 있지만, 일반 기업들은 아직 저 멀리 있는 이야기입니다.

때문에 하둡1.0 출시는 적지 않은 의미를 가지고 있습니다. ‘공식’적으로 출시됐다는 점에서 일반 기업들이 안심하고 접근할 여지를 주기 때문입니다.

포털 업체나 클라우드 업체 이외에도 하둡은 쓸모가 많습니다. 통신사 등의 로그 데이터를 처리할 수도 있고, 의료분야에서는 대용량의 이미지 데이터를 처리할 수도 있습니다. 공장설비 장애 관리를 위한 데이터 분석도 하둡으로 할 수 있고, 판매시점관리(POS) 등에서 들어오는 데이터도 하둡으로 처리할 수 있습니다. 교통 흐름을 분석하거나 위치 정보와 연비 상황을 자동차 운전자에게 통보하는 등 다양한 활용이 가능합니다.

물론 이 같은 이야기는 아직 장밋빛 전망에 불과하니다. 하둡 역시 수 많은 IT업계의 기술들처럼 한 때의 유행으로 지나갈 수도 있습니다. 무엇보아 안정성과 보안을 중요시 여기는 CIP 하둡이 인터넷 기업에나 어울리는 기술이라고 생각할 수도 있습니다.

하지만 빅 데이터라는 거대한 흐름이 멈추지 않는 이상, 하둡과 같은 대용량 분산파일 시스템에 대한 탐구는 지속될 것입니다. 과연 2012년 하둡이 IT업계의 총아로 떠오를 수 있을지 주목됩니다

2012/01/10 10:32 2012/01/10 10:32

트랙백 주소 :: 이 글에는 트랙백을 보낼 수 없습니다