사용자 삽입 이미지
최근 하둡을 이용하는 기업들을 상대로 잇달아 소송을 제기하는 특허괴물이 있습니다. 미국 델라웨어에 거점을  ‘패러럴 아이언이라는 회사인데, 페이스북, 리크드인, 아마존, 오라클  다양한 회사들이이 회사로부터 소송을 당했습니다.


패러럴 아이언은 자신들이 하둡분산파일시스템(HDFS, 이하 하둡) 관련된 특허를 보유하고 있다고주장하고 있습니다. 이들이 주장하는 특허는 ‘스토리지 시스템을 위한 방법과 시스템(Methods and Systems for a Storage System)’이라는 제목으로, 지난 2007 3 미국에서 정식 특허로 등록됐습니다.


일반적으로 하둡은 오픈소스소프트웨어이기 때문에 기업들은 마음껏 쓸 수 있을 것으로 생각하고 있습니다. 그러나 패러럴 아이언은 아파치 오픈소스 버전에 자신의 특허가 포함돼 있다고 주장하는 것입니다.


실제로 아파치 하둡 안에 이 회사의 특허가 포함돼 있다면, 이를 이용하는 기업들도 이를 무시할 수만은 없습니다. 자칫하면 특허괴물의 마수에 걸려들어 소송에 휘말릴지도 모릅니다.


어쩌면 이는 글로벌 IT 시장에서 빅데이터가 확산되는   위협요인이  지도 모르겠습니다.


그러나 흥미로운 점은 우리나라에서는 이런 위험을 무릅쓰지 않고도 하둡을 마음대로 써도 된다는 것입니다.  패러럴 아이언의 특허가 국내에는 등록돼 있지 않기 때문입니다. 패러럴 아이언의 주장대로미국에서 법정에서 특허를 인정받는다고 해도 국내에는 영향을 미치지 못합니다.


관련 특허는 ‘ 테크노로지 엔터프라이즈, 엘엘씨라는 회사를 통해 국내에서도 2005년과 2010년 두 번이나 출원한  있습니다.  테크노로지 엔터프라이즈라는 회사의 특허를 특허 괴물인 패러럴 아이언이 인수한 것으로 예측됩니다. 그러나 특허를 획득하지는 못했습니다. 모두 거절 당했기 때문입니다.

 

특허청에 따르면, 이 특허가 국내에서 두 번이나 거절된 것은 형식에 미비점이 있었기 때문입니다. 2005년 첫 출원 때는 하나의 특허 출원에 두 개의 기술이 포함돼 있었기 때문에 거절됐습니다. 그래서 링 테크노로지는 이후 2010년에 두 개로 나눠 특허를 출원했습니다.하지만 서류 미비(의견서)로 또다시 거절되고 말았습니다.


결과적으로 링 테크노로지 측의 실수로 한국의 빅데이터 시장은 특허괴물로부터의 ‘자유지대’가 됐습니다. 국내 업체들로서는 행운이 아닐 수 없습니다.

2013/05/10 14:09 2013/05/10 14:09
사용자 삽입 이미지
지난 주말 아파치 재단이 하둡1.0을 공식 발표했습니다. 아파치 하둡 데이터 프로세싱 프레임워크가 6년 만에 마침내 공식 버전이 나온 것입니다.

하둡은 대용량 데이터 처리를 위해 대규모 분산처리를 지원하는 프레임워크입니다

아파치 하둡 재단의 아룬 C. 무르티 부사장은  하둡 1.0에 대해 “수 많은 개발자와 위원회의 헌신적인 노력의 정점”이라고 평했습니다.

하둡은 이제 겨우 1.0 버전이 나왔을 뿐이지만, 최근 IT산업에서 차지하는 영향력이 적지 않습니다. 이미 여러 조직에서 하둡을 이용하고 있으며, 아직은 사용하지 않는 조직이라도 하둡에 대한 공부는 하고 있습니다.

유명한 클라우드 서비스인 아마존 웹 서비스(AWS)나 랙스페이스에서 이미 하둡을 이용하고 있고, 페이스북도 하둡의 추종자 중 하나입니다. 특히 하둡의 근원지인 야후는 4만2000 노드에서 하둡을 활용하고 있다고 합니다. 국내에서도 NHN 등이 하둡을 로그분석 등에 활용하고 있습니다.

이처럼 클라우드 컴퓨팅과 빅 데이터가 IT 업계의 핵심 화두로 떠오르면서, 하둡은 가장 인기있는 기술로 자리잡았습니다.

무르티 부사장은 “하둡은 조직들이 방대한 데이터를 저장∙처리하고, 쿼리를 던질 수 있는 사실상의 데이터 플랫폼이 됐다”면서 “새로운 버전은 성능∙안정성∙보안 면에서 가장 중요한 진보를 표상한다”고 강조했습니다.

무엇보다 하둡이 주목을 받는 것은 ‘빅 데이터’에 대한 가장 현실적인 대안이기 때문입니다. 지금까지 기업이나 조직들은 발생하는 수 많은 데이터 중 매우 일부만을 처리하고 분석했습니다. 고객의 다양한 목소리, 웹사이트∙SNS∙스마트 디바이스∙센서네트워크 등 다양한 채널을 통해 들어오는 정보들은 그냥 버려야 했습니다. 활용법이 없었기 때문입니다.
사용자 삽입 이미지

그러나 하둡은 이런 데이터를 기업이나 조직의 전략을 세울 때 이용할 수 있는 가능성을 제시합니다. 하둡과 맵리듀스(MapReduce)라는 데이터 처리 기술을 통해 기존에 버려야 했던 데이터까지 분석 대상으로 올릴 수 있기 때문입니다.

맵리듀스는 대량의 데이터를 다수의 서버에 나눠 집계•가공하는 맵(Map) 과정과 처리 결과를 하나의 표에 정리해 출력하는 리듀스(Reduce)라는 과정을 반복하면서 비구조적 데이터를 처리해 나갑니다.


이를 활용하면 고객이탈을 감지하거나 미래를 예측하는 등 그 동안 얻지 못했던 통찰력을 빅 데이터로부터 얻을 수 있을 것으로 전망됩니다.

특히 단순 오픈소스 프로젝트를 넘어 상업적인 IT업체들이 하둡을 적극적으로 채용하고 있다는 점에서 하둡의 전망이 밝습니다. 오라클, IBM, 테라데이타, 사이베이스 등 기존의 분석용 DB를 공급하던 업체들은 비구조적 데이터를 처리하기 위해 자신들의 솔루션을 하둡과 연계해 나가고 있습니다.

오픈소스 운영체제인 리눅스가 이들 기업들로부터 지원을 받기 시작하면서 급속도로 성장했다는 점을 상기하면 하둡에 대한 전망도 매우 밝아 보입니다.

하둡의 실질적인 활용은 이제 시작 단계입니다. IT기술을 선도하는 일부 업체들은 이미 하둡을 활용하고 있지만, 일반 기업들은 아직 저 멀리 있는 이야기입니다.

때문에 하둡1.0 출시는 적지 않은 의미를 가지고 있습니다. ‘공식’적으로 출시됐다는 점에서 일반 기업들이 안심하고 접근할 여지를 주기 때문입니다.

포털 업체나 클라우드 업체 이외에도 하둡은 쓸모가 많습니다. 통신사 등의 로그 데이터를 처리할 수도 있고, 의료분야에서는 대용량의 이미지 데이터를 처리할 수도 있습니다. 공장설비 장애 관리를 위한 데이터 분석도 하둡으로 할 수 있고, 판매시점관리(POS) 등에서 들어오는 데이터도 하둡으로 처리할 수 있습니다. 교통 흐름을 분석하거나 위치 정보와 연비 상황을 자동차 운전자에게 통보하는 등 다양한 활용이 가능합니다.

물론 이 같은 이야기는 아직 장밋빛 전망에 불과하니다. 하둡 역시 수 많은 IT업계의 기술들처럼 한 때의 유행으로 지나갈 수도 있습니다. 무엇보아 안정성과 보안을 중요시 여기는 CIP 하둡이 인터넷 기업에나 어울리는 기술이라고 생각할 수도 있습니다.

하지만 빅 데이터라는 거대한 흐름이 멈추지 않는 이상, 하둡과 같은 대용량 분산파일 시스템에 대한 탐구는 지속될 것입니다. 과연 2012년 하둡이 IT업계의 총아로 떠오를 수 있을지 주목됩니다

2012/01/10 10:32 2012/01/10 10:32
페이스북을 이용하시는 분들 중에는 상태 업데이트에 글을 올린 후 수정이 안 돼서 어려움이 겪은 분들이 있을 겁니다. 페이스북은 오탈자가 있어도 수정할 수 없도록 돼 있습니다. 오직 글을 삭제할 수 있을 뿐입니다.

왜 그럴까요?

이는 ‘빅 데이터’ 기술의 특징이라고 볼 수 있습니다. . ‘빅 데이터’는 정보기술 산업(IT)이 다루는 대상인 ‘정보’의 종류가 많아지고, 그 규모도 엄청나게 커지는 것을 의미합니다. 기존의 관계형 데이터베이스로는 감당할 수 없는 데이터가 등장한 것입니다.

페이스북의 경우 하루에 생성되는 데이터가 일반 기업들의 1년치 데이터보다 많다고 합니다. 페이스북은 지난 8월 기준으로 30페타 바이트의 데이터를 보유하고 있었습니다. 이는 미국 의회 도서관이 보유한 책의 3000배가 넘는 규모입니다.
사용자 삽입 이미지

기존 데이터 처리 기술로는 이 많은 양의 데이터를 감당할 수 없습니다. 때문에 빅 데이터를 처리할 때는 관계형 DB가 아닌 하둡과 맵리듀스, NoSQL이라는 새로운 기술을 주로 활용하게 됩니다.

페이스북 역시 하둡과 맵리듀스, 카산드라(NoSQL의 한 종류)를 이용해 데이터를 처리합니다.

이 기술들의 특징은 데이터 정합성 보다 대용량 데이터를 처리하는 데 중점을 두고 있다는 점입니다. 페이스북에서는 글을 입력했는데, 제 때 바로 반영되지 않거나 여러 개가 동시에 올라가기도 하고, 댓글 10개라고 표시돼 있는데 들어가보면 세 개밖에 없는 일들이 벌어지곤 합니다.

이는 위에 언급한 기술들의 특징입니다. 관계형DB는 단 하나의 데이터라도 잃어버리면 안 된다는 사상 위에 설계된 기술이지만, 하둡이나 NoSQL은 데이터에 조금쯤은 오류가 있어도 좋다는 생각입니다.
사용자 삽입 이미지

하지만 페이스북이 빅 데이터 기술만 이용하는 것은 아닙니다. 페이스북도 마이SQL이나 오라클 같은 관계형 DB를 사용합니다. 대표적인 것이 프로필입니다. 상태 업데이트와는 달리 사용자 프로필은 언제라도 수정할 수 있습니다. 또 사용자 프로필 데이터에는 오류가 발생하지도 않습니다.

최근 국내 기업들도 하둡과 맵리듀스, NoSQL을 이용하는 사례가 늘고 있습니다. 하지만 앞에서 살펴본 것처럼 이 기술들은 장.단점이 분명합니다. 데이터의 정합성이 중요한 업무에 이 기술들을 사용하면 안 됩니다.

페이스북처럼 데이터 정합성이 중요한 서비스에는 관계형 DB를 이용하고, 상대적으로 데이터 정합성은 중요하지 않지만, 많은 데이터를 빠르게 처리하고자 할 때만 빅 데이터 기술을 이용해야 합니다.
2011/12/12 08:51 2011/12/12 08:51