사용자 삽입 이미지
성경에 따르면, 인간은 태초에 하나의 언어를 사용했다고 합니다. 고대 바빌로니아 사람들은 도시를 건설하고 그 가운데 하늘에 닿기 위해 탑(바벨탑)을 쌓았는데, 이를 걱정한 야훼께서 인간들이 서로 협동하지 못하도록 언어를 구분해 놓았다는 이야기가 성경에 전해집니다.


실제로 현대 사회에서 언어의 차이는 많은 불편을 낳고 있습니다. 특히 인터넷 등 기술의 발달로 세계화가 더욱 빨라지면서 국경의 의미가 사라져가고 있는 이 시대에 언어의 차이는 엄청난 비용을 일으키는 골칫거리입니다. 우리나라에서도 영어교육에 투자하는 비용이 어마어마합니다.

이런 문제를 해결하기 위해 언어학자들과 컴퓨터과학자들은 많은 노력을 하고 있습니다. 컴퓨터가 한 언어를 자동으로 다른 언어로 번역해주고, 통역해주는 기술을 개발하기 위해 20년 이상 투자해왔습니다.

이 가운데 최근에는 네이버가 한-일 통역 기술을 개발했다는 소식이 전해져 눈길을 끌었습니다. 네이버는 지난 2일 자체 개발한 통번역 기술 ‘NTransTalk’을 공개했습니다.

자동통역 기술은 자연언어처리를 꿈꾸는 사람들의 최종 목표입니다. 자동통역은 음성인식-번역-음성합성으로 이뤄지는 서비스로, 컴퓨터로 인간의 언어를 처리하기 위한 모든 기술의 집합체라고 볼 수 있습니다.

네이버는 이번 자동통역 기술을 자체적으로 개발했다고 밝혔습니다. 최근 공개된 네이버판 시리(Siri) 앱인 ‘링크(link)’에 도입된 음성인식 기술력과 번역 기술을 자체 개발했다고 합니다.

여기서 주목할 점은 네이버가 번역 기술까지 스스로 개발했다는 점입니다. 네이버는 현재 일본어 번역 서비스를 제공하고 있지만 이는 자체 기술이 아닌 ‘창신소프트’라는 회사의 기술을 활용한 것이었습니다. 하지만 자체적으로 한일-일한 번역 기술을 네이버가 개발함에 따라 앞으로는 창신소프트의 기술을 활용하지 않을 전망입니다. 네이버 관계자는 아직 창신소프트와의 계약 기간이 남아 있지만, 앞으로 일본어 사전에서 제공한은 번역 서비스에도 자체 개발 기술을 적용할 계획이라고 설명했습니다.

또 하나 주목할 점은 네이버의 한일-일한 번역 기술이 구글식 접근을 수용했다는 점입니다.

자동 번역 기술은 크게 언어학적 접근과 통계학적 접근으로 구분할 수 있습니다. 입력된 문장의 주어-목적어-서술어 등 문장구조를 분석해 번역 대상언어의 문장구조로 바꿔주는 것이 언어학적 접근이라고 볼 수 있습니다.
 
구글이 등장하기 이전까지 대부분의 자동 번역 기술은 이런 방식을 취했습니다. 이를 위해서는 인간언어의 문법과 어휘를 컴퓨터에 입력해야 합니다. 그러나 언어학자들도 문법의 본질을 파악하지 못한 상황에서 기계가 무수한 예외사례가 있는 문장구조를 스스로 분석한다는 것은 쉬운 일이 아니었습니다.

다만 한일-일한 번역은 문장구조가 유사하기 때문에 구조 파악에 실패했을 경우에도 어휘만 상대언어로 치환해도 꽤 쓸만한 번역 결과가 나왔습니다. 네이버가 창신소프트의 기술을 기반으로 한일-일한 번역 서비스만 제공하는 이유도 여기에 있습니다.

반면 구글은 통계학적 접근과 기계학습을 통해 번역을 시도했습니다. 예를 들어  '안녕'과 'hello'가 함께 등장한 문서가 다수 발견되면 둘이 같은 뜻이라는 의미로 컴퓨터 스스로 학습하는 원리입니다. 언어학자들이 어휘사전과 문법을 컴퓨터에 입력할 필요가 없습니다.
 
언어의 창조성이라는 특성을 무시한 듯한 이 접근 방법은 의외로 기존 언어학적 접근보다 좋은 결과를 나타내고 있습니다. 특히 클라우드 컴퓨팅 등으로 인해 컴퓨팅 파워가 과거보다 월등히 높아진 현재 이 방식이 큰 효과를 얻고 있습니다.

이 가운데 네이버 측은 통계적 기계 번역 방식과 언어학적 규칙을 혼합한 하이브리드 방식을 통해 이번 번역 엔진을 개발했다고 밝혔습니다. 또 다년간 검색 등 다양한 서비스를 통해 축적해 온 한국어 및 일본어 대용량 언어 처리 노하우 등도 반영됐다고 합니다.

NHN의 이윤식 검색본부장은 “NHN의 차별화된 검색 기반 기술들을 접목시켜 새로운 응용 기술인 ‘통번역’ 기술 개발은 모두 마쳤으며, 내부적으로 해당 기술의 활용을 위한 본격적인 고민을 시작한 상태”라며, “앞으로도 NHN은 여러 기반 기술들을 유기적으로 결합하려는 ‘코끼리 프로젝트’의 일환으로, 응용 기술 개발을 위한 연구개발도 지속적으로 추진해나갈 계획”이라 고 밝혔습니다.
2013/01/04 11:59 2013/01/04 11:59
네이버가 자신만의 ‘기술력’을 선보일 야심 찬 준비를 하고 있습니다. 네이버는 이른바 네이버판 ‘시리’라고 부를 수 있는 ‘링크’라는 모바일 애플리케이션을 다음 주 선보일 계획입니다.

링크는 음성인식과 문맥인식 등 자연어처리기술을 통해 사용자에게 답을 주는 서비스로, 애플의 시리와 같은 비서 프로그램입니다. 음성명령을 통해 스마트폰을 제어하고, 사용자의 질문에 원하는 답을 제시합니다

예를 들어 “엄마에게 전화해줘”라고 하면 저절로 전화를 걸고, “엄마에게 오늘 늦는다고 문자를 보내줘”라는 명령을 내리면 “오늘 늦어요”라고 문자메시지를 보냅니다.

이는 애플 시리도 제공하는 기술입니다. 하지만 네이버 측은 시리에 비해 링크가 한국인의 이름을 잘 인식한다고 설명합니다.
 
전세계를 대상으로 한 시리의 경우 한국인의 이름을 잘 인식하지 못한다는 평가가 많았습니다. 반면 링크는 현재 한국어에만 집중하다보니 한국인의 이름을 시리보다 잘 인식합니다.

또 하나 특이점은 엄마에게 문자메시지를 보내라는 명령에‘오늘 늦는다’라고 보내지 않고 ‘오늘 늦어요’라고 보낸다는 점입니다. 한국어에 맞게 네이버 측이 특별히 손을 본 결과입니다. 한국어는 영어 등과 달리 말을 그대로 전달하면 안 되는 경우가 있습니다. “엄마나 직장상사에게 메시지를 보낼 때‘오늘 늦는다’가 아닌 ‘오늘 늦어요’라고 변경함으로써 예기치 못한 실수를 줄일 수 있습니다.

링크는 시리와 마찬가지로 검색결과가 아닌 답을 제시합니다. 예를 들어 ‘이효리의 키는?’라는 질문을 던지면 일반 검색엔진은 ‘이효리’와 ‘키’라는 단어가 포함된 웹페이지나 DB를 보여줍니다. 그러나 링크는 같은 질문에 ‘164cm’라는 답을 제시합니다. “삼성전자 주가는 지금 얼마지?” “오늘의 날씨는 어때?”와 같은 질문에도 검색결과가 아닌 답을 보여줍니다.

아래 동영상은 이런 링크의 기능을 시나리오에 따라 시연한 것입니다.
여기서 네이버가 시리보다 우수한 점은 네이버가 보유한 다량의 콘텐츠 DB가 있다는 점입니다. 네이버는 지난 10년 이상 인물, 영화, 음악 등 다양한 DB를 구축해왔습니다. 이는 애플이나 구글은 보유하지 못한 것이기 때문에, 링크는 경쟁 서비스보다 더 정확한 답을 제공할 수 있습니다.

또 속도 면에서도 네이버가 훨씬 빠릅니다. 아래 동영상을 보면 링크와 시리의 속도차이를 확연히 느낄 수 있습니다. 시리의 경우 음성명령을 분서하는 서버가 해외에 있기 때문에 국내에 데이터센터를 두고 있는 네이버에 비해 속도가 느릴 수 밖에 없습니다.

아울러 문맥을 이해한다는 점도 주목할 필요가 있습니다. 앞의 명령이 무엇인지 기억해 뒀다가, 필요한 경우 뒤의 명령과 함께 이해하는 것입니다. 예를 들어 “오늘 날씨 알려줘?”라는 질문에 답을 얻은 다음 “부산은?”이라고 물으면 부산의 날씨를 알려줍니다. 앞에서 날씨를 물어봤다는 사실과 “부산은?”이라는 질문을 함께 받아들인 것입니다.


네이버는 링크를 통해 네이버의 기술력을 인정받겠다는 포부를 드러내고 있습니다. 지금까지 블로고스피어 등에서 “기술력 없이 수작업에 의존한다”는 등의 비판을 들어왔던 네이버로서는 링크가 시리보다 훨씬 진보해 있다고 자부하고 있습니다.

과연 네이버가 자부하는 대로 시리보다 더 우수한 비서가 탄생할지 주목됩니다.


[인터뷰]김광현 NHN 검색연구실장

-네이버 링크란 무엇인가.
사용자 삽입 이미지

“음성으로 스마트폰을 제어하고, 검색어를 입력하면 답을 얻을 수 있는서비스다. 새로운 것은 아니다. 애플 시리도 있고, 구글도 있다. 검색을 연구하는 사람들은 누구나 생각해 볼 수 있는 서비스다.”

- 애플 시리와 차이점과 강점이 있다면 무엇인가. 
“우선 속도 면에서 굉장히 빠르다. 애플 시리보다는 확실히 빠르고 구글과는 비슷하다. 그러나 구글은 콘텐츠가 없기 때문에 답이 아닌 검색 결과를 줄 뿐이다.

한국에서는 저희의 검색 기술이 글로벌 업체에 비해 떨어지지 않는다. 링크도 마찬가지다. 정답을 줄 수 있는 DB도 저희들이 훨씬 많다. 저희가 강조하는 것은 링크가 사람의 말(자연어)를 이해한다는 것이다. 음성을 인식한다는 것 자체가 중요한 것이 아니라 사람이 말을 이해하는 것처럼 컴퓨터가 이해할 수 있도록 했다. 사용자가 원하는 것이 무엇인지를 파악하고 답을 준다.”

- 예를 들면?
“일상 생활에서는 영화 ‘도둑들’에 누가 출연했는지가 궁금할 때 친구한테 ‘도둑들 출연배우’라고 물어보지 않는다. 검색엔진에는 그렇게 입력한다. 이는 사람들이 컴퓨터가 잘 받아들일 수 있도록 기계에 학습된 것이다. 그러나 사람의 말로 질문을 할 수 있어야 한다.

또 사람은 “삼성전자 주가 얼마야”라고 물어본 다음에 NHN 주가도 궁금할 때 “NHN 주가는 얼마야”라고 다시 묻지 않는다. 그냥 “NHN은?”이라고만 한다. 대화의 맥락을 알고 있기 때문이다. 링크도 이런 맥락을 이해하도록 했다.”

- 이 서비스를 일상생활에서 활용하기 위해서는 링크가 제시하는 답이 너무 많이 틀리면 안될 것 같다. 답변의 정확도는 어느 정도인가?
“우리는 10년 이상 검색 서비스를 해왔기 때문에 사용자들의 검색 니즈(Needs, 요구)를 알고 있다. 네이버 사용자들의 니즈에는 충분히 정확한 답을 줄 수 있다.


- 언제부터 이 기술을 개발했나
“언제부터라고 말하기 어렵다. 네이버는 처음부터 이런 지능적인 서비스를 목표로 해 왔는데, 스마트 환경이 되면서 가능해졌다. 자연어 기술이 한두 달 한다고 되는 것도 아니고, DB도 한두 달 모은다고 되는 것이 아니다. 10년 넘게 검색 기술과 언어처리 기술을 연구했고, 사용자들의 질의를 보면서 사용자들의 질문 의도를 파악하는 기술을 만들어왔다.”

- 그럼 링크 앱 개발에 돌입한 것은 언제부턴가.
“앱 개발은 연초부터 시작했다”

- 애플 시리가 각광을 받고 있지만, 생활이나 업무에서의 활용도가 높지는 않다. 일각에서는 성인용 장난감이라고 비하하기도 한다.
“인터넷에 떠도는 시리 동영상을 봐도 실생활에 활용하는 것보다는 시리의 재치있는 답변에 더 관심이 많은 것 같다. 이는 시리가 비서 기능의 본연을 잘 발휘하지 않기 때문이라고 본다. 저희는 사람들이 일상적으로 쓸 수 있는 기술을 개발하려고 노력하고 있다.”

- 마지막으로 하고 싶은 말은?
“링크는 (기반) 기술이지 (완전한) 서비스가 아니다. 사람들이 완전한 서비스로 이해할까봐 걱정된다. 아직 완전한 서비스로 보기에는 부족한 면이 있다. 이런 기반 기술은 다양한 서비스에 응용될 수 있다. 필요한 곳에 링크 기술을 활용하면 유용한 서비스로 탄생할 수 있을 것이다.”
 

2012/11/08 10:55 2012/11/08 10:55
제 블로그를 종종 방문하는 독자 분이라면 제가 음성인식 분야에 관심이 많다는 것을 느끼실 수 있을 겁니다. 네. 저는 음성인식을 비롯해 자연언어처리 기술 전반에 많은 관심을 가지고 있습니다.

이 때문에 음성인식 관련 블로그 기사를 여러 차례 포스팅 했습니다. 아래가 음성인식과 관련된 기사들입니다.

구글 넥서스원 음성인식, 우리도 할 수 있을까
영어유치원, 쓸 데 없는 낭비 될 수도
구글 음성검색…구글이 무서워졌다
한국어 스마트폰 음성검색, 최강자는 누구?
네이버 음성검색의 놀라운 진보…구글 수준

이런 저에게 최근 가장 신선한 충격을 준 서비스는 네이버 음성검색입니다. 지난 10월 ‘한국어 스마트폰 음성검색, 최강자는 누구?’라는 기사를 쓸 때만해도 구글에 비해 한 참 수준이 떨어졌던 네이버 음성검색 기술이 지난 1월에 ‘네이버 음성검색의 놀라운 진보…구글 수준’ 기사를 쓸 때는 구글에 맞먹는 수준으로 올라있었기 때문입니다.

이 짧은 기간 동안 네이버에는 무슨 일이 있었던 걸까요? 이 같은 질문에 답을 얻기 위해 네이버 음성검색 기술개발을 이끌어 온 이상호 음성검색팀장을 만났습니다.
사용자 삽입 이미지

이 팀장은 음성합성으로 박사학위를 취득한 음성공학 전문가로, LG전자 등에서 음성인식 기술을 연구해 왔습니다. 이후 검색엔진 전문업체 첫눈에서 검색엔진을 개발하다가 인수합병으로 NHN에 합류했습니다.

그런데 이 팀장이 저에게 건넨 명함에는 ‘음성검색팀’이 아닌 ‘검색모델링1팀’ 소속으로 돼 있었습니다. 네이버의 검색모델링팀은 검색결과의 순위(랭킹) 알고리즘을 개발하는 팀이라고 합니다. 옛날 명함을 그대로 쓰고 있다는 사실은 그가 음성검색팀을 맡은 지 얼마 되지 않는다는 점을 보여줍니다.

이 팀장에 따르면, NHN에 음성검색팀이 꾸려진 것은 불과 지난 해 7월 15일이라고 합니다. 당시는 구글과 다음이 음성검색 모바일 애플리케이션을 막 출시해 관심을 끌던 시기였습니다.

네이버는 그 이전에는 음성인식에 큰 관심이 없었던 듯 보입니다. 이 팀장은 네이버에 합류한 이후 줄곧 검색 모델링 업무를 맡았다고 합니다.

네이버는 지난 해 10월 음성검색 앱을 처음 출시했습니다. 하지만 이 때의 음성검색은 7월에 발족한 음성검색팀이 개발한 서비스가 아니었습니다. HCI랩이라는 국내 음성인식 전문업체의 기술을 이용한 것이었습니다.

제가 구글, 네이버, 다음의 음성검색 성능을 비교한 기사인 ‘한국어 스마트폰 음성검색, 최강자는 누구?’는 이 시점에 나온 것입니다. 당시 네이버의 음성검색의 수준은 구글에 한 참 못 미쳤습니다.

하지만 네이버는 12월 22일 훨씬 음성인식 기술이 향상된 음성검색 서비스를 선보였습니다. 이 버전이 음성검색팀의 기술이 처음 적용된 서비스입니다. 제가 ‘네이버 음성검색의 놀라운 진보…구글 수준’이라는 기사가 이 시점의 기사입니다.

음성검색팀이 처음 꾸려진 7월 15일로부터 불과 5개월 만에 구글에 비견할만한 음성검색 서비스를 개발한 것입니다.

음성인식은 지난 20년 동안 국내외 많은 전문가들이 매달려 온 기술입니다. 그럼에도 아직 완벽하게 상용화할 만한 기술을 개발한 기업이나 연구단체는 많지 않습니다. 네이버가 5개월 만에 이런 수준의 음성검색 서비스를 만들어냈다는 것은 거의 기적이 아닐 수 없습니다.

알고 보니 그 비결은 네이버 음성검색 팀의 구성원들에 있었습니다.

이상호 팀장을 비롯한 4명의 음성검색 팀원들은 이미 LG전자에서 함께 음성인식 기술을 연구해 왔던 인물들이라고 합니다. LG전자 이후 각자 제 갈 길을 걸어왔는데 우연히 NHN에서 다시 집결한 것입니다.

지난 해 7월 이상호 팀장에게 ‘자체 기술로 음성검색 서비스를 만들어라’라는 미션이 주어졌을 때 이 팀장이 같은 조직 안에 있는 옛 동지들을 모은 것입니다.

이 팀장은 “5개월 만에 결과가 나왔지만 사실 5개월 동안 새로 연구한 것은 거의 없다”면서 “과거에 이미 함께 연구하면서 머릿속에 있는 것들을 현실에 구현하기만 한 것”이라고 말했습니다.

그는 이를 피아니스트에 비유했습니다. 피아니스트가 사람들에게 실력을 보여주는 시간은 5분에 불과하지만 10년 이상 피아노 연주를 연습해 왔다는 것입니다. 음성검색 서비스를 만드는 데는 불과 5개월만이 걸렸지만, 10년 이상 음성인식 기술을 연구해왔기 때문에 가능했다는 설명입니다.

네이버 음성검색 서비스는 내부적으로도 매우 성공적인 프로젝트로 평가 받고 있습니다. 당초 3월에 처음 출시하기로 했었는데, 이를 3개월 앞당겨 12월에 만족할 만한 성능의 서비스를 선보인 것입니다.

이 팀장은 이 같은 성과의 비결에 대해 “교과서 대로만 하려고 노력했다”고 말했습니다. 사실 원래 교과서 대로 하는 게 더 어려운 법입니다. 야구선수가 교과서대로 던지고 교과서 대로 치고 싶지만, 누구나 그렇게 하지 못하는 것처럼 말입니다.

그는 “실수를 안 하려고 굉장히 노력했고, 10년 동안 컴퓨터의 성능이 좋아져 빠른 시간 안에 기술 개발이 가능했다”고 덧붙였습니다.

처음에는 태스크포스팀(TFT)와 유사하게 발족한 네이버 음성검색팀은 이제 정식 팀이 돼서 새로운 인력도 충원하고 있다고 합니다. 현재로서는 음성검색 품질을 더 높이기 위해 노력하고 있고, 어느 정도 수준에 오르면 검색을 넘어 음성 받아쓰기에까지 도전할 예정이라고 합니다.

네이버가 음성 받아쓰기 서비스도 구글과 경쟁할 수준이 될지 궁금해지고, 또 기대도 됩니다.
2011/03/15 08:39 2011/03/15 08:39

지난 해 10한국어 스마트폰 음성검색, 최강자는 누구?라는 제목으로 블로그 포스팅을 한 적이 있습니다. 실험을 통해 네이버,다음, 구글의 음성검색 성능을 비교해 본 것이었습니다. 당시 실험 결과 구글의 음성인식 품질이 월등히 뛰어났고, 네이버나 다음은 당장 현실에서 사용하기에는 다소 무리가 있는 품질을 보였었습니다.

이후 3개월이 조금 지났습니다. 각 사는 지난 3개월 동안 음성검색의 품질을 높이기 위해 많은 노력을 해 왔습니다. 음성검색은 스마트폰 시대의 킬러 서비스가 될 가능성이 있기 때문입니다.

과연 네이버, 다음, 구글의 음성검색 품질은 얼마나 향상됐을까요? 다시 실험을 해 봤습니다. 삼성 갤럭시S 휴대폰 3개를 준비해 각 회사의 음성검색 앱을 동시에 실행시켜 음성 키워드를 입력하는 방식으로 실험했습니다. 이 때문에 음성인식 품질뿐만 아니라 음성검색 속도까지 확인할 수 있었습니다.

검색 키워드는 지난 해 10월에 입력한 키워드와 동일한 것으로 실험했습니다. 아래 표를 보시죠.

 

네이버

다음

구글

MC몽 지식인

OK

OK

OK

갤럭시k

OK

갤럭시케익

OK

정아름

OK

정아랑

OK

박세미

OK

OK

OK

궈징징

OK

OK

4징징

김민아

이나

OK

OK

숙청

OK

OK

OK

길학미

OK

OK

정슬기

OK

성스2

OK

보라

OK

OK

OK

 네이버의 경우 김민아김이나로 인식한 경우를 제외하고 모두 정상적으로 검색됐습니다. 다음의 경우 10개 중 3개의 오류를 보였고, 구글은 10개중 2개를 틀렸습니다. 하지만 길학미의 실제 발음이 길항미로 된다는 점에서 길항미도 정상적인 결과로 본다면 구글은 1개만 오류를 보인 것입니다.

1차 실험 결과를 상기해 볼까요?

 

구글

네이버

다음

MC몽 지식인

OK

OK

MC몽 쇼핑몰

갤럭시K

OK

주식시세

소녀시대

정아름

OK

아아아

OK

박세미

OK

박수희

OK

궈징징

저 징징

짱구의진실

터키행진곡

김민아

OK

질리나

OK

숙청

OK

OK

숙종

길학미

지렁이

시지야식

OK

정슬기

OK

주식시세

전선희

보라

TORA

하하

OK


네이버에 3개월 동안 무슨 일이 일어난 것일까요? 경천동지할 발전이 있군요. 1차 실험에서는 10개 중 2개만이 정상적인 결과를 보인 반면 2차 실험에서는 10개 중 9개의 음성 키워드를 제대로 인식했습니다.

사실 네이버는 이 기간동안 음성검색 엔진을 교체했습니다. 국내 음성인식 업체인 HCI랩의 기술을 사용하던 네이버는 지난 해말 자체 음성검색엔진을 개발하고, 스마트폰 음성검색 서비스에 이를 반영했습니다. 그 결과 위와 같은 경이적인 성능 개선을 이뤄냈습니다.

다음의 음성검색도 많이 발전했습니다.50%의 인식률이었던 1차 실험에 비해 2차 실험에서는 70%의 인식률을 보였습니다. 갤럭시K->갤럭시 케익, 정아름->정아랑에서 보듯 정확한 결과는 아니더라도 유사한 검색어를 찾아내는 것을 보니 많은 성능 개선이 있었던 듯 보입니다. 다음측은 한국과학기술원(ETRI)에서 개발한 기술을 이용하고 있습니다.

 

네이버

다음

구글

유재석 결별 통보

OK

모빌

OK

윤도현 소속사 강승윤

OK

OK

OK

고소영 산후조리원

OK

OK

OK

오재원 사망

온스

우지원 사망

OK

황장엽 수양딸

OK

OK

OK

옥수수의 습격

OK

옥수수 습격

옥수수 습격

전주리 방송사고

OK

정주리 방송사고

전 주 방송사고

황장엽 아내

OK

황정음 아내

OK

중국 한글 공정

OK

OK

OK

이수근 말실수

OK

OK

OK

복합 어절 음성 키워드 검색에서도 네이버의 품질향상이 눈에 띕니다. 이번 실험에서도 네이버는 10개중 1개만이 틀린 검색 결과를 보였습니다. 구글도 옥수수 의 습격OK로 보면 90%의 인식률을 보였습니다. 띄어쓰기 오류의 경우 ‘OK’로 볼 수도 있지만, 띄어쓰기 오류가 형태소 분석 오류를 가져오고, 이를 기반으로 검색을 하면 엉뚱한 검색 결과가 나올 수 있기 때문에 파란색으로 표시했습니다. 다음의 경우에는 이번에도 70%의 인식률을 보였습니다.

문장으로 검색하면 어떤 결과가 나올까요. 그래서 도서 베스트셀러 톱10(알라딘 기준)으로도 검색해 봤습니다.

 

네이버

다음

구글

정의란 무엇인가

OK

정의 무엇인가

정의 무엇인가

아프니까 청춘이다

OK

아프니까 청춘 이다

아프 니까 청춘 이다

그들이 말하지 않은 스물 세 가지

그들이 말하지 않 23가지

그들 이 말하지 않 23까지

OK

이상한 나라의 앨리스

OK

이상한 나라 앨리스

OK

종이 여자

OK

구미 여자

OK

리딩으로 리드하라

OK

리딩 으로 리드하라

Reading 으로 리드하라

친구가 되어 주실래요

친구가되어주실래요

친구 되어 주실래요

친구가 되어 주 실 래요

 바보들의 결탁

OK

바보들의 견학

OK

코끼리에게 날개 달아주기

OK

코끼리 에게 날개 달아 주기

코끼리 에게 날개 달아주기

나쁜 사마리아인들

OK

OK

OK


베스트셀러 톱10으로 실험한 결과에서도 네이버는 높은 음성인식률을 보였습니다. 띄어쓰기 오류를 제외하면, 네이버와 구글은 거의 100% 인식률을 보였고, 다음은 종이여자->구미여자’, ‘바보들의 견학->바보들의 결탁등 약간의 오류를 나타냈습니다.

실험 결과를 종합하면 네이버의 경우 3개월만에 구글과의 기술 격차를 없앴음을 알 수 있습니다. 이토록 짧은 기간 안에 구글의 음성인식 기술을 따라잡을 것이라고는 생각치 못했는데, 놀라운 결과입니다.

다음도 아직 네이버나 구글에 비해 뒤지기는 하지만, 3개월 전보다 많은 기술 향상이 있었습니다. 특히 기존 실험에서는 음성 검색 키워드와는 전혀 관계 없는 엉뚱한 키워드를 뽑아내곤 했지만, 이제는 그런 경우는 거의 없습니다.

다만 검색 속도 면에서는 구글이 아직 많이 앞서 있는 듯 보입니다. 아래는 위의 실험을 동영상으로 찍은 것입니다.



모든 키워드에서 구글이 가장 빠른 결과를 보였고, 이어 네이버가 결과를 나타냈습니다. 다음의 경우 구글이나 네이버에 비해 음성인식 시간이 상당히 길다는 약점을 나타냈습니다. 다음은 검색 품질과 함께 검색 속도 개선에도 신경을 써야할 것으로 보입니다.
2011/01/26 13:21 2011/01/26 13:21

제가 초등학교에 다니던 시절에는 대부분의 아이들이 ‘주산학원’이라는 곳을 다녔습니다. 지금은 거의 사라졌지만, 그 당시에는 동네마다 주산학원 하나씩은 있었고, 주산학원 한 번쯤 안 가본 어린이는 거의 없었습니다.

그 당시 주산학원은 요즘의 영어학원과 비슷한 인기였습니다. 초등학교 입학하기 전부터 주산 조기교육을 시키는 부모도 많았습니다.

당시 부모님들이 아이들을 주산학원에 보낸 이유는 학교에서 산수(수학)점수를 높일 수 있고, 배워두면 나중에 취직할 때도 쓸모 있을 것이라는 기대가 있었기 때문입니다.

당시 부모님들은 불과 10~15년 이후 집집마다 책상 위에 PC가 놓여져 있으리라고는 전혀 생각하지 못했습니다. 물론 당시에도 컴퓨터라는 존재 자체는 알았지만, 주변에서 컴퓨터를 직접 본 사람은 없었습니다. 10년 뒤를 조금이라도 예측했다면 주산보다는 컴퓨터나 다른 것을 가르쳤을 것입니다.

결국 컴퓨터의 활성화는 주산학원에 쏟아 부은 시간과 비용을 아깝게 만들어 버렸습니다.(물론 주산이 아이들의 연산능력을 향상시키고, 두뇌계발에 도움이 될 수는 있습니다.)

요즘은 영어학원이 대세입니다. 영어유치원, 조기유학 등 영어를 못 하면 미래의 낙오자가 될 것 같은 위협을 느낍니다.

하지만 영어학원 인기는 영원할까요? 언젠가는 영어학원에 다닌 시간에 대해서도 “괜히 영어를 배우느라 돈과 시간을 낭비했다”라는 생각이 들 가능성은 없을까요?

최근 외신에 따르면, 구글이 외국어 동시통역이 가능한 스마트폰의 애플리케이션을 개발 중이라고 합니다.

스마트폰에 대고 한국어로 얘기하면 저절로 상대방에게 영어로 통역돼 들리고, 그가 영어로 얘기하면 한국어로 들리게 한다는 취지입니다.

이같은 ‘자동 통역’ 기술이 완벽해진다면 더 이상 영어학원에 돈과 시간을 쏟아부을 필요가 없을 것입니다.


어쩌면 영어에 모든 시간과 비용을 사용한 학생보다 그 시간에 책을 읽고 이런 저런 경험을 더 많이 한 학생이 취직도 쉽게 될 수 있을 것입니다.


자동 통역은 구글 이외에도 많은 기업들이 도전하고 있습니다. 일본 NEC는 전용 안경을 쓰면 상대방의 말을 자동으로 번역해 보여주는 제품을 선 보이기도 했습니다.(관련 기사)

국내에서도 엘엔아이소프트 등이 자동통역을 연구하고 있습니다.
 
물론 자동통역은 바벨탑을 쌓는 것에 비유될 정도로 어려운 기술입니다. 신의 영역에 도전하는 것이라고 할까요.

자동통역을 위해서는 음성인식, 자동번역, 음성합성의 기술이 완벽하게 조화를 이룰 수 있어야 가능합니다. 현재로서는 이 세 기술 중 어느 것도 완벽하지는 않습니다.

하지만 언젠간 자동통역도 현실화 될 것입니다. 1~2년 내에는 어렵다고 할 지라도 10년 뒤에는 어떨까요? 현재의 기술 발달 속도라면 10년 뒤에는 자동통역이 일상화 될 수도 있지 않을까요.

만약 10년 뒤에 자동 통역이 흔한 기술이 돼 버린다면, 어쩌면 현재 영어 유치원, 영어학원, 조기유학으로 수백, 수천만원을 들여 공부하고 있는 아이들은 헛된 낭비를 하고 있는 것일지도 모릅니다.

그들이 취직할 때가 되면 영어 실력보다 다른 능력을 요구할 지도 모르니까요.

2010/03/05 10:24 2010/03/05 10:24


`1990년대 후반 영화배우 안성기씨가 TV에서 “본부! 본부”를 외치는 모습이나, 김혜수씨가 휴대폰에 대고 “우리~집”이라고 속삭였던 휴대폰 광고를 기억하십니까? 휴대폰에 내장된 음성 다이얼링 기능을 소개하기 위한 광고들이었죠.


하지만 인상적인 광고에도 불구하고 음성 다이얼링 기능을 실제로 사용하는 사람은 많지 않았습니다. 낮은 음성인식률 때문입니다. 요즘 나오는 휴대폰에도 음성 다이얼링 기능이 있더군요. 하지만 그 때의 학습효과 때문일까요? 그 때보다 훨씬 음성인식률이 높아졌음에도 음성 다이얼링 기능을 사용하는 사람을 주변에서 본 적이 없는 것 같습니다.

이처럼 음성인식 기술은 꽤 오랫동안 촉망받아온 IT기술이었지만, 지금까지는 성공사례가 많지 않았습다. 응용분야가 무궁무진할 것으로 예상돼 관심을 끌었지만, 기술이 기대만큼 따라주지 못했던 것입니다.

그런데 최근 다시 음성인식에 대한 관심이 커지고 있는 것 같습니다.

최근 구글이 선보인 스마트폰 ‘넥서스원’ 중에 눈에 띄는 기능이 바로 이 음성인식입니다. 넥서스원에 탑재된 안드로이드 2.1에서는 모든 텍스트를 음성으로 작성할 수 있도록 보이스 키보드가 장착돼 있다고 합니다. 음성 다이얼링 기능은 기본이고, 음성으로 이메일을 보내거나 트위터에 글을 올리는 것도 가능한 것으로 알려지고 있습니다. 물론 웹검색도 음성으로 할 수 있습니다.

제가 직접 넥서스원을 사용해 보지 않아서 얼마나 정확하게 음성을 인식하는지는 알 수 없습니다만, 꽤 좋은 성능을 보인다는 평가를 받고 있는 것 같습니다. 구글의 음성인식 기술은 구글이 직접 개발한 것입니다.

마이크로소프트도 비슷한 기술을 보갖고 있죠. MS의 스티브 발머 사장은 7일 미국 라스베가스 CES 전시회에서 태블릿 PC를 들고나와 “더 이상 키보드는 필요 없다”고 말했습니다. 터치와 음성인식이 키보드를 대신한다는 것입니다.

구글이나 MS 같은 회사들이 직접 음성인식 기술 개발에 매진한다는 것은 이 기술이 얼마나 많은 가치를 가진 것인지 짐작케 합니다. 그러나 아직은 구글∙MS의 음성인식 기술이 세계 최고는 아니라고 합니다. 세계에서 최고의 기술은 뉘앙스 커뮤니케이션이라는 회사가 보유하고 있다고 합니다.

하지만 MS나 구글, 뉘앙스커뮤니케이션이 한국어 음성인식을 위해 과감한 투자를 할 가능성은 높지 않습니다. 한국어를 사용하는 사람들은 한국인밖에 없고, 한국 시장은 너무 작아서 투자 매력도가 떨어지죠.

결국 한국어 음성인식은 국내 기술로 해결해야할 숙제입니다.
그럼 국내 음성인식 기술은 어디까지 와 있을까요?

1990년대 말이나 2000년대 초반만 해도 국내에도 음성인식 분야에 뛰어든 많은 회사들이 있었습니다. 대부분 벤처기업이었죠. 하지만 음성인식은 하루아침에 가능한 기술이 아닙니다. 지속적인 연구와 그에 걸맞는 투자가 병행돼야 하는 매우 어려운 분야입니다.

그래서 벤처기업이 도전하기에는 매우 어렵습니다. 많은 벤처기업들이 음성인식 분야에 뛰어들었지만, 대부분 실패하고 말았습니다. 물론 아직까지 살아남아 연구개발을 지속하는 회사들이 있습니다. 그러나 그들은 음성인식보다는 다소 쉬운 기술인 음성합성이나 TTS(문자를 음성으로 변환하는 기술) 등에 주력하고 있습니다.

하지만 한국어 음성인식이 엉망은 아닙니다. 이미 음성인식 기술은 우리 일상에 많이 퍼져 있습니다. 최근 현대-기아자동차를 구매한 분은 아실 것입니다. 현대∙기아차의 최신 모델에는 오디오-비디오 내비게이션이 내장돼 있습니다.

일반적인 내비게이션에도 음성인식 기술이 포함된 제품이 출시되고 있습니다. 대표적인 것이 파인디지털의 ‘파인드라이브 보이스’입니다. 운전중에 위험하게 목적지를 손으로 입력하지 않고, 말로 목적지를 입력할 수 있습니다.

또 어제(7일)에는 KTH가 모바일 맛집 검색에 음성인식을 접목했다고 발표했습니다. 스마트폰(옴니아)에 “신사동 TV에 반영된 맛집”이라고 말로 입력하면, 결과를 보여준다고 합니다. KTH는 앞으로 파란 웹 검색에도 이를 반영할 계획인 것 같습니다.

파인디지털이나 KTH의 기술은 한국전자통신연구원(ETRI)에서 이전받은 것입니다. ETRI는 음성인식처럼 많은 투자가 필요한 기술에 대한 연구를 대신하고 기술을 기업에 이전해 주는 서비스를 제공하고 있습니다.

ETRI 음성처리연구팀 이윤근 팀장에 따르면, 현재 우리나라의 음성인식 기술 수준은 세계 최고 수준에서 크게 모자라지 않다고 합니다. 물론 음성인식도 분야마다 상황마다 각기 다르지만 현재 ETRI 기술은 90% 이상의 음성인식률을 보인다고 합니다.


어쩌면 한국어 음성인식 기술이 더 발전하면 제가 기사도 말로 쓰는 시대가 올 지도 모르겠습니다.
2010/01/08 12:56 2010/01/08 12:56