지난 해 10한국어 스마트폰 음성검색, 최강자는 누구?라는 제목으로 블로그 포스팅을 한 적이 있습니다. 실험을 통해 네이버,다음, 구글의 음성검색 성능을 비교해 본 것이었습니다. 당시 실험 결과 구글의 음성인식 품질이 월등히 뛰어났고, 네이버나 다음은 당장 현실에서 사용하기에는 다소 무리가 있는 품질을 보였었습니다.

이후 3개월이 조금 지났습니다. 각 사는 지난 3개월 동안 음성검색의 품질을 높이기 위해 많은 노력을 해 왔습니다. 음성검색은 스마트폰 시대의 킬러 서비스가 될 가능성이 있기 때문입니다.

과연 네이버, 다음, 구글의 음성검색 품질은 얼마나 향상됐을까요? 다시 실험을 해 봤습니다. 삼성 갤럭시S 휴대폰 3개를 준비해 각 회사의 음성검색 앱을 동시에 실행시켜 음성 키워드를 입력하는 방식으로 실험했습니다. 이 때문에 음성인식 품질뿐만 아니라 음성검색 속도까지 확인할 수 있었습니다.

검색 키워드는 지난 해 10월에 입력한 키워드와 동일한 것으로 실험했습니다. 아래 표를 보시죠.

 

네이버

다음

구글

MC몽 지식인

OK

OK

OK

갤럭시k

OK

갤럭시케익

OK

정아름

OK

정아랑

OK

박세미

OK

OK

OK

궈징징

OK

OK

4징징

김민아

이나

OK

OK

숙청

OK

OK

OK

길학미

OK

OK

정슬기

OK

성스2

OK

보라

OK

OK

OK

 네이버의 경우 김민아김이나로 인식한 경우를 제외하고 모두 정상적으로 검색됐습니다. 다음의 경우 10개 중 3개의 오류를 보였고, 구글은 10개중 2개를 틀렸습니다. 하지만 길학미의 실제 발음이 길항미로 된다는 점에서 길항미도 정상적인 결과로 본다면 구글은 1개만 오류를 보인 것입니다.

1차 실험 결과를 상기해 볼까요?

 

구글

네이버

다음

MC몽 지식인

OK

OK

MC몽 쇼핑몰

갤럭시K

OK

주식시세

소녀시대

정아름

OK

아아아

OK

박세미

OK

박수희

OK

궈징징

저 징징

짱구의진실

터키행진곡

김민아

OK

질리나

OK

숙청

OK

OK

숙종

길학미

지렁이

시지야식

OK

정슬기

OK

주식시세

전선희

보라

TORA

하하

OK


네이버에 3개월 동안 무슨 일이 일어난 것일까요? 경천동지할 발전이 있군요. 1차 실험에서는 10개 중 2개만이 정상적인 결과를 보인 반면 2차 실험에서는 10개 중 9개의 음성 키워드를 제대로 인식했습니다.

사실 네이버는 이 기간동안 음성검색 엔진을 교체했습니다. 국내 음성인식 업체인 HCI랩의 기술을 사용하던 네이버는 지난 해말 자체 음성검색엔진을 개발하고, 스마트폰 음성검색 서비스에 이를 반영했습니다. 그 결과 위와 같은 경이적인 성능 개선을 이뤄냈습니다.

다음의 음성검색도 많이 발전했습니다.50%의 인식률이었던 1차 실험에 비해 2차 실험에서는 70%의 인식률을 보였습니다. 갤럭시K->갤럭시 케익, 정아름->정아랑에서 보듯 정확한 결과는 아니더라도 유사한 검색어를 찾아내는 것을 보니 많은 성능 개선이 있었던 듯 보입니다. 다음측은 한국과학기술원(ETRI)에서 개발한 기술을 이용하고 있습니다.

 

네이버

다음

구글

유재석 결별 통보

OK

모빌

OK

윤도현 소속사 강승윤

OK

OK

OK

고소영 산후조리원

OK

OK

OK

오재원 사망

온스

우지원 사망

OK

황장엽 수양딸

OK

OK

OK

옥수수의 습격

OK

옥수수 습격

옥수수 습격

전주리 방송사고

OK

정주리 방송사고

전 주 방송사고

황장엽 아내

OK

황정음 아내

OK

중국 한글 공정

OK

OK

OK

이수근 말실수

OK

OK

OK

복합 어절 음성 키워드 검색에서도 네이버의 품질향상이 눈에 띕니다. 이번 실험에서도 네이버는 10개중 1개만이 틀린 검색 결과를 보였습니다. 구글도 옥수수 의 습격OK로 보면 90%의 인식률을 보였습니다. 띄어쓰기 오류의 경우 ‘OK’로 볼 수도 있지만, 띄어쓰기 오류가 형태소 분석 오류를 가져오고, 이를 기반으로 검색을 하면 엉뚱한 검색 결과가 나올 수 있기 때문에 파란색으로 표시했습니다. 다음의 경우에는 이번에도 70%의 인식률을 보였습니다.

문장으로 검색하면 어떤 결과가 나올까요. 그래서 도서 베스트셀러 톱10(알라딘 기준)으로도 검색해 봤습니다.

 

네이버

다음

구글

정의란 무엇인가

OK

정의 무엇인가

정의 무엇인가

아프니까 청춘이다

OK

아프니까 청춘 이다

아프 니까 청춘 이다

그들이 말하지 않은 스물 세 가지

그들이 말하지 않 23가지

그들 이 말하지 않 23까지

OK

이상한 나라의 앨리스

OK

이상한 나라 앨리스

OK

종이 여자

OK

구미 여자

OK

리딩으로 리드하라

OK

리딩 으로 리드하라

Reading 으로 리드하라

친구가 되어 주실래요

친구가되어주실래요

친구 되어 주실래요

친구가 되어 주 실 래요

 바보들의 결탁

OK

바보들의 견학

OK

코끼리에게 날개 달아주기

OK

코끼리 에게 날개 달아 주기

코끼리 에게 날개 달아주기

나쁜 사마리아인들

OK

OK

OK


베스트셀러 톱10으로 실험한 결과에서도 네이버는 높은 음성인식률을 보였습니다. 띄어쓰기 오류를 제외하면, 네이버와 구글은 거의 100% 인식률을 보였고, 다음은 종이여자->구미여자’, ‘바보들의 견학->바보들의 결탁등 약간의 오류를 나타냈습니다.

실험 결과를 종합하면 네이버의 경우 3개월만에 구글과의 기술 격차를 없앴음을 알 수 있습니다. 이토록 짧은 기간 안에 구글의 음성인식 기술을 따라잡을 것이라고는 생각치 못했는데, 놀라운 결과입니다.

다음도 아직 네이버나 구글에 비해 뒤지기는 하지만, 3개월 전보다 많은 기술 향상이 있었습니다. 특히 기존 실험에서는 음성 검색 키워드와는 전혀 관계 없는 엉뚱한 키워드를 뽑아내곤 했지만, 이제는 그런 경우는 거의 없습니다.

다만 검색 속도 면에서는 구글이 아직 많이 앞서 있는 듯 보입니다. 아래는 위의 실험을 동영상으로 찍은 것입니다.



모든 키워드에서 구글이 가장 빠른 결과를 보였고, 이어 네이버가 결과를 나타냈습니다. 다음의 경우 구글이나 네이버에 비해 음성인식 시간이 상당히 길다는 약점을 나타냈습니다. 다음은 검색 품질과 함께 검색 속도 개선에도 신경을 써야할 것으로 보입니다.
2011/01/26 13:21 2011/01/26 13:21

트랙백 주소 :: 이 글에는 트랙백을 보낼 수 없습니다