电商托管服务领航者
在线客服: 在线客服

新闻动态

对话谷歌科学家:语音搜索让打字代替说话

来源:电脑报 发布日期: 2011-09-06

  谷歌语音搜索研究科学家Pedro Moreno。西班牙人。电气工程专业,专攻数字信号处理方向。之后申请了富布莱特奖学金,美国卡内基-梅隆大学攻读博士学位,并加入了该大学的语音研究团队,从此时开始了他的研究工作。在进入谷歌之前,他还在几个企业研究实验室工作过。

  电脑报:能否介绍一下谷歌语音搜索背后运用到的技术,它是如何实现搜索的?

  Pedro Moreno:语音识别建立在统计模型基础之上。这个统计模型非常庞大,它几乎涵盖了一种语言或音素的最基本发音,所有的词,以及所有在讲这种语言时不同字词的组合。

  为了识别口头字词,我们将输入的语音与语言统计模型对比,并试图找到最相近的匹配结果——系统对于用户所说的最精确的猜测。这个统计模型非常庞大,它几乎涵盖了一种语言或音素的最基本发音,所有的词,以及所有在讲这种语言时不同字词的组合。而且,它也捕获了用户使用这种语言所有的变调,比如不同的方言、发音和不同个体在声音方面的不同。(比如男性的发音与女性的不同,年轻人与老年人发音的不同)

  电脑报:在中国,不仅有普通话,还有很多方言,针对方言、俚语的搜索,你们在开发过程中遇到了哪些难点和挑战?又是如何克服的?

  Pedro Moreno:最初,我们开始研究普通话的语音搜索。普通话是一种非常重要的语言,并且它与英语非常不同。对于初学者,普通话使用的音调,不像西方语言。此外,普通话一个字的概念是模糊的,这需要辅助以字段分析技术。

  研究普通话语音搜索中汲取的经验,让我们得以使用很多创新的方法来研究其他新语言的语音搜索。后来我们意识到,每个新的语言都会带来新的挑战。例如,俄语的语调都很困难,德语或土耳其语等其他语言则高度黏着。(他们经常将一些字词组合成更大的字词或短语,通过在名词、动词等后面加上不同的词尾来实现语法功能。)随着我们处理的语言越来越多,我们得到了更多的解决方案,研究变得更为容易。

  对于粤语,我们当然利用了在普通话方面的经验。粤语的优势之一在于大部分的书写系统与普通话是相同的,所以我们可以利用所有在普通话中的语言模型。然而,具体到每一个粤语词汇的音节、来源,我们还需要做一些工作。事实上,没有一种广泛应用的粤语拼音系统给我们造成了一些困难。

  因此对于粤语,我们的声学模型与普通话非常不同。粤语和普通话之间的另一个有趣的区别是,在通过语音搜索时,香港用户比北京用户更容易混合英语单词。实际上,我们的系统反映出了香港用户的习惯。

  电脑报:我们看到的语音搜索产品还不够成熟,现在Google语音搜索能实现的技术水平以及搜索结果离你理想中的状态相差多远?在你看来,语音搜索技术的实现最大的难点是什么?

  Pedro Moreno:语音识别技术的长期愿景,是要达到无处不在,让用户随时随地能够使用语音识别技术,需要打字的地方,都可以用说话来代替。

  现在最大的挑战就是语音识别的质量,有很多因素都会影响语音识别的准确率。例如,如果你站在一个嘈杂的街角,可能会有很多背景噪声,从而导致在转录中出现错误。但我们一直在致力于提高精确度。我们知道,提高精确度能使这一服务更有价值、更有用处。所以这绝对是我们的工作重点。

  并且,当我们在某个应用程序中的准确率提高时,人们会回过头来再次使用它。可以告诉你的好消息是,我们在数据驱动技术和语音识别的技术方面的研究正不断地提高识别质量。在过去几年里,准确性取得了很大的进展,我们预计它还会继续提高。当然,随着准确性的提高,人们的期望也随之迅速上升。因此,我们会迎接各种挑战,不断满足或超越人们的期望。

  延伸阅读:语音搜索技术的早期历史

  语音搜索技术是从上世纪90年代末开始出现的。最初热衷于这门技术开发的企业并不是今天的这些互联网巨头,而是诸如NTT这样的电信公司。因为电信运营商都希望将语音搜索能够集成到自己的电信服务中,从而获得一个新的市场。

  在早期,日本和英国是在语音搜索方面最为积极的两个国家,美国随着互联网的兴起,也开始逐渐加入到这项技术的开发之中。

  2000年前后,语音搜索技术开发的重点更多是面向一些特定群体,比如希望在网上搜索一些关键数据的用户,或者希望获得网上内容的残障人士。

  早在2000年,NTT公司就尝试在互联网上开发语音搜索技术,不过当时这项叫做“学习主动搜索”的技术主要是还主要针对特定用户,在网上的声音及影视数据中迅速搜索出没有获得合法授权的内容,约1秒钟就能从可播放24小时的声音及影视数据中搜索出特定的声音或者影视数据。