亚马逊Echo把语音识别带进人们的起居室
[attach]18791[/attach]
人类很久以前就试图对机器讲话——或者至少让机器对我们说话。"语音能够让我们与机器实现难以置信的简单互动,它是最自然、最方便的交互方式,也是我们每天都在使用的东西,"亚马逊设备事业部和亚马逊Alexa欧洲区副总裁乔利特·凡德·穆勒恩(Jorrit Van der Meulen)说,"语音就是未来。"
1773年,俄国科学家、在哥本哈根生活的生理学教授克里斯蒂安·克拉特齐斯坦(Christian Kratzenstein)开始思考语音技术。他制造了一个特别的设备,把共鸣管和风琴管连接起来,发出类似于人类语言中元音的声音。就在十多年后,维也纳的沃尔夫冈·冯·肯佩伦(Wolfgang von Kempelen)制造了一台类似的机械声学语音机器。在十九世纪初,英国发明家查尔斯·惠斯通(Charles Wheatstone)用皮革共鸣器改进了冯·肯佩伦的系统。该系统可以通过手动调整或控制发出像语言一样的声音。
到1881年,亚历山大·格拉汉姆·贝尔(Alexander Graham Bell)和他的兄弟查尔斯·萨姆纳·天特(Charles Sumner Tainter)一起制造了一个蜡涂层的旋转圆柱体,一根唱针对传入的声音压力作出反应,切出垂直的凹槽。这一发明为1907年获得专利的第一台留声机铺平了道路。他们是希望用机器来听写秘书念的笔记和书信,这样就不再需要速记员。随后,这些记录可以用打字机打出来。这一发明很快在全球流行起来,在越来越多的办公室里,秘书会带着笨拙的耳机,聆听录音并完成转录。
但是还有另一个目标。"我相信Audurey开发的最初目的是要减少带宽,即电线上传输的数据量,"巴哈尔的同事、诺基亚贝尔实验室(Nokia Bell Labs)的拉里·奥戈尔曼(Larry O'Gorman)说。语音识别所需带宽比原始声波要小。但是随着二十世纪七十和八十年代电话机开关的数字化,电话线路分配变的更快、更便宜,同时仍需要接线员来理解拨号请求。于是,二十世纪七十年代和八十年代,贝尔实验室语音研究投入了大量精力研究以下内容:识别数字零到十以及"是"与"否"。"电话系统在能够识别这12个单词后,就能够单纯依靠机器完成电话接线,"奥戈尔曼说。
Audrey并不是唯一。二十世纪六十年代,日本的几个团队也对语音识别进行研究,最著名的包括东京无线电研究实验室(Radio Research Lab)的元音识别器、京都大学的(Kyoto University)音素识别器和NEC实验室的数字语音识别器。
最大的一次飞跃发生在1971年,当时美国国防部的研究机构Darpa出资开展一个为期五年的语音理解研究项目,目标是达到1000个单词的词汇量。很多公司和学术机构参与了该项目,包括IBM、卡内基梅隆大学(Carnegie Mellon University)和斯坦福研究所(Stanford Research Institute)。于是,Harpy在卡内基梅隆大学诞生。
电话的到来加速了语音识别技术的发展
[attach]18793[/attach]
从单词转到词组并不容易。"句子里的单词会交汇起来,你会弄不清楚,不知道单词从哪里开始,到哪里结束。于是,你会得到'euthanasia'这样的东西,而它可能是'youth in Asia'。"韦贝尔说,"或者,当你说'Give me a new display'时,它可能会被理解为'give me a nudist play'。"