语音识别外文翻译资料

2022-08-27 10:08

Speech recognition

Speech recognition is an interdisciplinary subfield of computer science and computational linguistics that develops methodologies and technologies that enable the recognition and translation of spoken language into text by computers. It is also known as automatic speech recognition (ASR), computer speech recognition or speech to text (STT). It incorporates knowledge and research in the computer science, linguistics and computer engineering fields.

Some speech recognition systems require 'training' (also called 'enrollment') where an individual speaker reads text or isolated vocabulary into the system. The system analyzes the persons specific voice and uses it to fine-tune the recognition of that persons speech, resulting in increased accuracy. Systems that do not use training are called 'speaker independent'[1] systems. Systems that use training are called 'speaker dependent'.

Speech recognition applications include voice user interfaces such as voice dialing (e.g. 'call home'), call routing (e.g. 'I would like to make a collect call'), domotic appliance control, search key words (e.g. find a podcast where particular words were spoken), simple data entry (e.g., entering a credit card number), preparation of structured documents (e.g. a radiology report), determining speaker characteristics,[2] speech-to- text processing (e.g., word processors or emails), and aircraft (usually termed direct voice input).

The term voice recognition[3][4][5] or speaker identification[6][7][8] refers to identifying the speaker, rather than what they are saying. Recognizing the speaker can simplify the task of translating speech in systems that have been trained on a specific persons voice or it can be used to authenticate or verify the identity of a speaker as part of a security process.

From the technology perspective, speech recognition has a long history with several waves of major innovations. Most recently, the field has benefited from advances in deep learning and big data. The advances are evidenced not only by the surge of academic papers published in the field, but more importantly by the worldwide industry adoption of a variety of deep learning methods in designing and deploying speech recognition systems.

Contents

History

Pre-1970 1970–1990

Practical speech recognition 2000s

2010s

Models, methods, and algorithms

Hidden Markov models

Dynamic time warping (DTW)-based speech recognition Neural networks

Deep feedforward and recurrent neural networks

End-to-end automatic speech recognition

Applications

In-car systems

Health care

Medical documentation Therapeutic use

Military

High-performance fighter aircraft Helicopters

Training air traffic controllers Telephony and other domains Usage in education and daily life People with disabilities

Further applications

Performance

Accuracy Security concerns

Further information Conferences and journals Books

Software See also References Further reading External links

History

The key areas of growth were: vocabulary size, speaker independence and processing speed.

Pre-1970

1952 – Three Bell Labs researchers, Stephen Balashek,[9] R. Biddulph, and K. H. Davis built a system called 'Audrey'[10] for single-speaker digit recognition. Their system located the formants in the power spectrum of each utterance.[11]

1960 – Gunnar Fant developed and published the source-filter model of speech production.

1962 – IBM demonstrated its 16-word 'Shoebox' machines speech recognition capability at the 1962 Worlds Fair.[12]

1966 – Linear predictive coding (LPC), a speech coding method, was first proposed by Fumitada Itakura of Nagoya University and Shuzo Saito of Nippon Telegraph and Telephone (NTT), while working

剩余内容已隐藏，支付完成后下载完整资料

语音识别

语音识别是计算机科学和计算语言学的一个跨学科分支，它发展了能够通过计算机将口语识别和翻译成文本的方法和技术。它也被称为自动语音识别(ASR)、计算机语音识别或语音转文本(STT)。它融合了计算机科学、语言学和计算机工程领域的知识和研究。

一些语音识别系统需要“训练”(也称为“注册”)，其中个人说话者将文本或孤立的词汇读入系统。该系统分析该人的特定声音，并使用它来微调对该人语音的识别，从而提高准确性。不使用训练的系统称为“与说话者无关的”[1]系统。使用训练的系统被称为“说话者依赖”。

语音识别应用包括语音用户界面，例如语音拨号(例如。“呼叫总部”)，呼叫路由(例如。“我想打一个对方付费的电话”)，移动设备控制，搜索关键词(例如。查找说出特定单词的播客)、简单的数据输入(例如，。输入信用卡号码)、准备结构化文档(例如。放射学报告)，确定说话者特征，[2]语音到文本处理(例如，。文字处理器或电子邮件)和飞机(通常称为直接语音输入)。

术语语音识别[3][4][5]或说话者识别[6][7][8]是指识别说话者，而不是他们在说什么。识别说话者可以简化系统中翻译语音的任务，该系统是根据特定人的声音进行训练的，或者作为安全过程的一部分，它可以用于认证或验证说话者的身份。

从技术角度来看，语音识别历史悠久，有几波重大创新。最近，该领域受益于深度学习和大数据的进步。这些进步不仅体现在该领域发表的学术论文的激增，更重要的是，在设计和部署语音识别系统时，世界范围内的行业采用了各种深度学习方法。

历史

增长的关键领域是:词汇量、说话者独立性和处理速度。

1970年以前

1952年的今天，三名贝尔实验室的研究人员斯蒂芬·巴拉斯克。Biddulph，和k。H. 戴维斯建立了一个名为“奥黛丽”的系统，用于单说话者的数字识别。他们的系统将共振峰定位在每个话语的功率谱中。[11]

1960年的今天，贡纳·范特开发并出版了语音生产的源过滤模型。

1962年的今天，IBM在1962年的世界博览会上展示了其16个单词的“鞋盒”机器的语音识别能力。[12]

1966年的今天，线性预测编码(LPC)，一种语音编码方法，由名古屋大学的板仓文治和日本电报电话公司(NTT)的修佐·斋藤在研究语音识别时首次提出。[13]

1969年，贝尔实验室的资金枯竭了几年，1969年，有影响力的约翰·皮尔斯写了一封公开信，批评并平息了语音识别研究。[14]这种化解一直持续到皮尔斯退休和詹姆斯·l。弗拉纳根接手了。

雷伊·雷蒂是20世纪60年代末斯坦福大学研究生期间第一个接受连续语音识别的人。以前的系统要求用户在每个单词后暂停。雷迪的系统发出了下棋的口头命令。

大约在这个时候，苏联研究人员发明了动态时间扭曲(DTW)算法，并使用它来创建一个能够在200个单词的词汇上操作的识别器。[15] DTW通过将语音分成短帧来处理语音，例如。10ms分段，并将每个帧作为一个单元进行处理。尽管后来的算法取代了DTW，但这项技术仍在继续。在这个时期，实现说话者独立仍未解决。

1970–1990

1971年——国防高级研究计划局资助了五年的语音理解研究，语音识别研究寻求最小词汇量为1000个单词。他们认为语音理解是语音识别取得进展的关键，但后来证明这是不真实的。[16] BBN、IBM、卡耐基梅隆大学和斯坦福研究所都参与了该计划。[17][18]这篇复兴的语音识别研究文章刊登了约翰·皮尔斯的信。

1972年的今天，IEEE声学、语音和信号处理小组在马萨诸塞州的牛顿召开了一次会议。

1976年，第一届国际计算机辅助语音识别大会在费城举行，此后一直是发表语音识别研究的主要场所。[19]

20世纪60年代末，伦纳德·鲍姆在国防分析研究所开发了马尔可夫链的数学。十年后，在CMU，雷伊·雷蒂的学生詹姆斯·贝克和珍妮特·m。贝克开始使用隐马尔可夫模型进行语音识别。[20]詹姆斯·贝克在本科教育期间，从国防分析研究所的一份暑期工作中学到了hmm。[21]hmm的使用使研究人员能够在一个统一的概率模型中结合不同的知识来源，如声学、语言和句法。

到20世纪80年代中期，IBM的弗雷德·耶利内克(Fred Jelinek)的团队创造了一种称为坦戈拉(Tangora)的语音激活打字机，它可以处理20，000个单词的词汇[22].耶利内克的统计方法不太强调模拟人脑处理和理解语音的方式，而是倾向于使用统计建模技术，如HMMs。(Jelinek的团队独立发现了HMMs对语音的应用。[21])这引起了语言学家的争议，因为hmm过于简单，无法解释人类语言的许多共同特征。[23]然而，隐马尔可夫模型被证明是一种非常有用的语音建模方法，并取代了动态时间扭曲，成为20世纪80年代占主导地位的语音识别算法。[24]

1982年的今天，由詹姆斯和珍妮特·m创建的龙系统公司。贝克，[25]是IBM为数不多的竞争对手之一。

实用语音识别

20世纪80年代还引入了n-gram语言模型

1987年——后退模型允许语言模型使用多长度n-gram，而CSELT使用隐马尔可夫模型来识别语言(在软件和硬件专用处理器中，例如。RIPAC)。

这个领域的进步很大程度上归功于计算机能力的迅速提高。在1976年美国国防高级研究计划局(DARPA)项目结束时，研究人员可用的最好的计算机是带有4 MB内存的PDP-10。[23]解码30秒钟的语音可能需要100分钟。[26]

两个实用产品是:1987年——库兹韦尔应用智能公司的识别器

1990年的今天，1990年发布的消费产品“龙口述”在1992年由ATamp;T推出了语音识别呼叫处理服务，无需人工操作就可以路由电话。[29]这项技术是由贝尔实验室的劳伦斯·拉宾和其他人开发的。

至此，典型的商业语音识别系统的词汇量大于人类的平均词汇量。[23]以前的学生黄在开发了狮身人面像-II系统。Sphinx-II系统是第一个独立于说话者、大词汇量、连续语音识别的系统，在美国国防高级研究计划局1992年的评估中表现最好。处理大量连续语音是语音识别历史上的一个重要里程碑。1993年，黄在微软成立了语音识别小组.雷伊·雷蒂的学生李开复于1992年加入苹果公司，在那里他帮助开发了苹果电脑的语音界面原型——卡斯帕。

总部位于比利时的语音识别公司乐诺amp;豪斯皮公司(Lernout amp; Hauspie)收购了其他几家公司，包括1997年的库兹韦尔应用智能公司(Kurzweil Applied Intelligence)和2000年的龙系统公司(Dragon Systems)。在视窗操作系统中使用了Lamp;H语音技术。在2001年会计丑闻终结公司之前，Lamp;H一直是行业领袖.来自Lamp;H的语音技术被2005年成为Nuance的ScanSoft收购.苹果最初从Nuance获得软件许可，为其数字助理Siri提供语音识别功能。[30]

2000年代

在2000年，美国国防高级研究计划局赞助了两个语音识别项目:2002年的有效的、可负担的、可重复使用的语音到文本转换(EARS)和全球自主语言开发(GALE)。四个团队参与了EARS项目:IBM，一个由BBN领导的团队，LIMSI和Univ。匹兹堡大学、剑桥大学和一个由ICSI、SRI和华盛顿大学组成的团队。EARS资助了总机电话语音语料库的收集工作，该语料库包含来自500多名发言者的260小时录音对话。[31]盖尔节目侧重于阿拉伯语和普通话广播新闻讲话。谷歌在语音识别方面的第一次努力是在2007年，当时它从Nuance聘请了一些研究人员。[32]第一个产品是GOOG-411，一种基于电话的目录服务。GOOG-411的记录产生了有价值的数据，帮助谷歌改善了他们的识别系统。谷歌语音搜索现在支持30多种语言。

在美国，国家安全局至少从2006年开始使用一种语音识别来识别关键词。[33]这项技术允许分析师搜索大量记录的对话，并隔离关键词的提及。录音可以被编入索引，分析师可以在数据库中运行查询来查找感兴趣的对话。一些政府研究项目侧重于语音识别的智能应用，例如。DARPA的EARS计划和IARPA的Babel计划。

在21世纪初，语音识别仍然由传统方法主导，如隐马尔可夫模型与前馈人工神经网络相结合。[34]然而，今天，语音识别的许多方面已经被一种叫做长短期记忆()的深度学习方法所取代，这是一种由Sepp Hochriter amp; Jurgen Schmidhuber于1997年发表的递归神经网络.[35] LSTM神经网络避免了消失梯度问题，可以学习“深度学习”任务[36]，这些任务需要对几千个离散时间步长前发生的事件进行记忆，这对语音很重要。大约在2007年，由连接主义时间分类(CTC)[37]训练的LSTM开始在某些应用中胜过传统的语音识别。[38]据报道，2015年，谷歌语音识别系统通过反恐委员会培训的LSTM系统获得了49%的显著性能提升，现在所有智能手机用户都可以通过谷歌语音获得该系统。[39]

深度前馈(非递归)网络用于声学建模是由杰弗里·辛顿和他在多伦多大学的学生以及邓梨[40]和微软研究院的同事在2009年下半年引入的，最初是在微软和多伦多大学的合作工作中引入的，后来扩展到包括IBM和Google(因此在其2012年的综述论文中有“四个研究小组的共同观点”副标题)。[41][42][43]一位微软研究主管称这一创新为“自1979年以来准确性方面最引人注目的变化”。[44]与过去几十年稳步递增的改进相比，深度学习的应用将单词错误率降低了30%。[44]这一创新很快被整个领域采用。研究人员也开始将深度学习技术用于语言建模。

在语音识别的漫长历史中，浅层形式和深层形式(例如。在20世纪80年代、90年代和进入21世纪的几年中，已经探索了许多年。[45][46][47]但是这些方法从未赢得基于有区别地训练的语音生成模型的非均匀内部手工高斯混合模型/隐马尔可夫模型(HMM隐马尔可夫模型)技术。[48]在20世纪90年代，对许多关键的困难进行了方法分析，包括梯度递减[49]和神经预测模型中的弱时间相关性结构。[50][51]所有这些困难都是除了早期缺乏大训练数据和大计算能力之外的。大多数理解这些障碍的语音识别研究人员随后离开了神经网络，转而追求生成性建模方法，直到最近从2009-2010年开始的深度学习的复苏克服了所有这些困难。Hinton等人。和邓等人。回顾了这段近代史的一部分，讲述了他们如何相互合作，然后与四个团队(多伦多大学、微软、谷歌和IBM)的同事合作，点燃了深度前馈神经网络在语音识别应用中的复兴。[42][43][52][53]

2010s

到2010年代初，语音识别，也称为语音识别[54][55][56]，与说话人识别有了明显的区别，说话人独立性被认为是一个重大突破。在那之前，系统需要一个“训练”期。1987年的一则娃娃广告打出了这样的标语:“终于，那个懂你的娃娃。”——尽管事实上它被描述为“孩子们可以训练回应他们的声音”。[12]

2017年，微软研究人员在广泛基准化的交换台任务上实现了一个历史性的人类平等里程碑——转录会话电话语音。使用多个深度学习模型来优化语音识别精度。据报道，语音识别单词错误率低至4名专业人类转录员在同一基准上共同工作，这是由IBM沃森语音团队资助的同一项任务。[57]

模型、方法和算法

声学建模和语言建模都是现代基于统计的语音识别算法的重要组成部分。隐马尔可夫模型广泛应用于许多系统中。语言建模也用于许多其他自然语言处理应用，如文档分类或统计机器翻译。

隐马尔可夫模型

现代通用语音识别系统基于隐马尔可夫模型。这些是输出一系列符号或量的统计模型。hmm用于语音识别，因为语音信号可以看作是分段平稳信号或短时平稳信号。在一个短时间尺度(例如。10毫秒)，语音可以近似为平稳过程。出于许多随机目的，语音可以被认为是马尔可夫模型。

HMM流行的另一个原因是因为它们可以自动训练，并且使用起来简单且计算可行。在语音识别中，隐马尔可夫模型将输出一系列n维实值向量(n是一个小整数，如10)，每10毫秒输出一个向量。向量将由倒谱系数组成，倒谱系数是通过对语音的短时间窗口进行傅里叶变换，并使用余弦变换对频谱进行去相关，然后取第一个(最重要的)系数而获得的。隐马尔可夫模型倾向于在每个状态中有一个统计分布，它是对角协方差高斯分布的混合，这将给出每个观测向量的可能性。每个单词，或者(对于更一般的语音识别系统来说)，每个音素，将有不同的输出分布；单词或音素序列的隐马尔可夫模型是通过连接单独的单词和音素的单独训练的隐马尔可夫模型而形成的。

上述是最常见的基于隐马尔可夫模型的语音识别方法的核心要素。现代语音识别系统使用多种标准技术的各种组合，以提高上述基本方法的效果。典型的大词汇量系统需要音素的上下文相关性(因此具有不同左右上下文的音素作为隐马尔可夫模型状态具有不同的实现)；它将使用倒谱归一化来对不同说话者和记录条件进行归一化；对于进一步的说话人标准化，可以使用声道长度标准化(VTLN)进行男女标准化，使用最大似然线性回归(MLLR)进行更一般的说话人适应。这些特征将具有所谓的delta;和delta;-delta;系数以捕获语音动态，此外还可以使用异方差线性鉴别分析(HLDA)；或者可以跳过delta和delta-delta系数，并使用拼接和基于LDA的投影，随后可能是异方差线性鉴别分析或全局半相关协方差变换(也称为最大似然线性变换或MLLT变换)。许多系统使用所谓的鉴别训练技术，该技术放弃了对隐马尔可夫模型参数估计的纯统计方法，而是优化训练数据的一些与分类相关的度量。例如最大互信息(MMI)、最小分类误差(MCE)和最小电话误差(MPE)。lt;

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[405920]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码

语音识别外文翻译资料

History

Pre-1970

1970年以前

1970–1990

实用语音识别

2000年代

2010s

模型、方法和算法

隐马尔可夫模型

您可能感兴趣的文章

最新文档

推荐栏目

登录

注册

找回密码

语音识别外文翻译资料

History

Pre-1970

1970年以前

1970–1990

实用语音识别

2000年代

2010s

模型、方法和算法

隐马尔可夫模型

您可能感兴趣的文章

最新文档

推荐栏目