北京语音识别学习

更新时间：2025-09-27 点击次数：29

美国**部下属的一个名为美国**高级研究计划局(DefenseAdvancedResearchProjectsAgency，DARPA)的行政机构，在20世纪70年代介入语音领域，开始资助一项旨在支持语言理解系统的研究开发工作的10年战略计划。在该计划推动下，诞生了一系列不错的研究成果，如卡耐基梅隆大学推出了Harpy系统，其能识别1000多个单词且有不错的识别率。第二阶段：统计模型(GMM-HMM)到了20世纪80年代，更多的研究人员开始从对孤立词识别系统的研究转向对大词汇量连续语音识别系统的研究，并且大量的连续语音识别算法应运而生，例如分层构造(LevelBuilding)算法等。同时，20世纪80年代的语音识别研究相较于20世纪70年代，另一个变化是基于统计模型的技术逐渐替代了基于模板匹配的技术。统计模型两项很重要的成果是声学模型和语言模型，语言模型以n元语言模型(n-gram)，声学模型以HMM。HMM的理论基础在1970年前后由Baum等人建立，随后由卡耐基梅隆大学(CMU)的Baker和IBM的Jelinek等人应用到语音识别中。在20世纪80年代中期，Bell实验室的.Rabiner等人对HMM进行了深入浅出的介绍。并出版了语音识别专著FundamentalsofSpeechRecognition，有力地推动了HMM在语音识别中的应用。这些进步不仅体现在该领域发表的学术论文激增上。北京语音识别学习

我们来看一个简单的例子，假设词典包含：jin1tian1语音识别过程则"jin天"的词HMM由"j"、"in1"、"t"和"ian1"四个音素HMM串接而成，形成一个完整的模型以进行解码识别。这个解码过程可以找出每个音素的边界信息，即每个音素(包括状态)对应哪些观察值(特征向量)，均可以匹配出来。音素状态与观察值之间的匹配关系用概率值衡量，可以用高斯分布或DNN来描述。从句子到状态序列的分解过程语音识别任务有简单的孤立词识别，也有复杂的连续语音识别，工业应用普遍要求大词汇量连续语音识别(LVCSR)。主流的语音识别系统框架。对输入的语音提取声学特征后，得到一序列的观察值向量，再将它们送到解码器识别，后得到识别结果。解码器一般是基于声学模型、语言模型和发音词典等知识源来识别的，这些知识源可以在识别过程中动态加载，也可以预先编译成统一的静态网络，在识别前一次性加载。发音词典要事先设计好，而声学模型需要由大批量的语音数据(涉及各地口音、不同年龄、性别、语速等方面)训练而成，语言模型则由各种文本语料训练而成。为保证识别效果，每个部分都需要精细的调优，因此对系统研发人员的专业背景有较高的要求。新疆语音识别学习而这也是语音识别技术当前发展比较火热的原因。

传统语音识别系统的发音词典、声学模型和语言模型三大组件被融合为一个E2E模型，直接实现输入语音到输出文本的转换，得到终的识别结果。E2E模型06语音识别开源工具HTK(HMMToolkit)是一个专门用于建立和处理HMM的实验工具包，由剑桥大学的SteveYoung等人开发，非常适合GMM-HMM系统的搭建。Kaldi是一个开源的语音识别工具箱，它是基于C++编写的，可以在Windows和UNIX平台上编译，主要由DanielPovey博士在维护。Kaldi适合DNN-HMM系统(包括Chain模型)的搭建，支持TDNN/TDNN-F等模型。其基于有限状态转换器(FST)进行训练和解码，可用于x-vector等声纹识别系统的搭建。Espnet是一个端到端语音处理工具集，其侧重于端到端语音识别和语音合成。Espnet是使用Python开发的，它将Chainer和Pytorch作为主要的深度学习引擎，并遵循Kaldi风格的数据处理方式，为语音识别和其他语音处理实验提供完整的设置，支持CTC/Attention等模型。07语音识别常用数据库TIMIT——经典的英文语音识别库，其中包含，来自美国8个主要口音地区的630人的语音，每人10句，并包括词和音素级的标注。一条语音的波形图、语谱图和标注。这个库主要用来测试音素识别任务。

亚马逊的Echo音箱刚开始推出的两三年，国内的智能音箱市场还不温不火，不为消费者所接受，因此销量非常有限。但自2017年以来，智能家居逐渐普及，音箱市场开始火热，为抢占语音入口，阿里巴巴、百度、小米、华为等大公司纷纷推出了各自的智能音箱。据Canalys报告，2019年第1季度中国市场智能音箱出货量全球占比51%，超过美国，成为全球*大的智能音箱市场。据奥维云网(AVC)数据显示，2019年上半年中国智能音箱市场销量为1556万台，同比增长233%。随着语音市场的扩大，国内涌现出一批具有强大竞争力的语音公司和研究团队，包括云知声、思必驰、出门问问、声智科技、北科瑞声、天聪智能等。他们推出的语音产品和解决方案主要针对特定场景，如车载导航、智能家居、医院的病历输入、智能客服、会议系统、证券柜台业务等，因为采用深度定制，识别效果和产品体验更佳。在市场上获得了不错的反响。针对智能硬件的离线识别，云知声和思必驰等公司还研发出专门的语音芯片，进一步降低功耗，提高产品的性价比。在国内语音应用突飞猛进的同时，各大公司和研究团队纷纷在国际学术会议和期刊上发表研究成果。2015年，张仕良等人提出了前馈型序列记忆网络。神经网络已经逐渐用于语音识别，例如音素分类，孤立单词识别，视听语音识别、视听说话者识别和说话者适应。

自2015年以来，谷歌、亚马逊、百度等公司陆续开始了对CTC模型的研发和使用，并且都获得了不错的性能提升。2014年，基于Attention(注意力机制)的端到端技术在机器翻译领域中得到了广的应用并取得了较好的实验结果，之后很快被大规模商用。于是，JanChorowski在2015年将Attention的应用扩展到了语音识别领域，结果大放异彩。在近的两年里，有一种称为Seq2Seq(SequencetoSequence)的基于Attention的语音识别模型在学术界引起了极大的关注，相关的研究取得了较大的进展。在加拿大召开的国际智能语音领域的会议ICASSP2018上，谷歌公司发表的研究成果显示，在英语语音识别任务上，基于Attention的Seq2Seq模型表现强劲，它的识别结果已经超越了其他语音识别模型。但Attention模型的对齐关系没有先后顺序的限制，完全靠数据驱动得到，对齐的盲目性会导致训练和解码时间过长。而CTC的前向后向算法可以引导输出序列与输入序列按时间顺序对齐。因此CTC和Attention模型各有优势，可把两者结合起来。构建HybridCTC/Attention模型，并采用多任务学习，以取得更好的效果。2017年，Google和多伦多大学提出一种称为Transformer的全新架构，这种架构在Decoder和Encoder中均采用Attention机制。语音识别是项融多学科知识的前沿技术，覆盖数学与统计学、声学与语言学、计算机与人工智能等基础前沿学科。北京语音识别学习

也被称为自动语音识别技术（ASR)，计算机语音识别或语音到文本（STT)技术。北京语音识别学习

语音识别自半个世纪前诞生以来，一直处于不温不火的状态，直到2009年深度学习技术的长足发展才使得语音识别的精度提高，虽然还无法进行无限制领域、无限制人群的应用，但也在大多数场景中提供了一种便利高效的沟通方式。本篇文章将从技术和产业两个角度来回顾一下语音识别发展的历程和现状，并分析一些未来趋势，希望能帮助更多年轻技术人员了解语音行业，并能产生兴趣投身于这个行业。语音识别，通常称为自动语音识别，英文是AutomaticSpeechRecognition，缩写为ASR，主要是将人类语音中的词汇内容转换为计算机可读的输入，一般都是可以理解的文本内容，也有可能是二进制编码或者字符序列。但是，我们一般理解的语音识别其实都是狭义的语音转文字的过程，简称语音转文本识别（SpeechToText,STT）更合适，这样就能与语音合成(TextToSpeech,TTS)对应起来。语音识别是一项融合多学科知识的前沿技术，覆盖了数学与统计学、声学与语言学、计算机与人工智能等基础学科和前沿学科，是人机自然交互技术中的关键环节。但是，语音识别自诞生以来的半个多世纪，一直没有在实际应用过程得到普遍认可，一方面这与语音识别的技术缺陷有关，其识别精度和速度都达不到实际应用的要求。

北京语音识别学习