智呼云 - ASR自动语音识别理论介绍

ASR自动语音识别理论介绍

AIASR

自动语音识别技术是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。

自动语音识别(Automatic Speech Recognition 简称“ASR“),技术的目标是让计算机能够“听写”出不同人所说出的连续语音，也就是俗称的“语音听写机”，是实现“声音”到“文字”转换的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。

语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。它是语音信号处理学科的一个分支。

语音识别系统的性能大致取决于以下4类因素：
1. 识别词汇表的大小和语音的复杂性；
2. 语音信号的质量；
3. 单个说话人还是多说话人；
4. 硬件。

分类
自动语音识别通常有以下几种分类方法：
（1）按系统的用户情况分：特定人和非特定人识别系统；
（2）按系统词汇量分：小词汇量、中词汇量和大词汇量系统；
（3）按语音的输入方式分：孤立词、连接词、连续语音系统等；
（4）按输入语音的发音方式分：朗读式、口语（自然发音）式；
（5）按输入语音的方言背景情况分：普通话、方言背景普通话、方言语音识别系统；
（6）按输入语音的情感状态分；中性语音、情感语音识别系统。

基本原理
训练（Training）：预先分析出语音特征参数，制作语音模板，并存放在语音参数库中。
识别（Recognition）：待识语音经过与训练时相同的分析，得到语音参数。将它与库中的参考模板一一比较，并采用判决的方法找出最接近语音特征的模板，得出识别结果。
失真测度（Distortion Measures）：在进行比较时要有个标准，这就是计量语音特征参数矢量之间的“失真测度”。
主要识别框架：基于模式匹配的动态时间规整法（DTW）和基于统计模型的隐马尔可夫模型法（HMM）。

关注我们

蜀ICP备2023001696号-1

川公网安备51019002006794号增值电信业务经营许可证B2-20195060

本网站涉及的“智呼云”、“智呼”、“zcallr”文字及图形均为智呼云通信股份有限公司持有的商标，授权智呼云成员企业使用。本网站向消费者推销产品或者服务的商业宣传均属于广告。

网站问题反馈内部网址导航

北京 · 上海 · 深圳 · 广州 · 苏州 · 杭州 · 成都 · 重庆 · 西安 · 总部（成都）

智呼云（北京）通信技术有限公司
北京市经济技术开发区中和街16号6号楼3层3011
zcallr010@zcallr.com智呼云（上海）通信技术有限公司
上海市奉贤区金碧路1990号1层1021号
zcallr021@zcallr.com智呼云（深圳）通信技术有限公司
深圳市福田区民田路178号华融大厦2409
zcallr0755@zcallr.com智呼云（广州）通信技术有限公司
广州市天河区天河北路179号902房
zcallr020@zcallr.com智呼云（苏州）通信技术有限公司
苏州市姑苏区平泷路251号苏州城市生活广场1栋1211号
zcallr0512@zcallr.com智呼云（杭州）通信技术有限公司
杭州市滨江区滨文路426号岩大房文苑大厦20楼
zcallr0571@zcallr.com智呼云（成都）通信技术有限公司
成都市高新区益州大道588号智地哥谭1栋2110号
zcallr028@zcallr.com智呼云（重庆）通信技术有限公司
重庆市江北区建新东路7号聚丰纵横国际1902号
zcallr023@zcallr.com智呼云（西安）通信技术有限公司
西安市高新区高新路8号丽华科技大厦20楼2010室
zcallr029@zcallr.com智呼云通信股份有限公司
成都市高新区益州大道588号智地哥谭1栋2110号
head@zcallr.com

: 在线咨询

: 联系方式