首页 > 百科经验 > 休闲娱乐

语音识别原理五分钟就能弄懂

发布日期：2025-10-01 12:25:02 手机：https://m.xinb2b.cn/baike/news19274.html 违规举报

核心提示：1、首先，我们知道声音实际上是一种波。常见的mp3、wmv等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，比如Windows PCM文件，也就是俗称的wav文件。wav文件里存储的除了一个文件头以外，就是声音波形的一个个点了。2、在开

语音识别原理五分钟就能弄懂

1、首先，我们知道声音实际上是一种波。常见的mp3、wmv等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，比如Windows PCM文件，也就是俗称的wav文件。wav文件里存储的除了一个文件头以外，就是声音波形的一个个点了。

2、在开始语音识别之前，有时需要把首尾端的静音切除，降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD，需要用到信号处理的一些技术。

3、每帧的长度为25毫秒，每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。每帧的长度为25毫秒，每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。

4、分帧后，语音就变成了很多小段。但波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取MFCC特征。

5、至此，声音就成了一个12行（假设声学特征是12维）、N列的一个矩阵，称之为观察序列，这里N为总帧数。观察序列如下图所示，图中，每一帧都用一个12维的向量表示，色块的颜色深浅表示向量值的大小。

6、接下来就要介绍怎样把这个矩阵变成文本了。首先要介绍两个概念：音素：单词的发音由音素构成。对英语，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集，参见The CMU Pronouncing Dictionary。

7、语音识别是怎么工作的呢？实际上一点都不神秘，无非是：第一步，把帧识别成状态（难点）；第二步，把状态组合成音素；第三步，把音素组合成单词。

本文地址：https://www.xinb2b.cn/baike/news19274.html，转载请注明出处。

推荐图文

交流电和直流电哪个对	泳池有电吗（游泳游泳
分子和原子哪个大（原	南京适宜种植什么果树

推荐百科经验

关于志愿者的英语作文志愿者英语作文范文

木梨是什么东西（木瓜抗肿瘤作用贮）

新华字典曱甴读音有什么含义呢

核舟记为什么要统计核舟记要统计的原因简述

傻狍子是什么意思傻狍子的含义

芒种是哪一天芒种的气温怎么样

晶体振荡器什么原理啊（晶体振荡谐振精密）

鸡蛋不洗直接煮的坏处是什么（鸡蛋卵黄蛋白质很）

儿童摄影用什么灯（柔光柔和光线摄影）

阿拉斯加幼犬怎么喂养方法阿拉斯加幼犬的喂养方法

牛奶馒头怎样做又松软又好吃松软牛奶馒头的做法步骤

放大电路应遵循得基本原则是甚么（晶体管信号偏置电）

网商贷额度突然降低了（网商贷额度降低7天恢复）

元气骑士中的希望有什么用元气骑士中希望骑士的作用

摇滚的格言（都是音乐摇滚乐摇）

房产如何管理（项目成本目标计划）

板房是什么材料做的板房是啥材料做的

染发膏怎么自制（染发咖啡色材料熟）

把铁钉放入硫酸铜溶液中什么变化（溶液铁钉硫酸铜浅）

怎么吃菠萝减肥如何吃菠萝减肥

对农工民主党的认识（农工党中国农工民）

为什么说隋朝是最富有的朝代（隋朝开皇北周西晋）

介绍一些意大利的顶级服装品牌（意大利那不勒斯乔）

吕岩的简介吕岩资料

冰箱上能放东西吗（冰箱东西很容易上）

怎么蒸饺子不粘锅不破皮（蒸饺蒸笼饺子饺子）

V表示或还是且（命题都是有一个至）

免漆板做推拉门怎样装滑轮推拉门装滑轮步骤

我的世界海岛服务器怎么玩（小麦就可以种植骨）

半身硅胶娃娃买多大的（一米娃娃实体的人）

良好的心态是指什么良好的心态定义

什么地努力填空哪位大哥帮帮我吧（努力填空哪位我吧）

奔三的感慨句子奔三的感慨句子有什么

赫子是什么赫子介绍

65岁老人住院报销标准关于医疗保险的定义

火属于什么形态（内焰外焰火焰燃烧）

周易八卦讲座（「周易登堂」第八讲八卦通河洛）

碳酸钠和磷酸钠哪个碱性强（磷酸钠碱性离子酸）

季羡林在德国留学几年（德国季羡林印度汉）

客厅摆什么替代沙发（客厅沙发装有靠背）

网站首页 | 关于我们 | 联系方式 | 使用协议 | 版权隐私 | 网站地图 | 违规举报 | 蜀ICP备18010318号-4 | 百度地图 |

(c)2008-2022 新新百科网（https://www.xinb2b.cn/） All Rights Reserved

Processed in 0.081 second(s), 80 queries, Memory 0.5 M