编程 Python

梅尔频率倒谱系数（mfcc）及Python实现

Posted in Python onJune 18, 2019

语音识别系统的第一步是进行特征提取，mfcc是描述短时功率谱包络的一种特征，在语音识别系统中被广泛应用。

一、mel滤波器

每一段语音信号被分为多帧，每帧信号都对应一个频谱（通过FFT变换实现），频谱表示频率与信号能量之间的关系。mel滤波器是指多个带通滤波器，在mel频率中带通滤波器的通带是等宽的，但在赫兹（Hertz）频谱内mel滤波器在低频处较密集切通带较窄，高频处较稀疏且通带较宽，旨在通过在较低频率处更具辨别性并且在较高频率处较少辨别性来模拟非线性人类耳朵对声音的感知。

赫兹频率和梅尔频率之间的关系为：

梅尔频率倒谱系数（mfcc）及Python实现

假设在梅尔频谱内，有M 个带通滤波器Hm (k),0≤m<M，每个带通滤波器的中心频率为F(m) F(m)F(m)每个带通滤波器的传递函数为：

梅尔频率倒谱系数（mfcc）及Python实现

下图为赫兹频率内的mel滤波器，带通滤波器个数为24：

梅尔频率倒谱系数（mfcc）及Python实现

二、mfcc特征

MFCC系数提取步骤：

（1）语音信号分帧处理
（2）每一帧傅里叶变换---->功率谱
（3）将短时功率谱通过mel滤波器
（4）滤波器组系数取对数
（5）将滤波器组系数的对数进行离散余弦变换（DCT）
（6）一般将第2到底13个倒谱系数保留作为短时语音信号的特征

Python实现

import wave
import numpy as np
import math
import matplotlib.pyplot as plt
from scipy.fftpack import dct

def read(data_path):
 '''读取语音信号
 '''
 wavepath = data_path
 f = wave.open(wavepath,'rb')
 params = f.getparams()
 nchannels,sampwidth,framerate,nframes = params[:4] #声道数、量化位数、采样频率、采样点数
 str_data = f.readframes(nframes) #读取音频，字符串格式
 f.close()
 wavedata = np.fromstring(str_data,dtype = np.short) #将字符串转化为浮点型数据
 wavedata = wavedata * 1.0 / (max(abs(wavedata))) #wave幅值归一化
 return wavedata,nframes,framerate

def enframe(data,win,inc):
 '''对语音数据进行分帧处理
 input:data(一维array):语音信号
   wlen(int):滑动窗长
   inc(int):窗口每次移动的长度
 output:f(二维array)每次滑动窗内的数据组成的二维array
 '''
 nx = len(data) #语音信号的长度
 try:
  nwin = len(win)
 except Exception as err:
  nwin = 1 
 if nwin == 1:
  wlen = win
 else:
  wlen = nwin
 nf = int(np.fix((nx - wlen) / inc) + 1) #窗口移动的次数
 f = np.zeros((nf,wlen)) #初始化二维数组
 indf = [inc * j for j in range(nf)]
 indf = (np.mat(indf)).T
 inds = np.mat(range(wlen))
 indf_tile = np.tile(indf,wlen)
 inds_tile = np.tile(inds,(nf,1))
 mix_tile = indf_tile + inds_tile
 f = np.zeros((nf,wlen))
 for i in range(nf):
  for j in range(wlen):
   f[i,j] = data[mix_tile[i,j]]
 return f

def point_check(wavedata,win,inc):
 '''语音信号端点检测
 input:wavedata(一维array)：原始语音信号
 output:StartPoint(int):起始端点
   EndPoint(int):终止端点
 '''
 #1.计算短时过零率
 FrameTemp1 = enframe(wavedata[0:-1],win,inc)
 FrameTemp2 = enframe(wavedata[1:],win,inc)
 signs = np.sign(np.multiply(FrameTemp1,FrameTemp2)) # 计算每一位与其相邻的数据是否异号，异号则过零
 signs = list(map(lambda x:[[i,0] [i>0] for i in x],signs))
 signs = list(map(lambda x:[[i,1] [i<0] for i in x], signs))
 diffs = np.sign(abs(FrameTemp1 - FrameTemp2)-0.01)
 diffs = list(map(lambda x:[[i,0] [i<0] for i in x], diffs))
 zcr = list((np.multiply(signs, diffs)).sum(axis = 1))
 #2.计算短时能量
 amp = list((abs(enframe(wavedata,win,inc))).sum(axis = 1))
# # 设置门限
# print('设置门限')
 ZcrLow = max([round(np.mean(zcr)*0.1),3])#过零率低门限
 ZcrHigh = max([round(max(zcr)*0.1),5])#过零率高门限
 AmpLow = min([min(amp)*10,np.mean(amp)*0.2,max(amp)*0.1])#能量低门限
 AmpHigh = max([min(amp)*10,np.mean(amp)*0.2,max(amp)*0.1])#能量高门限
 # 端点检测
 MaxSilence = 8 #最长语音间隙时间
 MinAudio = 16 #最短语音时间
 Status = 0 #状态0:静音段,1:过渡段,2:语音段,3:结束段
 HoldTime = 0 #语音持续时间
 SilenceTime = 0 #语音间隙时间
 print('开始端点检测')
 StartPoint = 0
 for n in range(len(zcr)):
  if Status ==0 or Status == 1:
   if amp[n] > AmpHigh or zcr[n] > ZcrHigh:
    StartPoint = n - HoldTime
    Status = 2
    HoldTime = HoldTime + 1
    SilenceTime = 0
   elif amp[n] > AmpLow or zcr[n] > ZcrLow:
    Status = 1
    HoldTime = HoldTime + 1
   else:
    Status = 0
    HoldTime = 0
  elif Status == 2:
   if amp[n] > AmpLow or zcr[n] > ZcrLow:
    HoldTime = HoldTime + 1
   else:
    SilenceTime = SilenceTime + 1
    if SilenceTime < MaxSilence:
     HoldTime = HoldTime + 1
    elif (HoldTime - SilenceTime) < MinAudio:
     Status = 0
     HoldTime = 0
     SilenceTime = 0
    else:
     Status = 3
  elif Status == 3:
   break
  if Status == 3:
   break
 HoldTime = HoldTime - SilenceTime
 EndPoint = StartPoint + HoldTime
 return FrameTemp1[StartPoint:EndPoint]


def mfcc(FrameK,framerate,win):
 '''提取mfcc参数 
 input:FrameK(二维array):二维分帧语音信号
   framerate:语音采样频率
   win:分帧窗长（FFT点数）
 output:
 '''
 #mel滤波器
 mel_bank,w2 = mel_filter(24,win,framerate,0,0.5)
 FrameK = FrameK.T
 #计算功率谱
 S = abs(np.fft.fft(FrameK,axis = 0)) ** 2
 #将功率谱通过滤波器
 P = np.dot(mel_bank,S[0:w2,:])
 #取对数
 logP = np.log(P)
 #计算DCT系数
# rDCT = 12
# cDCT = 24
# dctcoef = []
# for i in range(1,rDCT+1):
#  tmp = [np.cos((2*j+1)*i*math.pi*1.0/(2.0*cDCT)) for j in range(cDCT)]
#  dctcoef.append(tmp)
# #取对数后做余弦变换 
# D = np.dot(dctcoef,logP)
 num_ceps = 12
 D = dct(logP,type = 2,axis = 0,norm = 'ortho')[1:(num_ceps+1),:]
 return S,mel_bank,P,logP,D
 


def mel_filter(M,N,fs,l,h):
 '''mel滤波器
 input:M(int)：滤波器个数
   N(int)：FFT点数
   fs(int)：采样频率
   l(float)：低频系数
   h(float)：高频系数
 output:melbank(二维array):mel滤波器
 '''
 fl = fs * l #滤波器范围的最低频率
 fh = fs * h #滤波器范围的最高频率
 bl = 1125 * np.log(1 + fl / 700) #将频率转换为mel频率
 bh = 1125 * np.log(1 + fh /700) 
 B = bh - bl #频带宽度
 y = np.linspace(0,B,M+2) #将mel刻度等间距
 print('mel间隔',y)
 Fb = 700 * (np.exp(y / 1125) - 1) #将mel变为HZ
 print(Fb)
 w2 = int(N / 2 + 1)
 df = fs / N
 freq = [] #采样频率值
 for n in range(0,w2):
  freqs = int(n * df)
  freq.append(freqs)
 melbank = np.zeros((M,w2))
 print(freq)
 
 for k in range(1,M+1):
  f1 = Fb[k - 1]
  f2 = Fb[k + 1]
  f0 = Fb[k]
  n1 = np.floor(f1/df)
  n2 = np.floor(f2/df)
  n0 = np.floor(f0/df)
  for i in range(1,w2):
   if i >= n1 and i <= n0:
    melbank[k-1,i] = (i-n1)/(n0-n1)
   if i >= n0 and i <= n2:
    melbank[k-1,i] = (n2-i)/(n2-n0)
  plt.plot(freq,melbank[k-1,:])
 plt.show()
 return melbank,w2

if __name__ == '__main__':
 data_path = 'audio_data.wav'
 win = 256
 inc = 80
 wavedata,nframes,framerate = read(data_path)
 FrameK = point_check(wavedata,win,inc)
 S,mel_bank,P,logP,D = mfcc(FrameK,framerate,win)

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

梅尔频率倒谱系数（mfcc）及Python实现

- Author -

Luqiang_Shi

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

深入浅析Python字符编码

Nov 12 Python

基于python socketserver框架全面解析

Sep 21 Python

python取代netcat过程分析

Feb 10 Python

Python中的单继承与多继承实例分析

May 10 Python

python获取微信小程序手机号并绑定遇到的坑

Nov 19 Python

简单了解django缓存方式及配置

Jul 19 Python

python可视化实现KNN算法

Oct 16 Python

Python基于Webhook实现github自动化部署

Nov 28 Python

聊聊基于pytorch实现Resnet对本地数据集的训练问题

Mar 25 Python

python创建字典及相关管理操作

Apr 13 Python

彻底弄懂Python中的回调函数(callback)

Jun 25 Python

如何基于python实现单目三维重建详解

Jun 25 Python

Python生成一个迭代器的实操方法

Jun 18 #Python

利用anaconda保证64位和32位的python共存

Mar 09 #Python

python获取地震信息微信实时推送

Jun 18 #Python

python实现月食效果实例代码

Jun 18 #Python

详解Python3中setuptools、Pip安装教程

Jun 18 #Python

Python生成指定数量的优惠码实操内容

Jun 18 #Python

python实现文件的备份流程详解

Jun 18 #Python

You might like

关于php内存不够用的快速解决方法

2013/10/26 PHP

在PHP模板引擎smarty生成随机数的方法和math函数详解

2014/04/24 PHP

浅谈php扩展imagick

2014/06/02 PHP

利用PHP将图片转换成base64编码的实现方法

2016/09/13 PHP

全面解析PHP面向对象的三大特征

2017/06/10 PHP

CI框架(CodeIgniter)操作redis的方法详解

2018/01/25 PHP

thinkphp框架实现路由重定义简化url访问地址的方法分析

2020/04/04 PHP

Mootools 1.2教程事件处理

2009/09/15 Javascript

导入extjs、jquery 文件时$使用冲突问题解决方法

2014/01/14 Javascript

jquery实现将获取的颜色值转换为十六进制形式的方法

2014/12/20 Javascript

javascript中键盘事件用法实例分析

2015/01/30 Javascript

充分发挥Node.js程序性能的一些方法介绍

2015/06/23 Javascript

Javascript中indexOf()和lastIndexOf应用方法实例

2016/08/24 Javascript

使用Webpack提升Vue.js应用程序的4种方法（翻译）

2019/10/09 Javascript

微信小程序开发（三）：返回上一级页面并刷新操作示例【页面栈】

2020/06/01 Javascript

python基础教程之对象和类的实际运用

2014/08/29 Python

在树莓派2或树莓派B+上安装Python和OpenCV的教程

2015/03/30 Python

在Python中使用SimpleParse模块进行解析的教程

2015/04/11 Python

Python导出数据到Excel可读取的CSV文件的方法

2015/05/12 Python

在Python中使用成员运算符的示例

2015/05/13 Python

python中字典(Dictionary)用法实例详解

2015/05/30 Python

Python正则表达式如何进行字符串替换实例

2016/12/28 Python

Python 网络爬虫--关于简单的模拟登录实例讲解

2018/06/01 Python

Python用61行代码实现图片像素化的示例代码

2018/12/10 Python

python修改txt文件中的某一项方法

2018/12/29 Python

使用keras实现非线性回归(两种加激活函数的方式)

2020/07/05 Python

python如何变换环境

2020/07/21 Python

如何利用Python 进行边缘检测

2020/10/14 Python

CSS3 文字动画效果

2020/11/12 HTML / CSS

Move Free官方海外旗舰店：美国骨关节健康专业品牌

2017/12/06 全球购物

孝老爱亲模范事迹

2014/01/24 职场文书

追悼会主持词

2014/03/20 职场文书

西部计划志愿者工作总结

2015/08/11 职场文书

mysql的MVCC多版本并发控制的实现

2021/04/14 MySQL

Python万能模板案例之matplotlib绘制甘特图

2022/04/13 Python

VW、VH适配移动端的解决方案与常见问题

2023/05/21 HTML / CSS