编程 Python

使用python实现语音文件的特征提取方法

Posted in Python onJanuary 09, 2019

概述

语音识别是当前人工智能的比较热门的方向，技术也比较成熟，各大公司也相继推出了各自的语音助手机器人，如百度的小度机器人、阿里的天猫精灵等。语音识别算法当前主要是由RNN、LSTM、DNN-HMM等机器学习和深度学习技术做支撑。但训练这些模型的第一步就是将音频文件数据化，提取当中的语音特征。

MP3文件转化为WAV文件

录制音频文件的软件大多数都是以mp3格式输出的，但mp3格式文件对语音的压缩比例较重，因此首先利用ffmpeg将转化为wav原始文件有利于语音特征的提取。其转化代码如下：

from pydub import AudioSegment
import pydub

def MP32WAV(mp3_path,wav_path):
 """
 这是MP3文件转化成WAV文件的函数
 :param mp3_path: MP3文件的地址
 :param wav_path: WAV文件的地址
 """
 pydub.AudioSegment.converter = "D:\\ffmpeg\\bin\\ffmpeg.exe"
 MP3_File = AudioSegment.from_mp3(file=mp3_path)
 MP3_File.export(wav_path,format="wav")

读取WAV语音文件，对语音进行采样

利用wave库对语音文件进行采样。

代码如下：

import wave
import json

def Read_WAV(wav_path):
 """
 这是读取wav文件的函数，音频数据是单通道的。返回json
 :param wav_path: WAV文件的地址
 """
 wav_file = wave.open(wav_path,'r')
 numchannel = wav_file.getnchannels()   # 声道数
 samplewidth = wav_file.getsampwidth()  # 量化位数
 framerate = wav_file.getframerate()  # 采样频率
 numframes = wav_file.getnframes()   # 采样点数
 print("channel", numchannel)
 print("sample_width", samplewidth)
 print("framerate", framerate)
 print("numframes", numframes)
 Wav_Data = wav_file.readframes(numframes)
 Wav_Data = np.fromstring(Wav_Data,dtype=np.int16)
 Wav_Data = Wav_Data*1.0/(max(abs(Wav_Data)))  #对数据进行归一化
 # 生成音频数据,ndarray不能进行json化，必须转化为list，生成JSON
 dict = {"channel":numchannel,
   "samplewidth":samplewidth,
   "framerate":framerate,
   "numframes":numframes,
   "WaveData":list(Wav_Data)}
 return json.dumps(dict)

绘制声波折线图与频谱图

代码如下：

from matplotlib import pyplot as plt

def DrawSpectrum(wav_data,framerate):
 """
 这是画音频的频谱函数
 :param wav_data: 音频数据
 :param framerate: 采样频率
 """
 Time = np.linspace(0,len(wav_data)/framerate*1.0,num=len(wav_data))
 plt.figure(1)
 plt.plot(Time,wav_data)
 plt.grid(True)
 plt.show()
 plt.figure(2)
 Pxx, freqs, bins, im = plt.specgram(wav_data,NFFT=1024,Fs = 16000,noverlap=900)
 plt.show()
 print(Pxx)
 print(freqs)
 print(bins)
 print(im)

首先利用百度AI开发平台的语音合API生成的MP3文件进行上述过程的结果。

声波折线图

使用python实现语音文件的特征提取方法

频谱图

使用python实现语音文件的特征提取方法

全部代码

#!/usr/bin/python3
# -*- coding: utf-8 -*-
# @Time : 2018/7/5 13:11
# @Author : DaiPuwei
# @FileName: VoiceExtract.py
# @Software: PyCharm
# @E-mail ：771830171@qq.com
# @Blog ：https://blog.csdn.net/qq_30091945

import numpy as np
from pydub import AudioSegment
import pydub
import os
import wave
import json
from matplotlib import pyplot as plt

def MP32WAV(mp3_path,wav_path):
 """
 这是MP3文件转化成WAV文件的函数
 :param mp3_path: MP3文件的地址
 :param wav_path: WAV文件的地址
 """
 pydub.AudioSegment.converter = "D:\\ffmpeg\\bin\\ffmpeg.exe"   #说明ffmpeg的地址
 MP3_File = AudioSegment.from_mp3(file=mp3_path)
 MP3_File.export(wav_path,format="wav")

def Read_WAV(wav_path):
 """
 这是读取wav文件的函数，音频数据是单通道的。返回json
 :param wav_path: WAV文件的地址
 """
 wav_file = wave.open(wav_path,'r')
 numchannel = wav_file.getnchannels()   # 声道数
 samplewidth = wav_file.getsampwidth()  # 量化位数
 framerate = wav_file.getframerate()  # 采样频率
 numframes = wav_file.getnframes()   # 采样点数
 print("channel", numchannel)
 print("sample_width", samplewidth)
 print("framerate", framerate)
 print("numframes", numframes)
 Wav_Data = wav_file.readframes(numframes)
 Wav_Data = np.fromstring(Wav_Data,dtype=np.int16)
 Wav_Data = Wav_Data*1.0/(max(abs(Wav_Data)))  #对数据进行归一化
 # 生成音频数据,ndarray不能进行json化，必须转化为list，生成JSON
 dict = {"channel":numchannel,
   "samplewidth":samplewidth,
   "framerate":framerate,
   "numframes":numframes,
   "WaveData":list(Wav_Data)}
 return json.dumps(dict)

def DrawSpectrum(wav_data,framerate):
 """
 这是画音频的频谱函数
 :param wav_data: 音频数据
 :param framerate: 采样频率
 """
 Time = np.linspace(0,len(wav_data)/framerate*1.0,num=len(wav_data))
 plt.figure(1)
 plt.plot(Time,wav_data)
 plt.grid(True)
 plt.show()
 plt.figure(2)
 Pxx, freqs, bins, im = plt.specgram(wav_data,NFFT=1024,Fs = 16000,noverlap=900)
 plt.show()
 print(Pxx)
 print(freqs)
 print(bins)
 print(im)

def run_main():
 """
  这是主函数
 """
 # MP3文件和WAV文件的地址
 path1 = './MP3_File'
 path2 = "./WAV_File"
 paths = os.listdir(path1)
 mp3_paths = []
 # 获取mp3文件的相对地址
 for mp3_path in paths:
  mp3_paths.append(path1+"/"+mp3_path)
 print(mp3_paths)

 # 得到MP3文件对应的WAV文件的相对地址
 wav_paths = []
 for mp3_path in mp3_paths:
  wav_path = path2+"/"+mp3_path[1:].split('.')[0].split('/')[-1]+'.wav'
  wav_paths.append(wav_path)
 print(wav_paths)

 # 将MP3文件转化成WAV文件
 for(mp3_path,wav_path) in zip(mp3_paths,wav_paths):
  MP32WAV(mp3_path,wav_path)
 for wav_path in wav_paths:
  Read_WAV(wav_path)

 # 开始对音频文件进行数据化
 for wav_path in wav_paths:
  wav_json = Read_WAV(wav_path)
  print(wav_json)
  wav = json.loads(wav_json)
  wav_data = np.array(wav['WaveData'])
  framerate = int(wav['framerate'])
  DrawSpectrum(wav_data,framerate)

if __name__ == '__main__':
 run_main()

以上这篇使用python实现语音文件的特征提取方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

使用python实现语音文件的特征提取方法

- Author -

追梦者_AIer

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python实现360的字符显示界面

Feb 21 Python

python正则表达式re模块详细介绍

May 29 Python

CentOS中使用virtualenv搭建python3环境

Jun 08 Python

Python实现对字符串的加密解密方法示例

Apr 29 Python

基于循环神经网络(RNN)实现影评情感分类

Mar 26 Python

python中将一个全部为int的list 转化为str的list方法

Apr 09 Python

python学生信息管理系统（完整版）

Apr 05 Python

一篇文章弄懂Python中所有数组数据类型

Jun 23 Python

详解python中index()、find()方法

Aug 29 Python

浅谈keras保存模型中的save()和save_weights()区别

May 21 Python

用Python制作mini翻译器的实现示例

Aug 17 Python

Python基于argparse与ConfigParser库进行入参解析与ini parser

Feb 02 Python

对python中Librosa的mfcc步骤详解

Jan 09 #Python

Python中的枚举类型示例介绍

Jan 09 #Python

利用python提取wav文件的mfcc方法

Jan 09 #Python

Python Matplotlib库安装与基本作图示例

Jan 09 #Python

对Python使用mfcc的两种方式详解

Jan 09 #Python

Python中的 enum 模块源码详析

Jan 09 #Python

python linecache 处理固定格式文本数据的方法

Jan 08 #Python

You might like

解决GD中文乱码问题

2007/02/14 PHP

php 数组排序 array_multisort与uasort的区别

2011/03/24 PHP

spl_autoload_register与autoload的区别详解

2013/06/03 PHP

ThinkPHP模板IF标签用法详解

2014/07/01 PHP

Apache连接PHP后无法启动问题解决思路

2015/06/18 PHP

ExtJs grid行右键菜单的两种方法

2010/06/19 Javascript

基于JQuery 滑动与动画的说明介绍

2013/04/18 Javascript

为开发者准备的10款最好的jQuery日历插件

2014/02/04 Javascript

js中array的sort()方法使用介绍

2014/02/20 Javascript

javascript 构造函数方式定义对象

2015/01/02 Javascript

JS实现鼠标点击展开或隐藏表格行的方法

2015/03/03 Javascript

JS中的数组方法笔记整理

2016/07/26 Javascript

bootstrap手风琴制作方法详解

2017/01/11 Javascript

AngularJS中filter的使用实例详解

2017/08/25 Javascript

Angular中封装fancyBox(图片预览)遇到问题小结

2017/09/01 Javascript

PM2自动部署代码步骤流程总结

2018/12/10 Javascript

js实现页面多个日期时间倒计时效果

2019/06/20 Javascript

如何在Vue中抽离接口配置文件

2019/10/31 Javascript

json解析大全双引号、键值对不在一起的情况

2019/12/06 Javascript

微信小程序去除左上角返回键的实现方法

2020/03/06 Javascript

Vue Element校验validate的实例

2020/09/21 Javascript

[01:56]林书豪DOTA2上海特级锦标赛励志短片

2016/03/05 DOTA

Python实现telnet服务器的方法

2015/07/10 Python

Django框架中的对象列表视图使用示例

2015/07/21 Python

使用pandas读取csv文件的指定列方法

2018/04/21 Python

详解KMP算法以及python如何实现

2020/09/18 Python

快速一键生成Python爬虫请求头

2021/03/04 Python

HTML5图片预览实例分享

2014/06/04 HTML / CSS

Why do we need Unit test

2013/01/03 面试题

初中美术教学反思

2014/01/29 职场文书

新闻学专业个人求职信写作

2014/02/04 职场文书

软件测试专业推荐信

2014/09/18 职场文书

卖房协议书样本

2014/10/30 职场文书

致短跑运动员加油稿

2015/07/21 职场文书

教师学习中国梦心得体会

2016/01/05 职场文书

Android studio 简单计算器的编写

2022/05/20 Java/Android