编程 Python

详解python的webrtc库实现语音端点检测

Posted in Python onMay 31, 2017

引言

语音端点检测最早应用于电话传输和检测系统当中,用于通信信道的时间分配,提高传输线路的利用效率.端点检测属于语音处理系统的前端操作,在语音检测领域意义重大.

但是目前的语音端点检测,尤其是检测人声开始和结束的端点始终是属于技术难点,各家公司始终处于能判断,但是不敢保证判别准确性的阶段.

现在基于云端语义库的聊天机器人层出不穷,其中最著名的当属amazon的 Alexa/Echo 智能音箱.

详解python的webrtc库实现语音端点检测

国内如雨后春笋般出现了各种搭载语音聊天的智能音箱(如前几天在知乎上广告的若琪机器人)和各类智能机器人产品.国内语音服务提供商主要面对中文语音服务,由于语音不像图像有分辨率等等较为客观的指标,很多时候凭主观判断,所以较难判断各家语音识别和合成技术的好坏.但是我个人认为,国内的中文语音服务和国外的英文语音服务,在某些方面已经有超越的趋势.

详解python的webrtc库实现语音端点检测

通常搭建机器人聊天系统主要包括以下三个方面:

语音转文字(ASR/STT)
语义内容(NLU/NLP)
文字转语音(TTS)

语音转文字(ASR/STT)

在将语音传给云端API之前,是本地前端的语音采集,这部分主要包括如下几个方面:

麦克风降噪
声源定位
回声消除
唤醒词
语音端点检测
音频格式压缩

python 端点检测

由于实际应用中,单纯依靠能量检测特征检测等方法很难判断人声说话的起始点,所以市面上大多数的语音产品都是使用唤醒词判断语音起始.另外加上声音回路,还可以做语音打断.这样的交互方式可能有些傻,每次必须喊一下唤醒词才能继续聊天.这种方式聊多了,个人感觉会嘴巴疼:-O .现在github上有snowboy唤醒词的开源库,大家可以登录snowboy官网训练自己的唤醒词模型.

Kitt-AI : Snowboy
Sensory : Sensory

考虑到用唤醒词嘴巴会累,所以大致调研了一下,Python拥有丰富的库,直接import就能食用.这种方式容易受强噪声干扰,适合一个人在家玩玩.

pyaudio: pip install pyaudio 可以从设备节点读取原始音频流数据,音频编码是PCM格式;
webrtcvad: pip install webrtcvad 检测判断一组语音数据是否为空语音;

当检测到持续时间长度 T1 vad检测都有语音活动,可以判定为语音起始;

当检测到持续时间长度 T2 vad检测都没有有语音活动,可以判定为语音结束;

完整程序代码可以从我的github下载

程序很简单,相信看一会儿就明白了

'''
Requirements:
+ pyaudio - `pip install pyaudio`
+ py-webrtcvad - `pip install webrtcvad`
'''
import webrtcvad
import collections
import sys
import signal
import pyaudio

from array import array
from struct import pack
import wave
import time

FORMAT = pyaudio.paInt16
CHANNELS = 1
RATE = 16000
CHUNK_DURATION_MS = 30    # supports 10, 20 and 30 (ms)
PADDING_DURATION_MS = 1500  # 1 sec jugement
CHUNK_SIZE = int(RATE CHUNK_DURATION_MS / 1000) # chunk to read
CHUNK_BYTES = CHUNK_SIZE 2 # 16bit = 2 bytes, PCM
NUM_PADDING_CHUNKS = int(PADDING_DURATION_MS / CHUNK_DURATION_MS)
# NUM_WINDOW_CHUNKS = int(240 / CHUNK_DURATION_MS)
NUM_WINDOW_CHUNKS = int(400 / CHUNK_DURATION_MS) # 400 ms/ 30ms ge
NUM_WINDOW_CHUNKS_END = NUM_WINDOW_CHUNKS 2

START_OFFSET = int(NUM_WINDOW_CHUNKS CHUNK_DURATION_MS 0.5 RATE)

vad = webrtcvad.Vad(1)

pa = pyaudio.PyAudio()
stream = pa.open(format=FORMAT,
         channels=CHANNELS,
         rate=RATE,
         input=True,
         start=False,
         # input_device_index=2,
         frames_per_buffer=CHUNK_SIZE)


got_a_sentence = False
leave = False


def handle_int(sig, chunk):
  global leave, got_a_sentence
  leave = True
  got_a_sentence = True


def record_to_file(path, data, sample_width):
  "Records from the microphone and outputs the resulting data to 'path'"
  # sample_width, data = record()
  data = pack('<' + ('h' len(data)), data)
  wf = wave.open(path, 'wb')
  wf.setnchannels(1)
  wf.setsampwidth(sample_width)
  wf.setframerate(RATE)
  wf.writeframes(data)
  wf.close()


def normalize(snd_data):
  "Average the volume out"
  MAXIMUM = 32767 # 16384
  times = float(MAXIMUM) / max(abs(i) for i in snd_data)
  r = array('h')
  for i in snd_data:
    r.append(int(i times))
  return r

signal.signal(signal.SIGINT, handle_int)

while not leave:
  ring_buffer = collections.deque(maxlen=NUM_PADDING_CHUNKS)
  triggered = False
  voiced_frames = []
  ring_buffer_flags = [0] NUM_WINDOW_CHUNKS
  ring_buffer_index = 0

  ring_buffer_flags_end = [0] NUM_WINDOW_CHUNKS_END
  ring_buffer_index_end = 0
  buffer_in = ''
  # WangS
  raw_data = array('h')
  index = 0
  start_point = 0
  StartTime = time.time()
  print(" recording: ")
  stream.start_stream()

  while not got_a_sentence and not leave:
    chunk = stream.read(CHUNK_SIZE)
    # add WangS
    raw_data.extend(array('h', chunk))
    index += CHUNK_SIZE
    TimeUse = time.time() - StartTime

    active = vad.is_speech(chunk, RATE)

    sys.stdout.write('1' if active else '_')
    ring_buffer_flags[ring_buffer_index] = 1 if active else 0
    ring_buffer_index += 1
    ring_buffer_index %= NUM_WINDOW_CHUNKS

    ring_buffer_flags_end[ring_buffer_index_end] = 1 if active else 0
    ring_buffer_index_end += 1
    ring_buffer_index_end %= NUM_WINDOW_CHUNKS_END

    # start point detection
    if not triggered:
      ring_buffer.append(chunk)
      num_voiced = sum(ring_buffer_flags)
      if num_voiced > 0.8 NUM_WINDOW_CHUNKS:
        sys.stdout.write(' Open ')
        triggered = True
        start_point = index - CHUNK_SIZE 20 # start point
        # voiced_frames.extend(ring_buffer)
        ring_buffer.clear()
    # end point detection
    else:
      # voiced_frames.append(chunk)
      ring_buffer.append(chunk)
      num_unvoiced = NUM_WINDOW_CHUNKS_END - sum(ring_buffer_flags_end)
      if num_unvoiced > 0.90 NUM_WINDOW_CHUNKS_END or TimeUse > 10:
        sys.stdout.write(' Close ')
        triggered = False
        got_a_sentence = True

    sys.stdout.flush()

  sys.stdout.write('\n')
  # data = b''.join(voiced_frames)

  stream.stop_stream()
  print(" done recording")
  got_a_sentence = False

  # write to file
  raw_data.reverse()
  for index in range(start_point):
    raw_data.pop()
  raw_data.reverse()
  raw_data = normalize(raw_data)
  record_to_file("recording.wav", raw_data, 2)
  leave = True

stream.close()

程序运行方式sudo python vad.py

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

详解python的webrtc库实现语音端点检测

- Author -

舒林笑笑生

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python模拟鼠标拖动操作的方法

Mar 11 Python

python中函数传参详解

Jul 03 Python

Python打包可执行文件的方法详解

Sep 19 Python

Python ldap实现登录实例代码

Sep 30 Python

Python实现读取txt文件并转换为excel的方法示例

May 17 Python

python 提取tuple类型值中json格式的key值方法

Dec 31 Python

Python虚拟环境的原理及使用详解

Jul 02 Python

Python的形参和实参使用方式

Dec 24 Python

基于Python把网站域名解析成ip地址

May 25 Python

windows下python 3.9 Numpy scipy和matlabplot的安装教程详解

Nov 28 Python

python实现黄金分割法的示例代码

Apr 28 Python

Elasticsearch 基本查询和组合查询

Apr 19 Python

python实现决策树C4.5算法详解(在ID3基础上改进)

May 31 #Python

基于ID3决策树算法的实现(Python版)

May 31 #Python

Python基础知识_浅谈用户交互

May 31 #Python

python数据类型_字符串常用操作(详解)

May 30 #Python

python数据类型_元组、字典常用操作方法(介绍)

May 30 #Python

node.js获取参数的常用方法(总结)

May 29 #Python

老生常谈python函数参数的区别(必看篇)

May 29 #Python

You might like

phpMyAdmin 安装教程全攻略

2007/03/19 PHP

PHP+memcache实现消息队列案例分享

2014/05/21 PHP

php目录遍历函数opendir用法实例

2014/11/20 PHP

laravel容器延迟加载以及auth扩展详解

2015/03/02 PHP

javascript中获取选中对象的类型

2007/04/02 Javascript

javascript+css 网页每次加载不同样式的实现方法

2009/12/27 Javascript

Dom 学习总结以及实例的使用介绍

2013/04/24 Javascript

js计算两个时间之间天数差的实例代码

2013/11/19 Javascript

JS实现动态移动层及拖动浮层关闭的方法

2015/04/30 Javascript

jQuery横向擦除焦点图特效代码分享

2015/09/06 Javascript

jquery实现定时自动轮播特效

2015/12/10 Javascript

js+canvas绘制矩形的方法

2016/01/28 Javascript

BootStrap使用popover插件实现鼠标经过显示并保持显示框

2016/06/23 Javascript

浅谈angularjs $http提交数据探索

2017/01/20 Javascript

js 监控iframe URL的变化实例代码

2017/07/12 Javascript

基于jQuery实现定位导航位置效果

2017/11/15 jQuery

关于js对textarea换行符的处理方法浅析

2018/08/03 Javascript

JS实现自定义弹窗功能

2018/08/08 Javascript

Vuex新手的理解与使用详解

2019/05/31 Javascript

JS实现手写 forEach算法示例

2020/04/29 Javascript

Python read函数按字节(字符)读取文件的实现

2019/07/03 Python

python实现的按要求生成手机号功能示例

2019/10/08 Python

10行Python代码计算汽车数量的实现方法

2019/10/23 Python

HTML5页面中尝试调起APP功能

2017/09/12 HTML / CSS

记一次高分屏下canvas模糊问题

2020/02/17 HTML / CSS

美国知名男士服饰品牌：Brooks Brothers（布克兄弟）

2016/08/25 全球购物

微软英国官方网站：Microsoft英国

2016/10/15 全球购物

手工制作的豪华英式沙发和沙发床：Willow & Hall

2019/05/03 全球购物

2014年消防工作实施方案

2014/02/20 职场文书

优秀毕业生推荐信范文

2014/03/07 职场文书

机械制造专业大学生自我鉴定

2014/09/19 职场文书

2014乡镇党委副书记对照检查材料思想汇报

2014/10/09 职场文书

见习报告的格式

2014/10/31 职场文书

2015年技术员工作总结

2015/04/10 职场文书

格列佛游记读书笔记

2015/06/30 职场文书

军训通讯稿范文

2015/07/18 职场文书