编程 Python

python调用百度语音识别实现大音频文件语音识别功能

Posted in Python onAugust 30, 2018

本文为大家分享了python实现大音频文件语音识别功能的具体代码，供大家参考，具体内容如下

实现思路：先用ffmpeg将其他非wav格式的音频转换为wav格式，并转换音频的声道（百度支持声道为1），采样率（值为8000），格式转换完成后，再用ffmpeg将音频切成百度。

支持的时长（30秒和60秒2种，本程序用的是30秒）。

# coding: utf-8
import json
import time
import base64
from inc import rtysdb
import urllib2
import requests
import os
import uuid
from inc import db_config
 
 
class BaiduRest:
  def __init__(self, cu_id, api_key, api_secert):
    self.token_url = "https://openapi.baidu.com/oauth/2.0/token?grant_type=client_credentials&client_id=%s&client_secret=%s"
    self.getvoice_url = "http://tsn.baidu.com/text2audio?tex=%s&lan=zh&cuid=%s&ctp=1&tok=%s"
    self.upvoice_url = 'http://vop.baidu.com/server_api'
 
    self.cu_id = cu_id
    self.get_token(api_key, api_secert)
    return
 
  def get_token(self, api_key, api_secert):
    token_url = self.token_url % (api_key, api_secert)
    r_str = urllib2.urlopen(token_url).read()
    token_data = json.loads(r_str)
    self.token_str = token_data['access_token']
    return True
 
  # 语音合成
  def text2audio(self, text, filename):
    get_url = self.getvoice_url % (urllib2.quote(text), self.cu_id, self.token_str)
    voice_data = urllib2.urlopen(get_url).read()
    voice_fp = open(filename, 'wb+')
    voice_fp.write(voice_data)
    voice_fp.close()
    return True
 
  ##语音识别
  def audio2text(self, filename):
    data = {}
    data['format'] = 'wav'
    data['rate'] = 8000
    data['channel'] = 1
    data['cuid'] = self.cu_id
    data['token'] = self.token_str
 
    wav_fp = open(filename, 'rb')
    voice_data = wav_fp.read()
    data['len'] = len(voice_data)
    # data['speech'] = base64.b64encode(voice_data).decode('utf-8')
    data['speech'] = base64.b64encode(voice_data).replace('\n', '')
    # post_data = json.dumps(data)
    result = requests.post(self.upvoice_url, json=data, headers={'Content-Type': 'application/json'})
    data_result = result.json()
    if(data_result['err_msg'] == 'success.'):
      return data_result['result'][0]
    else:
      return False
 
 
 
def test_voice(voice_file):
  api_key = "vossGHIgEETS6IMRxBDeahv8"
  api_secert = "3c1fe6a6312f41fa21fa2c394dad5510"
  bdr = BaiduRest("0-57-7B-9F-1F-A1", api_key, api_secert)
 
  # 生成
  #start = time.time()
  #bdr.text2audio("你好啊", "out.wav")
  #using = time.time() - start
  #print using
 
  # 识别
  #start = time.time()
  result = bdr.audio2text(voice_file)
  # result = bdr.audio2text("weather.pcm")
  #using = time.time() - start
  return result
 
def get_master_audio(check_status='cut_status'):
  if check_status == 'cut_status':
    sql = "SELECT id,url, time_long,sharps FROM ocenter_recognition WHERE status=0"
  elif check_status == 'finished_status':
    sql = "SELECT id,url, time_long,sharps FROM ocenter_recognition WHERE finished_status=0"
  else:
    return False
  data = rtysdb.select_data(sql,'more')
  if data:
    return data
  else:
    return False
 
 
def go_recognize(master_id):
  section_path = db_config.SYS_PATH
  sql = "SELECT id,rid,url,status FROM ocenter_section WHERE rid=%d AND status=0 order by id asc limit 10" % (master_id)
  #print sql
  record = rtysdb.select_data(sql,'more')
  #print record
  if not record:
    return False
  for rec in record:
    #print section_path+'/'+rec[1]
    voice_file = section_path+'/'+rec[2]
    if not os.path.exists(voice_file):
      continue
    result = test_voice(voice_file)
    print result
    exit(0)
    if result:
      #rtysdb.update_by_pk('ocenter_section',rec[0],{'content':result,'status':1})
      sql = "update ocenter_section set content='%s', status='%d' where id=%d" % (result,1,rec[0])      #print sql
      rtysdb.do_exec_sql(sql)
      parent_content = rtysdb.select_data("SELECT id,content FROM ocenter_recognition WHERE id=%d" % (rec[1]))
      #print parent_content
      if parent_content:
        new_content = parent_content[1]+result
        update_content_sql = "update ocenter_recognition set content='%s' where id=%d" % (new_content,rec[1])
        rtysdb.do_exec_sql(update_content_sql)
    else:
      rtysdb.do_exec_sql("update ocenter_section set status='%d' where id=%d" % (result,1,rec[0]))
    time.sleep(5)
  else:
    rtysdb.do_exec_sql("UPDATE ocenter_recognition SET finished_status=1 WHERE id=%d" % (master_id))
#对百度语音识别不了的音频文件进行转换
def ffmpeg_convert():
  section_path = db_config.SYS_PATH
  #print section_path
  used_audio = get_master_audio('cut_status')
  #print used_audio
  if used_audio:
    for audio in used_audio:
      audio_path = section_path+'/'+audio[1]
      new_audio = uuid.uuid1()
      command_line = "ffmpeg -i "+audio_path +" -ar 8000 -ac 1 -f wav "+section_path+"/Uploads/Convert/convert_" + str(new_audio) +".wav";
      #print command_line
      os.popen(command_line)
      if os.path.exists(section_path+"/Uploads/Convert/convert_" + str(new_audio) +".wav"):
        convert_name = "Uploads/Convert/convert_" + str(new_audio) +".wav"
        ffmpeg_cut(convert_name,audio[3],audio[0])
        sql = "UPDATE ocenter_recognition SET status=1,convert_name='%s' where id=%d" % (convert_name,audio[0])
        rtysdb.do_exec_sql(sql)
#将大音频文件切成碎片
def ffmpeg_cut(convert_name,sharps,master_id):
  section_path = db_config.SYS_PATH
  if sharps>0:
    for i in range(0,sharps):
      timeArray = time.localtime(i*30)
      h = time.strftime("%H", timeArray)
      h = int(h) - 8
      h = "0" + str(h)
      ms = time.strftime("%M:%S",timeArray)
      start_time = h+':'+str(ms)
      cut_name = section_path+'/'+convert_name
      db_store_name = "Uploads/Section/"+str(uuid.uuid1())+'-'+str(i+1)+".wav"
      section_name = section_path+"/"+db_store_name
      command_line = "ffmpeg.exe -i "+cut_name+" -vn -acodec copy -ss "+start_time+" -t 00:00:30 "+section_name
      #print command_line
      os.popen(command_line)
      data = {}
      data['rid'] = master_id
      data['url'] = db_store_name
      data['create_time'] = int(time.time())
      data['status'] = 0
      rtysdb.insert_one('ocenter_section',data)
 
if __name__ == "__main__":
  ffmpeg_convert()
  audio = get_master_audio('finished_status')
  if audio:
     for ad in audio:
      go_recognize(ad[0])

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python调用百度语音识别实现大音频文件语音识别功能

- Author -

septwolves2015

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python使用PyGame播放Midi和Mp3文件的方法

Apr 24 Python

利用Python的装饰器解决Bottle框架中用户验证问题

Apr 24 Python

Python生成随机密码的方法

Jun 16 Python

Python 逐行分割大txt文件的方法

Oct 10 Python

对numpy中shape的深入理解

Jun 15 Python

Python 获取ftp服务器文件时间的方法

Jul 02 Python

Python 使用多属性来进行排序

Sep 01 Python

JupyterNotebook设置Python环境的方法步骤

Dec 03 Python

python 使用shutil复制图片的例子

Dec 13 Python

Pytorch 解决自定义子Module .cuda() tensor失败的问题

Jun 23 Python

Python eval函数介绍及用法

Nov 09 Python

python中re模块知识点总结

Jan 17 Python

python的中异常处理机制

Aug 30 #Python

python调用百度REST API实现语音识别

Aug 30 #Python

python调用百度语音REST API

Aug 30 #Python

python调用百度语音识别api

Aug 30 #Python

python实现ID3决策树算法

Aug 29 #Python

python实现C4.5决策树算法

Aug 29 #Python

python机器学习之KNN分类算法

Aug 29 #Python

You might like

DC最新动画电影：《战争之子》为何内容偏激，毁了一个不错的漫画

2020/04/09 欧美动漫

如何获得PHP相关资料

2006/10/09 PHP

PHP insert语法详解

2008/06/07 PHP

无法载入 mcrypt 扩展,请检查 PHP 配置终极解决方案

2011/07/18 PHP

ini_set的用法介绍

2014/01/07 PHP

详解 PHP加密解密字符串函数附源码下载

2015/12/18 PHP

PHP is_array() 检测变量是否是数组的实现方法

2016/06/13 PHP

深入学习微信网址链接解封的防封原理visit_type

2019/08/15 PHP

JS下高效拼装字符串的几种方法比较与测试代码

2010/04/15 Javascript

JavaScript动态创建link标签到head里的方法

2014/12/22 Javascript

深入解析AngularJS框架中$scope的作用与生命周期

2016/03/05 Javascript

JS组件Bootstrap dropdown组件扩展hover事件

2016/04/17 Javascript

AngularJS控制器继承自另一控制器

2016/05/09 Javascript

Javascript 获取鼠标当前的位置实现方法

2016/10/27 Javascript

JavaScript轻松创建级联函数的方法示例

2017/02/10 Javascript

nodejs密码加密中生成随机数的实例代码

2017/07/17 NodeJs

基于JavaScript实现微信抢红包功能

2017/07/20 Javascript

jQuery Easyui Treegrid实现显示checkbox功能

2017/08/08 jQuery

vue-router中scrollBehavior的巧妙用法

2018/07/09 Javascript

关于微信小程序登录的那些事

2019/01/08 Javascript

浅谈React Native 传参的几种方式(小结)

2019/05/21 Javascript

Element中Slider滑块的具体使用

2020/07/29 Javascript

Python数据结构与算法之图的广度优先与深度优先搜索算法示例

2017/12/14 Python

python实现随机漫步算法

2018/08/27 Python

python 去除二维数组/二维列表中的重复行方法

2019/01/23 Python

python使用PyQt5的简单方法

2019/02/27 Python

python 下 CMake 安装配置 OPENCV 4.1.1的方法

2019/09/30 Python

python list数据等间隔抽取并新建list存储的例子

2019/11/27 Python

在Python中预先初始化列表内容和长度的实现

2019/11/28 Python

解决python调用自己文件函数/执行函数找不到包问题

2020/06/01 Python

美国维生素、补充剂、保健食品购物网站：Vitacost

2016/08/05 全球购物

乔丹诺(Giordano)酒庄德国官网：找到最好的意大利葡萄酒

2017/12/28 全球购物

《在山的那边》教学反思

2014/02/23 职场文书

幼儿园儿童节活动主持词+串词大全

2014/03/21 职场文书

初中生操行评语大全

2014/04/24 职场文书

和睦家庭事迹

2014/05/14 职场文书