python中使用百度音乐搜索的api下载指定歌曲的lrc歌词


Posted in Python onJuly 18, 2014

这次这个真的是干货哦,昨晚弄了半晚上,,,,从8点吃完饭就开始写,一直到了快12点才弄好,,,新手,伤不起呀。。。。
先简单的说下吧,百度提供了一个音乐搜索的api,你想百度请求类似于

http://box.zhangmen.baidu.com/x?op=12&count=1&title=最佳损友$$陈奕迅$$$$

的地址,百度会给你返回一段xml,如下所示

This XML file does not appear to have any style information associated with it. The document tree is shown below.
<result>
<count>1</count>
<url>
<encode>
<![CDATA[
 
http://zhangmenshiting.baidu.com/data2/music/12762845/YmRqamdua21fn6NndK6ap5WXcJlrmG1xlJhobWibmGpjk5ZtmWiZcWRjZ5lqbGyelGKWlZtubGljZ5lka2uanWSXY1qin5t1YWBmZW5ocGlhaWdnbGtqbzE$
 
]]>
</encode>
<decode>
<![CDATA[
12762845.mp3?xcode=e6b69cf593ea22ac9d2b9314e565fc0caf85125f065ce3e0&mid=0.31929107437537
]]>
</decode>
<type>8</type>
<lrcid>2829</lrcid>
<flag>1</flag>
</url>
<durl>
<encode>
<![CDATA[
 
http://zhangmenshiting2.baidu.com/data2/music/7345405/aGVnaWlmbGaeomZzrZmmnJZvmGqXbHCbl2dsZ5qXaWqSlWpsmmdrb2mXamxpbXCclGNsmW2ba25mYmxtapmZcWqTWaGemnRoX2VkbWdvaGhoZmZramluOA$$
 
]]>
</encode>
<decode>
<![CDATA[
7345405.mp3?xcode=e6b69cf593ea22ac78e1478e78479dc19e8e4650995cb99a&mid=0.31929107437537
]]>
</decode>
<type>8</type>
<lrcid>2829</lrcid>
<flag>1</flag>
</durl>
<p2p>
<hash>f98b6772aa97966550ec80617879becee0233bf4</hash>
<url>
<![CDATA[ ]]>
</url>
<type>mp3</type>
<size>3778335</size>
<bitrate>128</bitrate>
</p2p>
</result>

简单的说明下,由于我们要做的只是获取到歌曲的lrc歌词地址,所以有用的只有2829这个标签。
而encode和decode里面的拼接起来就是mp3的下载地址,如本例的

http://zhangmenshiting.baidu.com/data2/music/12762845/YmRqamdua21fn6NndK6ap5WXcJlrmG1xlJhobWibmGpjk5ZtmWiZcWRjZ5lqbGyelGKWlZtubGljZ5lka2uanWSXY1qin5t1YWBmZW5ocGlhaWdnbGtqbzE$12762845.mp3?xcode=e6b69cf593ea22ac9d2b9314e565fc0caf85125f065ce3e0&mid=0.31929107437537

就是下载地址,不过音质太差,有时间在研究下这个。
继续说歌词,注意lrcid标签里面的2829
http://box.zhangmen.baidu.com/bdlrc/ 这个是百度lrc歌词存放地址,
然后本例的歌词地址是http://box.zhangmen.baidu.com/bdlrc/28/2829.lrc
看到了吧,歌词地址后面的两个数字的计算方法是在lrcid除以100所获得的整数,就是第一个数字,然后第二个数字就是lrcid,然后后面加上后缀.lrc就搞定了
获得lrc地址之后就简单了,只要请求该地址,然后将获取到的内容写入文件就ok了。
好了,大概就是这样,下面是代码:

import os
import os.path
import re
import eyed3
import urllib2
import urllib
from urllib import urlencode
import sys
 
import os
reload(sys)
sys.setdefaultencoding('utf8')
 
music_path = r"E:\music"
lrc_path = r"e:\lrc"
 
os.remove('nolrc.txt')
os.remove('lrcxml.txt')
 
the_file = open('lrcxml.txt','a')
nolrc_file = open('nolrc.txt','a')
 
for root,dirs,files in os.walk(music_path):
 for filepath in files:
 the_path = os.path.join(root,filepath)
 if (the_path.find("mp3") != -1):
  print the_path
  the_music = eyed3.load(the_path)
  the_teg = the_music.tag._getAlbum()
  the_artist = the_music.tag._getArtist()
  the_title = the_music.tag._getTitle()
  # print the_teg
  # print the_title
  # print the_artist
  b = the_title.replace(' ','+')
  # print b
  a = the_artist.replace(' ','+')
  #print urlencode(str(b))
  if isinstance(a,unicode):
  a = a.encode('utf8')
  song_url = "http://box.zhangmen.baidu.com/x?op=12&count=1&title="+b+"$$"+a+"$$$$ "
  
  the_file.write(song_url+'\n')
  page = urllib2.urlopen(song_url).read()
  print page
  theid = 0
  
  lrcid = re.compile('<lrcid>(.*?)</lrcid>',re.S).findall(page)
  have_lrc = True
  if lrcid != []:
  theid = lrcid[0]
   
  else:
  nolrc_file.write(the_title+'\n')
  have_lrc = False
  print theid
  
  
  if have_lrc:
  firstid = int(theid)/100
  lrcurl = "http://box.zhangmen.baidu.com/bdlrc/"+str(firstid)+"/"+theid+".lrc"
  print lrcurl
  lrc = urllib2.urlopen(lrcurl).read()
  if(lrc.find('html')== -1):
   lrcfile = open(lrc_path+"\\"+the_title+".lrc",'w')
   lrcfile.writelines(lrc)
   lrcfile.close()
  else:
   nolrc_file.write(the_title+'\n')
   
the_file.close()
nolrc_file.close()
print "end!"

有用第一步请求所获取到底是xml格式的,所以本来想着解析xml来获取lrcid,但是在实现过程中遇到了各种问题,别的还容易,就在这一块儿浪费的时间最长,纠结未果之后,只能改用正则表达式来获取了。。。只能说明还是学艺不精呢

原文:逝去日子的博客 » 使用python扫描本地音乐并下载歌词

Python 相关文章推荐
python 随机数生成的代码的详细分析
May 15 Python
利用python实现简单的邮件发送客户端示例
Dec 23 Python
scrapy爬虫完整实例
Jan 25 Python
python实现俄罗斯方块
Jun 26 Python
python贪吃蛇游戏代码
Apr 18 Python
在python image 中安装中文字体的实现方法
Aug 22 Python
Python用input输入列表的实例代码
Feb 07 Python
pycharm实现在子类中添加一个父类没有的属性
Mar 12 Python
Python中的整除和取模实例
Jun 03 Python
Django:使用filter的pk进行多值查询操作
Jul 15 Python
Windows下PyCharm配置Anaconda环境(超详细教程)
Jul 31 Python
Django数据统计功能count()的使用
Nov 30 Python
python采集博客中上传的QQ截图文件
Jul 18 #Python
Python下singleton模式的实现方法
Jul 16 #Python
python的迭代器与生成器实例详解
Jul 16 #Python
Python的内存泄漏及gc模块的使用分析
Jul 16 #Python
Python的垃圾回收机制深入分析
Jul 16 #Python
python中将字典转换成其json字符串
Jul 16 #Python
记录Django开发心得
Jul 16 #Python
You might like
PHP以及MYSQL日期比较方法
2012/11/29 PHP
php不用正则验证真假身份证
2013/11/06 PHP
PHP不用递归实现无限分级的例子分享
2014/04/18 PHP
Thinkphp和onethink实现微信支付插件
2016/04/13 PHP
如何让您的中波更粗更长 - 中波框形天线制作
2021/03/10 无线电
javascript动态加载实现方法一
2012/08/22 Javascript
javascript使用百度地图api和html5特性获取浏览器位置
2014/01/10 Javascript
js字符串完全替换函数分享
2014/12/03 Javascript
jquery结合CSS使用validate实现漂亮的验证
2015/01/29 Javascript
javascript处理a标签超链接默认事件的方法
2015/06/29 Javascript
基于React.js实现原生js拖拽效果引发的思考
2016/03/30 Javascript
Ionic如何实现下拉刷新与上拉加载功能
2016/06/03 Javascript
Node.js连接postgreSQL并进行数据操作
2016/12/18 Javascript
Javascript Event(事件)的传播与冒泡
2017/01/23 Javascript
微信小程序 开发之全局配置
2017/05/05 Javascript
详解vue2父组件传递props异步数据到子组件的问题
2017/06/29 Javascript
详解vue.js移动端导航navigationbar的封装
2017/07/05 Javascript
vue 打包后的文件部署到express服务器上的方法
2017/08/09 Javascript
Js通过AES加密后PHP用Openssl解密的方法
2019/07/12 Javascript
javascript利用canvas实现鼠标拖拽功能
2020/07/23 Javascript
使用TS来编写express服务器的方法步骤
2020/10/29 Javascript
Python unittest模块用法实例分析
2018/05/25 Python
使用pandas将numpy中的数组数据保存到csv文件的方法
2018/06/14 Python
基于python实现聊天室程序
2018/07/27 Python
通过python实现随机交换礼物程序详解
2019/07/10 Python
Python动态导入模块和反射机制详解
2020/02/18 Python
使用python计算三角形的斜边例子
2020/04/15 Python
python mysql自增字段AUTO_INCREMENT值的修改方式
2020/05/18 Python
Haggar官网:美国男装品牌
2020/02/16 全球购物
应届生程序员求职信
2013/11/05 职场文书
初一体育教学反思
2014/01/29 职场文书
雷人标语集锦
2014/06/19 职场文书
社团活动总结模板
2014/06/30 职场文书
幼儿园五一劳动节活动总结
2015/02/09 职场文书
2015年中学图书馆工作总结
2015/07/22 职场文书
MySQL 全文索引使用指南
2021/05/25 MySQL