编程 Python

python爬虫线程池案例详解(梨视频短视频爬取)

Posted in Python onFebruary 20, 2021

python爬虫-梨视频短视频爬取(线程池)

示例代码

import requests
from lxml import etree
import random
from multiprocessing.dummy import Pool


# 多进程要传的方法，多进程pool.map()传的第二个参数是一个迭代器对象
# 而传的get_video方法也要有一个迭代器参数
def get_video(dic):
  headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56'
    }
  video_data = requests.get(url = dic['url'] , headers = headers).content
  print(dic['name']+'开始下载')
  
  # 有的文件名中包含空格，在并发执行时会报错，这里用随机数给文件起名了
  #path = dic['name']+'.mp4'会报错
  path = "./lishipin/"+str(int(random.random()*100)) + '.mp4'
  
  with open(path,'wb') as fp:
    fp.write(video_data)
  print(dic['name']+'下载成功')

def main():  
  # web_url:梨视频官网
  web_url = 'https://www.pearvideo.com/category_5'
  headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56'
    }
  
  # web_page_tex:官网页面
  web_page_text = requests.get(url = web_url,headers = headers).text
  
  tree = etree.HTML(web_page_text)
  
  # 解析梨视频官网“生活栏”中的所有li标签，遍历li标签，提取视频的url
  li_list = tree.xpath('//*[@id="listvideoListUl"]/li')
  rea_urls=[]
  for li in li_list:
     # video_name获取视频的名称
    video_name = li.xpath('./div/a/div[2]/text()')[0]+'.mp4'
    
    # 加上'https://www.pearvideo.com/'得到完整的video_url
    video_url = 'https://www.pearvideo.com/'+li.xpath("./div/a/@href")[0]
    
    # 通过官网界面提取的url，并不是真正的url，
    # 因为MP4的视频是动态加载出来的，所以通过ajax请求获取视频的真实网址
    # 但是通过分析发现，ajax请求获取的网址是一个伪网址，和真实网址有区别(cont...)
      ##真地址：https://video.pearvideo.com/mp4/third/20210208/cont-1719874-15690592-205957-ld.mp4
      ##                          1719874
      ##伪地址：https://video.pearvideo.com/mp4/third/20210208/1612867876612-15690592-205957-ld.mp4


    # 通过得到的video_url可以分析到 真假网址 不同的细节之处--countId
    # 通过ajax请求向video_url发起get请求，需要加countId和mrd参数
    # 分析video_url得到countId，mrd是一个随机小树
    countId = video_url.split("/")[-1].split("_")[1]
    mrd = random.random()
    
    # 加'Referer'参数，否则会显示该视频已下架了
    headers = {
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56',
      'Referer': 'https://www.pearvideo.com/video_' + countId
      }
    ajax_url = 'https://www.pearvideo.com/videoStatus.jsp'
    
    # 利用ajax请求获取伪地址
    # https://www.pearvideo.com/videoStatus.jsp?contId=1719874&mrd=0.7759942025851074
    params = {
        'contId': str(countId),
        'mrd': str(mrd)
      }
    
    # 通过ajax请求，发起get请求得到一个json串
    ajax_json = requests.get(url = ajax_url,headers = headers,params = params).json()
    
    # 得到的是 假地址
    fake_url = ajax_json['videoInfo']['videos']['srcUrl']
    
    # 对假地址进行处理，并把刚才的countId组合起来
    fake_url_list = fake_url.split('/')
    end = fake_url_list.pop()  #删除不必要的字符串
    end_list = end.split("-")
    end_url = ""  #end_url是一个结尾字符串
    for i in range(len(end_list)-1):
      end_url = end_url + "-"+ end_list[i+1]
    
    # 真实的地址，先用假地址，然后组合countId
    rea_url=""
    for element in fake_url_list:
      rea_url=rea_url+element+"/"
    rea_url=rea_url+"cont-"+str(countId) + end_url
    
    # print(rea_url)
    
    
    dic = {
        'url':rea_url,
        'name':video_name
      }
    rea_urls.append(dic)
    
  #print(rea_urls)
  pool = Pool(4)
  pool.map(get_video,rea_urls)
  pool.close()
  pool.join()
  
if __name__ == '__main__':
  main()

知识点扩展：

Python爬虫下载视频（梨视频）

梨视频示例：Ctrl+Alt+L格式化代码

import re
import requests
import hashlib
import time
# print(respose.status_code)# 响应的状态码
# print(respose.content) #返回字节信息
# print(respose.text) #返回文本内容
 
mainurl = "https://www.pearvideo.com/"
videourl = "http://www.pearvideo.com/video_1499584"
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
    'Accept-Encoding':'gzip, deflate, sdch',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language':'zh-CN,zh;q=0.8',
  }
# 获取视频链接列表
def geturls(url):
  res=requests.get(url)
  urls=re.findall('class="vervideo-tbd".*?href="(.*?)" rel="external nofollow" ',res.text,re.S)
  urllist=[]
  for i in urls:
    prefix='https://www.pearvideo.com/'
    urllist.append(prefix+i)
  return urllist
# 获取视频链接并下载（写入到硬盘）
def getvideo(url):
  res=requests.get(url,headers)
  mp4url=re.findall('srcUrl="(.*?\.mp4)"',res.text,re.S)[0]
  video=requests.get(mp4url)
  m = hashlib.md5()
  m.update(url.encode('utf-8'))
  m.update(str(time.time()).encode('utf-8'))
  filename = r'%s.mp4' % m.hexdigest()
  print(filename)
  with open("/home/tony/文档/爬虫视频/%s.mp4"%filename,'wb') as f:
    f.write(video.content)
def main():
  video_urllist=geturls(mainurl)
  for i in video_urllist:
    getvideo(i)
if __name__=='__main__':
  main()

到此这篇关于python爬虫线程池案例详解(梨视频短视频爬取)的文章就介绍到这了,更多相关python爬虫梨视频短视频爬取内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python爬虫线程池案例详解(梨视频短视频爬取)

- Author -

小王子爱上玫瑰

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python版微信跳一跳游戏辅助

Jan 11 Python

Python3.4 tkinter,PIL图片转换

Jun 21 Python

在pytorch中为Module和Tensor指定GPU的例子

Aug 19 Python

使用pyinstaller逆向.pyc文件

Dec 20 Python

Python实现的北京积分落户数据分析示例

Mar 27 Python

Python要求O(n)复杂度求无序列表中第K的大元素实例

Apr 02 Python

浅谈numpy中函数resize与reshape,ravel与flatten的区别

Jun 18 Python

matplotlib之属性组合包(cycler)的使用

Feb 24 Python

Python控制台输出俄罗斯方块移动和旋转功能

Apr 18 Python

python如何利用cv2模块读取显示保存图片

Jun 04 Python

Python还能这么玩之只用30行代码从excel提取个人值班表

Jun 05 Python

Pytorch可视化的几种实现方法

Jun 10 Python

python爬虫scrapy框架的梨视频案例解析

Feb 20 #Python

Keras保存模型并载入模型继续训练的实现

Feb 20 #Python

TensorFlow2.0使用keras训练模型的实现

Feb 20 #Python

tensorflow2.0教程之Keras快速入门

Feb 20 #Python

在Pycharm中安装Pandas库方法(简单易懂)

Feb 20 #Python

Python3爬虫RedisDump的安装步骤

Feb 20 #Python

python爬取2021猫眼票房字体加密实例

Feb 19 #Python

You might like

PHP setcookie设置Cookie用法(及设置无效的问题)

2011/07/13 PHP

Yii框架上传图片用法总结

2016/03/28 PHP

PHP将整数数字转换为罗马数字实例分享

2019/03/17 PHP

prototype.js的Ajax对象

2006/09/23 Javascript

浅谈JavaScript 框架分类

2014/11/10 Javascript

JS 作用域与作用域链详解

2015/04/07 Javascript

jQuery插件实现带圆点的焦点图片轮播切换

2016/01/18 Javascript

Backbone.js框架中Model与Collection的使用实例

2016/05/07 Javascript

jQuery表单验证之密码确认

2017/05/22 jQuery

vue.js组件vue-waterfall-easy实现瀑布流效果

2017/08/22 Javascript

浅谈JavaScript find 方法不支持IE的问题

2017/09/28 Javascript

一步快速解决微信小程序中textarea层级太高遮挡其他组件

2019/03/04 Javascript

详解微信小程序调用支付接口支付

2019/04/28 Javascript

在Vue中使用icon 字体图标的方法

2019/06/14 Javascript

JavaScript随机数的组合问题案例分析

2020/05/16 Javascript

[02:10]2018DOTA2亚洲邀请赛赛前采访-Liquid

2018/04/03 DOTA

python分割和拼接字符串

2013/11/01 Python

详细讲解Python中的文件I/O操作

2015/05/24 Python

python3实现ftp服务功能（服务端 For Linux）

2017/03/24 Python

Python实现去除列表中重复元素的方法小结【4种方法】

2018/04/27 Python

纯python进行矩阵的相乘运算的方法示例

2019/07/17 Python

修改 CentOS 6.x 上默认Python的方法

2019/09/06 Python

python实现代码统计程序

2019/09/19 Python

Python绘图实现显示中文

2019/12/04 Python

python画环形图的方法

2020/03/25 Python

自1926年以来就为冰岛保持温暖：66°North

2020/11/27 全球购物

大专生工程监理求职信

2013/10/04 职场文书

2014年党员公开承诺书范文

2014/03/28 职场文书

土建专业毕业生自荐书

2014/07/04 职场文书

院系推荐意见

2015/06/05 职场文书

八年级数学教学反思

2016/02/17 职场文书

go语言基础 seek光标位置os包的使用

2021/05/09 Golang

Redis延迟队列和分布式延迟队列的简答实现

2021/05/13 Redis

Java Optional<Foo>转换成List<Bar>的实例方法

2021/06/20 Java/Android

为什么MySQL不建议使用SELECT *

2022/04/03 MySQL

HTML5页面打开微信小程序功能实现

2022/09/23 HTML / CSS