Python爬取爱奇艺电影信息代码实例


Posted in Python onNovember 26, 2019

这篇文章主要介绍了Python爬取爱奇艺电影信息代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

一,使用库

1.requests

2.re

3.json

二,抓取html文件

def get_page(url):
  response = requests.get(url)
  if response.status_code == 200:
    return response.text
  return None

三,解析html文件

我们需要的电影信息的部分如下图(评分,片名,主演):

Python爬取爱奇艺电影信息代码实例

抓取到的html文件对应的代码:

Python爬取爱奇艺电影信息代码实例

可以分析出,每部电影的信息都在一个<li>标签内,用正则表达式解析:

def parse_page(html):
  pattern = re.compile('<li.*?qy-mod-li.*?text-score">(.*?)<.*?title.*?>(.*?)<.*?title.*?>(.*?)<', re.S)
  items = re.findall(pattern, html)
  for item in items:#转换为字典形式保存
    yield {
      'score': item[0],
      'name': item[1],
      'actor': item[2].strip()[3:]#将‘主演:'去掉
    }

四,写入文件

def write_to_file(content):
  with open('result.txt', 'a', encoding='utf-8')as f:
    f.write(json.dumps(content, ensure_ascii=False) + '\n')#将字典格式转换为字符串加以保存,并设置中文格式
    f.close()

五,调用函数

def main():
  url = 'https://list.iqiyi.com/www/1/-------------8-1-1-iqiyi--.html'
  html = get_page(url)
  for item in parse_page(html):
    print(item)
    write_to_file(item)

六,运行结果

Python爬取爱奇艺电影信息代码实例

Python爬取爱奇艺电影信息代码实例

七,完整代码

import json
import requests
import re


# 抓取html文件
# 解析html文件
# 存储文件


def get_page(url):
  response = requests.get(url)
  if response.status_code == 200:
    return response.text
  return None


def parse_page(html):
  pattern = re.compile('<li.*?qy-mod-li.*?text-score">(.*?)<.*?title.*?>(.*?)<.*?title.*?>(.*?)<', re.S)
  items = re.findall(pattern, html)
  for item in items:
    yield {
      'score': item[0],
      'name': item[1],
      'actor': item[2].strip()[3:]
    }


def write_to_file(content):
  with open('result.txt', 'a', encoding='utf-8')as f:
    f.write(json.dumps(content, ensure_ascii=False) + '\n')
    f.close()

def main():
  url = 'https://list.iqiyi.com/www/1/-------------8-1-1-iqiyi--.html'
  html = get_page(url)
  for item in parse_page(html):
    print(item)
    write_to_file(item)
if __name__ == '__main__':
  main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python脚本在Appium库上对移动应用实现自动化测试
Apr 17 Python
Python实现桶排序与快速排序算法结合应用示例
Nov 22 Python
Python中的TCP socket写法示例
May 11 Python
解决DataFrame排序sort的问题
Jun 07 Python
django框架实现一次性上传多个文件功能示例【批量上传】
Jun 19 Python
PyQt5重写QComboBox的鼠标点击事件方法
Jun 25 Python
用python写测试数据文件过程解析
Sep 25 Python
python 实现多维数组转向量
Nov 30 Python
python爬虫构建代理ip池抓取数据库的示例代码
Sep 22 Python
python Protobuf定义消息类型知识点讲解
Mar 02 Python
python opencv通过按键采集图片源码
May 20 Python
python中__slots__节约内存的具体做法
Jul 04 Python
numpy ndarray 按条件筛选数组,关联筛选的例子
Nov 26 #Python
浅谈python已知元素,获取元素索引(numpy,pandas)
Nov 26 #Python
Python如何使用BeautifulSoup爬取网页信息
Nov 26 #Python
python实现在多维数组中挑选符合条件的全部元素
Nov 26 #Python
Python实现图片添加文字
Nov 26 #Python
从numpy数组中取出满足条件的元素示例
Nov 26 #Python
python实现图片上添加图片
Nov 26 #Python
You might like
编写PHP的安全策略
2006/10/09 PHP
PHP+HTML+JavaScript+Css实现简单爬虫开发
2016/03/28 PHP
基于PHP微信红包的算法探讨
2016/07/21 PHP
thinkPHP3.2.2框架行为扩展及demo示例
2018/06/19 PHP
PHP开发的文字水印,缩略图,图片水印实现类与用法示例
2019/04/12 PHP
Alliance vs AM BO3 第一场2.13
2021/03/10 DOTA
Asp.net下利用Jquery Ajax实现用户注册检测(验证用户名是否存)
2010/09/12 Javascript
JS俄罗斯方块,包含完整的设计理念
2010/12/11 Javascript
js function定义函数的几种不错方法
2014/02/27 Javascript
jQuery中:nth-child选择器用法实例
2014/12/31 Javascript
Javascript基础教程之while语句
2015/01/18 Javascript
JavaScript、jQuery与Ajax的关系
2016/01/24 Javascript
jQuery插件编写步骤详解
2016/06/03 Javascript
js实现微博发布小功能
2017/01/12 Javascript
AngularJS 单选框及多选框的双向动态绑定
2017/04/20 Javascript
H5基于iScroll实现下拉刷新和上拉加载更多
2017/07/18 Javascript
Angular模板表单校验方法详解
2017/08/11 Javascript
说说如何在Vue.js中实现数字输入组件的方法
2019/01/08 Javascript
使用easyui从servlet传递json数据到前端页面的两种方法
2019/09/05 Javascript
Python3使用PyQt5制作简单的画板/手写板实例
2017/10/19 Python
对Python 2.7 pandas 中的read_excel详解
2018/05/04 Python
详解Python3.6安装psutil模块和功能简介
2018/05/30 Python
django Serializer序列化使用方法详解
2018/10/16 Python
python scatter散点图用循环分类法加图例
2019/03/19 Python
Python如何实现爬取B站视频
2020/05/20 Python
python 写函数在一定条件下需要调用自身时的写法说明
2020/06/01 Python
python如何用matplotlib创建三维图表
2021/01/26 Python
英国时尚高尔夫服装购物网站:Trendy Golf
2020/01/10 全球购物
中专生毕业自我鉴定
2013/11/01 职场文书
迎八一活动主题
2014/01/31 职场文书
春季运动会广播稿大全
2014/02/19 职场文书
《浅水洼里的小鱼》听课反思
2014/02/28 职场文书
档案保密承诺书
2014/06/03 职场文书
放假通知
2015/04/14 职场文书
复兴之路观后感3000字
2015/06/02 职场文书
创业计划书之农家乐
2019/10/09 职场文书