编程 Python

Python爬虫爬取新浪微博内容示例【基于代理IP】

Posted in Python onAugust 03, 2018

本文实例讲述了Python爬虫爬取新浪微博内容。分享给大家供大家参考，具体如下：

用Python编写爬虫，爬取微博大V的微博内容，本文以女神的微博为例（爬新浪m站：https://m.weibo.cn/u/1259110474）

一般做爬虫爬取网站，首选的都是m站，其次是wap站，最后考虑PC站。当然，这不是绝对的，有的时候PC站的信息最全，而你又恰好需要全部的信息，那么PC站是你的首选。一般m站都以m开头后接域名，所以本文开搞的网址就是 m.weibo.cn。

前期准备

1.代理IP

网上有很多免费代理ip，如西刺免费代理IPhttp://www.xicidaili.com/，自己可找一个可以使用的进行测试；

2.抓包分析

通过抓包获取微博内容地址，这里不再细说，不明白的小伙伴可以自行百度查找相关资料，下面直接上完整的代码

完整代码：

# -*- coding: utf-8 -*-
import urllib.request
import json
#定义要爬取的微博大V的微博ID
id='1259110474'
#设置代理IP
proxy_addr="122.241.72.191:808"
#定义页面打开函数
def use_proxy(url,proxy_addr):
  req=urllib.request.Request(url)
  req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")
  proxy=urllib.request.ProxyHandler({'http':proxy_addr})
  opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
  urllib.request.install_opener(opener)
  data=urllib.request.urlopen(req).read().decode('utf-8','ignore')
  return data
#获取微博主页的containerid，爬取微博内容时需要此id
def get_containerid(url):
  data=use_proxy(url,proxy_addr)
  content=json.loads(data).get('data')
  for data in content.get('tabsInfo').get('tabs'):
    if(data.get('tab_type')=='weibo'):
      containerid=data.get('containerid')
  return containerid
#获取微博大V账号的用户基本信息，如：微博昵称、微博地址、微博头像、关注人数、粉丝数、性别、等级等
def get_userInfo(id):
  url='https://m.weibo.cn/api/container/getIndex?type=uid&value='+id
  data=use_proxy(url,proxy_addr)
  content=json.loads(data).get('data')
  profile_image_url=content.get('userInfo').get('profile_image_url')
  description=content.get('userInfo').get('description')
  profile_url=content.get('userInfo').get('profile_url')
  verified=content.get('userInfo').get('verified')
  guanzhu=content.get('userInfo').get('follow_count')
  name=content.get('userInfo').get('screen_name')
  fensi=content.get('userInfo').get('followers_count')
  gender=content.get('userInfo').get('gender')
  urank=content.get('userInfo').get('urank')
  print("微博昵称："+name+"\n"+"微博主页地址："+profile_url+"\n"+"微博头像地址："+profile_image_url+"\n"+"是否认证："+str(verified)+"\n"+"微博说明："+description+"\n"+"关注人数："+str(guanzhu)+"\n"+"粉丝数："+str(fensi)+"\n"+"性别："+gender+"\n"+"微博等级："+str(urank)+"\n")
#获取微博内容信息,并保存到文本中，内容包括：每条微博的内容、微博详情页面地址、点赞数、评论数、转发数等
def get_weibo(id,file):
  i=1
  while True:
    url='https://m.weibo.cn/api/container/getIndex?type=uid&value='+id
    weibo_url='https://m.weibo.cn/api/container/getIndex?type=uid&value='+id+'&containerid='+get_containerid(url)+'&page='+str(i)
    try:
      data=use_proxy(weibo_url,proxy_addr)
      content=json.loads(data).get('data')
      cards=content.get('cards')
      if(len(cards)>0):
        for j in range(len(cards)):
          print("-----正在爬取第"+str(i)+"页，第"+str(j)+"条微博------")
          card_type=cards[j].get('card_type')
          if(card_type==9):
            mblog=cards[j].get('mblog')
            attitudes_count=mblog.get('attitudes_count')
            comments_count=mblog.get('comments_count')
            created_at=mblog.get('created_at')
            reposts_count=mblog.get('reposts_count')
            scheme=cards[j].get('scheme')
            text=mblog.get('text')
            with open(file,'a',encoding='utf-8') as fh:
              fh.write("----第"+str(i)+"页，第"+str(j)+"条微博----"+"\n")
              fh.write("微博地址："+str(scheme)+"\n"+"发布时间："+str(created_at)+"\n"+"微博内容："+text+"\n"+"点赞数："+str(attitudes_count)+"\n"+"评论数："+str(comments_count)+"\n"+"转发数："+str(reposts_count)+"\n")
        i+=1
      else:
        break
    except Exception as e:
      print(e)
      pass
if __name__=="__main__":
  file=id+".txt"
  get_userInfo(id)
  get_weibo(id,file)

爬取结果

Python爬虫爬取新浪微博内容示例【基于代理IP】

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python爬虫爬取新浪微博内容示例【基于代理IP】

- Author -

Jepson2017

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

修改Python的pyxmpp2中的主循环使其提高性能

Apr 24 Python

Python实现大文件排序的方法

Jul 10 Python

最大K个数问题的Python版解法总结

Jun 16 Python

Python检测生僻字的实现方法

Oct 23 Python

python之DataFrame实现excel合并单元格

Feb 22 Python

下载python中Crypto库报错：ModuleNotFoundError: No module named ‘Crypto’的解决

Apr 23 Python

浅析python中的迭代与迭代对象

Oct 08 Python

python实现flappy bird游戏

Dec 24 Python

对python 调用类属性的方法详解

Jul 02 Python

利用Tensorflow构建和训练自己的CNN来做简单的验证码识别方式

Jan 20 Python

python2 对excel表格操作完整示例

Feb 23 Python

python 镜像环境搭建总结

Sep 23 Python

OpenCV+python手势识别框架和实例讲解

Aug 03 #Python

Windows下将Python文件打包成.EXE可执行文件的方法

Aug 03 #Python

Python测试网络连通性示例【基于ping】

Aug 03 #Python

python版opencv摄像头人脸实时检测方法

Aug 03 #Python

python 读取摄像头数据并保存的实例

Aug 03 #Python

python+opencv+caffe+摄像头做目标检测的实例代码

Aug 03 #Python

python调用摄像头显示图像的实例

Aug 03 #Python

You might like

JQery 渐变图片导航效果代码漂亮

2010/01/01 Javascript

Javascript动态绑定事件的简单实现代码

2010/12/25 Javascript

js识别不同浏览器基于userAgent做判断

2014/07/29 Javascript

JS获取当前脚本文件的绝对路径

2016/03/02 Javascript

Bootstrap嵌入jqGrid，使你的table牛逼起来

2016/05/05 Javascript

angular $watch 一个变量的变化(实例讲解)

2017/08/02 Javascript

React BootStrap用户体验框架快速上手

2018/03/06 Javascript

微信小程序如何像vue一样在动态绑定类名

2018/04/17 Javascript

Vue2.0仿饿了么webapp单页面应用详细步骤

2018/07/08 Javascript

详解项目升级到vue-cli3的正确姿势

2019/01/28 Javascript

微信小程序设置全局请求URL及封装wx.request请求操作示例

2019/04/02 Javascript

Javascript通过控制类名更改样式

2019/05/24 Javascript

微信小程序绑定手机号获取验证码功能

2019/10/22 Javascript

Node.js fs模块原理及常见用途

2020/10/22 Javascript

Python 爬虫之超链接 url中含有中文出错及解决办法

2017/08/03 Python

python中字符串的操作方法大全

2018/06/03 Python

10 分钟快速入门 Python3的教程

2019/01/29 Python

Python3.5局部变量与全局变量作用域实例分析

2019/04/30 Python

详解用Python实现自动化监控远程服务器

2019/05/18 Python

python支付宝支付示例详解

2019/08/22 Python

python获取本周、上周、本月、上月及本季的时间代码实例

2020/09/08 Python

python中函数返回多个结果的实例方法

2020/12/16 Python

修复iPhone的safari浏览器上submit按钮圆角bug

2012/12/24 HTML / CSS

Kathmandu澳洲户外商店：新西兰户外运动品牌

2017/11/12 全球购物

什么是＂引用＂？申明和使用＂引用＂要注意哪些问题？

2016/03/03 面试题

一些Unix笔试题和面试题

2012/09/25 面试题

竞选班长自荐书范文

2014/03/09 职场文书

材料员岗位职责

2014/03/13 职场文书

内衣营销方案

2014/03/15 职场文书

财务人员担保书

2014/05/13 职场文书

2015年基层党组织公开承诺书

2015/01/21 职场文书

接收函格式

2015/01/30 职场文书

护士辞职信怎么写

2015/02/27 职场文书

担保贷款承诺书

2015/04/30 职场文书

叶问观后感

2015/06/15 职场文书

教你用Python爬取英雄联盟皮肤原画

2021/06/13 Python