分享Python异步爬取知乎热榜


Posted in Python onApril 12, 2022

一、错误代码:摘要和详细的url获取不到

import asyncio
from bs4 import BeautifulSoup
import aiohttp
 
headers={
    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    'referer': 'https://www.baidu.com/s?tn=02003390_43_hao_pg&isource=infinity&iname=baidu&itype=web&ie=utf-8&wd=%E7%9F%A5%E4%B9%8E%E7%83%AD%E6%A6%9C'
}
async def getPages(url):
    async with aiohttp.ClientSession(headers=headers) as session:
        async with session.get(url) as resp:
            print(resp.status)  # 打印状态码
            html=await resp.text()
    soup=BeautifulSoup(html,'lxml')
    items=soup.select('.HotList-item')
    for item in items:
        title=item.select('.HotList-itemTitle')[0].text
        try:
            abstract=item.select('.HotList-itemExcerpt')[0].text
        except:
            abstract='No Abstract'
        hot=item.select('.HotList-itemMetrics')[0].text
        try:
            img=item.select('.HotList-itemImgContainer img')['src']
        except:
            img='No Img'
        print("{}\n{}\n{}".format(title,abstract,img))
 
if __name__ == '__main__':
    url='https://www.zhihu.com/billboard'
    loop=asyncio.get_event_loop()
    loop.run_until_complete(getPages(url))
    loop.close()

分享Python异步爬取知乎热榜

二、查看JS代码

发现详细链接、图片链接、问题摘要等都在JS里面(CSDN的开发者助手插件确实好用)

分享Python异步爬取知乎热榜

正则表达式获取上述信息:

分享Python异步爬取知乎热榜

接下来就是详细的代码啦

import asyncio
import json
import re
import aiohttp
 
headers={
    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    'referer': 'https://www.baidu.com/s?tn=02003390_43_hao_pg&isource=infinity&iname=baidu&itype=web&ie=utf-8&wd=%E7%9F%A5%E4%B9%8E%E7%83%AD%E6%A6%9C'
}
async def getPages(url):
    async with aiohttp.ClientSession(headers=headers) as session:
        async with session.get(url) as resp:
            print(resp.status)  # 打印状态码
            html=await resp.text()
 
    regex=re.compile('"hotList":(.*?),"guestFeeds":')
    text=regex.search(html).group(1)
    # print(json.loads(text))   # json换成字典格式
    for item in json.loads(text):
        title=item['target']['titleArea']['text']
        question=item['target']['excerptArea']['text']
        hot=item['target']['metricsArea']['text']
        link=item['target']['link']['url']
        img=item['target']['imageArea']['url']
        if not img:
            img='No Img'
        if not question:
            question='No Abstract'
        print("Title:{}\nPopular:{}\nQuestion:{}\nLink:{}\nImg:{}".format(title,hot,question,link,img))
 
if __name__ == '__main__':
    url='https://www.zhihu.com/billboard'
    loop=asyncio.get_event_loop()
    loop.run_until_complete(getPages(url))
    loop.close()

到此这篇关于Python异步爬取知乎热榜实例分享的文章就介绍到这了!

Python 相关文章推荐
python中from module import * 的一个坑
Jul 20 Python
详解django中自定义标签和过滤器
Jul 03 Python
Python3实现发送QQ邮件功能(附件)
Dec 23 Python
Python 函数返回值的示例代码
Mar 11 Python
Python面向对象程序设计构造函数和析构函数用法分析
Apr 12 Python
python跳出双层for循环的解决方法
Jun 24 Python
解决Python中pandas读取*.csv文件出现编码问题
Jul 12 Python
Python3将数据保存为txt文件的方法
Sep 12 Python
Python.append()与Python.expand()用法详解
Dec 18 Python
Python OpenCV读取显示视频的方法示例
Feb 20 Python
利用Python实现字幕挂载(把字幕文件与视频合并)思路详解
Oct 21 Python
深入理解python协程
Jun 15 Python
尝试使用Python爬取城市租房信息
Apr 12 #Python
Python采集爬取京东商品信息和评论并存入MySQL
Apr 12 #Python
Python实现批量将文件复制到新的目录中再修改名称
Python多线程实用方法以及共享变量资源竞争问题
Apr 12 #Python
Python使用socket去实现TCP客户端和TCP服务端
Apr 12 #Python
Python闭包的定义和使用方法
Apr 11 #Python
什么是Python装饰器?如何定义和使用?
Apr 11 #Python
You might like
用PHP的ob_start() 控制您的浏览器cache
2009/08/03 PHP
PHP中JSON的应用技巧
2015/10/10 PHP
PHP如何防止XSS攻击与XSS攻击原理的讲解
2019/03/22 PHP
Js组件的一些写法
2010/09/10 Javascript
Jquery中对数组的操作代码
2011/08/12 Javascript
javascript 实现子父窗体互相传值的简单实例
2014/02/17 Javascript
jquery的ajax简单结构示例代码
2014/02/17 Javascript
javascript实现瀑布流自适应遇到的问题及解决方案
2015/01/28 Javascript
Javascript中的call()方法介绍
2015/03/15 Javascript
javascript异步处理工作机制详解
2015/04/13 Javascript
Jquery实现顶部弹出框特效
2015/08/08 Javascript
js确认框confirm()用法实例详解
2016/01/07 Javascript
JavaScript Uploadify文件上传实例
2017/02/28 Javascript
Node.js使用orm2进行update操作时关联字段无法修改的解决方法
2017/06/13 Javascript
利用JS制作万年历的方法
2017/08/16 Javascript
最基础的vue.js双向绑定操作
2017/08/23 Javascript
JS返回页面时自动回滚到历史浏览位置
2018/09/26 Javascript
vue中组件通信的八种方式(值得收藏!)
2019/08/09 Javascript
js实现掷骰子小游戏
2019/10/24 Javascript
微信小程序获取当前位置和城市名
2019/11/13 Javascript
JavaScript中的this基本问题实例小结
2020/03/09 Javascript
使用npm命令提示: 'npm' 不是内部或外部命令,也不是可运行的程序的处理方法
2020/05/14 Javascript
python基础教程之循环介绍
2014/08/29 Python
Python3实现简单可学习的手写体识别(实例讲解)
2017/10/21 Python
Python运维开发之psutil库的使用详解
2018/10/18 Python
Python 序列化和反序列化库 MarshMallow 的用法实例代码
2020/02/25 Python
澳大利亚领先的在线美容商店:Facial Co
2017/10/22 全球购物
超市开学活动方案
2014/03/01 职场文书
《飞向蓝天的恐龙》教学反思
2014/04/09 职场文书
档案保密承诺书
2014/06/03 职场文书
法人单位授权委托书范文
2014/10/06 职场文书
大学教师个人总结
2015/02/10 职场文书
商场收银员岗位职责
2015/04/07 职场文书
《围炉夜话》110句人生箴言,精辟有内涵,引人深思
2019/10/23 职场文书
Python实现照片卡通化
2021/12/06 Python
redis protocol通信协议及使用详解
2022/07/15 Redis