Python正则抓取新闻标题和链接的方法示例


Posted in Python onApril 24, 2017

本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:

#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
  pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
  title = re.findall(pat, info)
  titles='\n'.join(title)
  #print titles
#修改指定字符串
  titles1=titles.replace('class="title"','title')
  titles2=titles1.replace('>',':')
  titles3=titles2.replace('href','url:')
  titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
  save=open('xinwen.txt','w')
  save.write(titles4)
  save.close()
titles = extract_title(doc)
Python 相关文章推荐
python算法学习之计数排序实例
Dec 18 Python
采用Psyco实现python执行速度提高到与编译语言一样的水平
Oct 11 Python
python开发之tkinter实现图形随鼠标移动的方法
Nov 11 Python
Request的中断和ErrorHandler实例解析
Feb 12 Python
python处理两种分隔符的数据集方法
Dec 12 Python
Django实现学生管理系统
Feb 26 Python
浅谈Python 递归算法指归
Aug 22 Python
python网络编程之多线程同时接受和发送
Sep 03 Python
python 安装impala包步骤
Mar 28 Python
如何基于windows实现python定时爬虫
May 01 Python
python 使用建议与技巧分享(四)
Aug 18 Python
Python 按比例获取样本数据或执行任务的实现代码
Dec 03 Python
Python的爬虫框架scrapy用21行代码写一个爬虫
Apr 24 #Python
fastcgi文件读取漏洞之python扫描脚本
Apr 23 #Python
批量获取及验证HTTP代理的Python脚本
Apr 23 #Python
深入理解python中的select模块
Apr 23 #Python
Python3如何解决字符编码问题详解
Apr 23 #Python
Python制作刷网页流量工具
Apr 23 #Python
Python读取指定目录下指定后缀文件并保存为docx
Apr 23 #Python
You might like
PHP JSON出错:Cannot use object of type stdClass as array解决方法
2014/08/16 PHP
php中使用session_set_save_handler()函数把session保存到MySQL数据库实例
2014/11/06 PHP
简单理解PHP的面向对象编程方式
2016/05/17 PHP
PHP多进程编程实例详解
2017/07/19 PHP
PHP goto语句用法实例
2019/08/06 PHP
php实现银联商务公众号+服务窗支付的示例代码
2019/10/12 PHP
juqery 学习之六 CSS--css、位置、宽高
2011/02/11 Javascript
js multiple全选与取消全选实现代码
2012/12/04 Javascript
浅谈javascript六种数据类型以及特殊注意点
2013/12/20 Javascript
jQuery实现鼠标悬停显示提示信息窗口的方法
2015/04/30 Javascript
javascript中动态函数用法实例分析
2015/05/14 Javascript
jquery实现隐藏在左侧的弹性弹出菜单效果
2015/09/18 Javascript
谈谈Jquery中的children find 的区别有哪些
2015/10/19 Javascript
JavaScript随机生成颜色的方法
2016/10/15 Javascript
Javascript 动态改变imput type属性
2016/11/01 Javascript
vue使用iframe嵌入网页的示例代码
2020/06/09 Javascript
如何封装了一个vue移动端下拉加载下一页数据的组件
2019/01/06 Javascript
微信小程序websocket聊天室的实现示例代码
2019/02/12 Javascript
layui动态渲染生成select的option值方法
2019/09/23 Javascript
如何在vue中使用video.js播放m3u8格式的视频
2021/02/01 Vue.js
如何在Python函数执行前后增加额外的行为
2016/10/20 Python
Python使用QQ邮箱发送Email的方法实例
2017/02/09 Python
python语音识别实践之百度语音API
2018/08/30 Python
简单了解python数组的基本操作
2019/11/26 Python
tensorflow 实现自定义梯度反向传播代码
2020/02/10 Python
PyTorch之nn.ReLU与F.ReLU的区别介绍
2020/06/27 Python
PyQt5多线程防卡死和多窗口用法的实现
2020/09/15 Python
澳大利亚女性快速时尚零售商:Ally Fashion
2018/04/25 全球购物
Perfume’s Club德国官网:在线购买香水
2019/04/08 全球购物
如何手工释放资源
2013/12/15 面试题
商务英语专业自荐信
2013/10/14 职场文书
网络营销策划方案
2014/06/04 职场文书
幼儿生日活动方案
2014/08/27 职场文书
大四优秀党员个人民主评议
2014/09/19 职场文书
2014年技术员工作总结
2014/11/18 职场文书
JS数组方法some、every和find的使用详情
2021/10/05 Javascript