Python正则抓取新闻标题和链接的方法示例


Posted in Python onApril 24, 2017

本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:

#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
  pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
  title = re.findall(pat, info)
  titles='\n'.join(title)
  #print titles
#修改指定字符串
  titles1=titles.replace('class="title"','title')
  titles2=titles1.replace('>',':')
  titles3=titles2.replace('href','url:')
  titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
  save=open('xinwen.txt','w')
  save.write(titles4)
  save.close()
titles = extract_title(doc)
Python 相关文章推荐
跟老齐学Python之关于类的初步认识
Oct 11 Python
Python编程实现蚁群算法详解
Nov 13 Python
利用Python+Java调用Shell脚本时的死锁陷阱详解
Jan 24 Python
Python中实例化class的执行顺序示例详解
Oct 14 Python
Python随机生成身份证号码及校验功能
Dec 04 Python
使用python的pexpect模块,实现远程免密登录的示例
Feb 14 Python
python3中类的继承以及self和super的区别详解
Jun 26 Python
Pandas透视表(pivot_table)详解
Jul 22 Python
Pytorch 中retain_graph的用法详解
Jan 07 Python
Python利用逻辑回归分类实现模板
Feb 15 Python
python 读取yaml文件的两种方法(在unittest中使用)
Dec 01 Python
OpenCV+python实现膨胀和腐蚀的示例
Dec 21 Python
Python的爬虫框架scrapy用21行代码写一个爬虫
Apr 24 #Python
fastcgi文件读取漏洞之python扫描脚本
Apr 23 #Python
批量获取及验证HTTP代理的Python脚本
Apr 23 #Python
深入理解python中的select模块
Apr 23 #Python
Python3如何解决字符编码问题详解
Apr 23 #Python
Python制作刷网页流量工具
Apr 23 #Python
Python读取指定目录下指定后缀文件并保存为docx
Apr 23 #Python
You might like
疯掉了,尽然有js写的操作系统
2007/04/23 Javascript
JQuery跨Iframe选择实现代码
2010/08/19 Javascript
JS Pro-深入面向对象的程序设计之继承的详解
2013/05/07 Javascript
设置jsf的选择框h:selectOneMenu为不可编辑状态的方法
2014/01/07 Javascript
JavaScript截取字符串的2个函数介绍
2014/08/27 Javascript
13 款最热门的 jQuery 图像 360 度旋转插件推荐
2014/12/09 Javascript
JavaScript获取Url里的参数
2014/12/18 Javascript
通用无限极下拉菜单的实现代码
2016/05/31 Javascript
jQuery实现table中的tr上下移动并保持序号不变的实例代码
2016/07/11 Javascript
angular实现图片懒加载实例代码
2017/06/08 Javascript
js学习总结之dom2级事件基础知识详解
2017/07/27 Javascript
详解JavaScript的BUG和错误
2018/05/07 Javascript
nuxt.js 缓存实践
2018/06/25 Javascript
微信实现自动跳转到用其他浏览器打开指定APP下载
2019/02/15 Javascript
JavaScript提升机制Hoisting详解
2019/10/23 Javascript
js实现录音上传功能
2019/11/22 Javascript
node.js开发辅助工具nodemon安装与配置详解
2020/02/06 Javascript
JS面向对象编程基础篇(二) 封装操作实例详解
2020/03/03 Javascript
js实现翻牌小游戏
2020/07/31 Javascript
简单介绍Python中的decode()方法的使用
2015/05/18 Python
python爬虫入门教程--利用requests构建知乎API(三)
2017/05/25 Python
python中Matplotlib实现绘制3D图的示例代码
2017/09/04 Python
python+POP3实现批量下载邮件附件
2018/06/19 Python
tensorflow学习教程之文本分类详析
2018/08/07 Python
使用Python处理BAM的方法
2018/09/28 Python
pygame游戏之旅 按钮上添加文字的方法
2018/11/21 Python
pyqt5 textEdit、lineEdit操作的示例代码
2020/08/12 Python
希尔顿酒店官方网站:Hilton Hotels
2017/06/01 全球购物
Myprotein俄罗斯官网:欧洲第一运动营养品牌
2019/05/05 全球购物
美国家居装饰网上商店:Lulu & Georgia
2019/09/14 全球购物
大学生村官工作感言
2014/01/10 职场文书
网络编辑岗位职责范本
2014/02/10 职场文书
小学教师师德演讲稿
2014/05/06 职场文书
2014年体育部工作总结
2014/11/13 职场文书
2015年消防工作总结
2015/04/24 职场文书
承诺书应该怎么写?
2019/09/10 职场文书