Python正则抓取新闻标题和链接的方法示例


Posted in Python onApril 24, 2017

本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:

#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
  pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
  title = re.findall(pat, info)
  titles='\n'.join(title)
  #print titles
#修改指定字符串
  titles1=titles.replace('class="title"','title')
  titles2=titles1.replace('>',':')
  titles3=titles2.replace('href','url:')
  titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
  save=open('xinwen.txt','w')
  save.write(titles4)
  save.close()
titles = extract_title(doc)
Python 相关文章推荐
python使用xlrd模块读写Excel文件的方法
May 06 Python
Python设计模式编程中解释器模式的简单程序示例分享
Mar 02 Python
python 简单的多线程链接实现代码
Aug 28 Python
python 迭代器和iter()函数详解及实例
Mar 21 Python
Python中使用haystack实现django全文检索搜索引擎功能
Aug 26 Python
Python subprocess模块功能与常见用法实例详解
Jun 28 Python
Flask框架Flask-Principal基本用法实例分析
Jul 23 Python
python使用xlrd和xlwt读写Excel文件的实例代码
Sep 05 Python
wxPython实现画图板
Aug 27 Python
pytorch 限制GPU使用效率详解(计算效率)
Jun 27 Python
Python实现迪杰斯特拉算法过程解析
Sep 18 Python
python中使用.py配置文件的方法详解
Nov 23 Python
Python的爬虫框架scrapy用21行代码写一个爬虫
Apr 24 #Python
fastcgi文件读取漏洞之python扫描脚本
Apr 23 #Python
批量获取及验证HTTP代理的Python脚本
Apr 23 #Python
深入理解python中的select模块
Apr 23 #Python
Python3如何解决字符编码问题详解
Apr 23 #Python
Python制作刷网页流量工具
Apr 23 #Python
Python读取指定目录下指定后缀文件并保存为docx
Apr 23 #Python
You might like
基于数据库的在线人数,日访问量等统计
2006/10/09 PHP
phpfans留言版用到的install.php
2007/01/04 PHP
一个典型的PHP分页实例代码分享
2011/07/28 PHP
Laravel 4 初级教程之安装及入门
2014/10/30 PHP
javascript eval函数深入认识
2009/02/21 Javascript
Web前端设计模式  制作漂亮的弹出层
2010/10/29 Javascript
使用Java实现简单的server/client回显功能的方法介绍
2013/05/03 Javascript
下拉列表选择项的选中在不同浏览器中的兼容性问题探讨
2013/09/18 Javascript
jQuery使用正则表达式限制文本框只能输入数字
2016/06/18 Javascript
jQuery实现侧浮窗与中浮窗切换效果的方法
2016/09/05 Javascript
JS中使用new Date(str)创建时间对象不兼容firefox和ie的解决方法(两种)
2016/12/14 Javascript
Bootstrap实现的标签页内容切换显示效果示例
2017/05/25 Javascript
判断jQuery是否加载完成,没完成继续判断的解决方法
2017/12/06 jQuery
JS实现的合并多个数组去重算法示例
2018/04/11 Javascript
vue-cli项目根据线上环境分别打出测试包和生产包
2018/05/23 Javascript
js设置鼠标悬停改变背景色实现详解
2019/06/26 Javascript
Vue实战教程之仿肯德基宅急送App
2019/07/19 Javascript
Python升级提示Tkinter模块找不到的解决方法
2014/08/22 Python
Python中请使用isinstance()判断变量类型
2014/08/25 Python
在Django中进行用户注册和邮箱验证的方法
2016/05/09 Python
Python基于socket实现简单的即时通讯功能示例
2018/01/16 Python
Python 确定多项式拟合/回归的阶数实例
2018/12/29 Python
python实现播放音频和录音功能示例代码
2018/12/30 Python
Python定时任务APScheduler的实例实例详解
2019/07/22 Python
matplotlib实现数据实时刷新的示例代码
2021/01/05 Python
Python实现石头剪刀布游戏
2021/01/20 Python
纯CSS3代码实现switch滑动开关按钮效果
2016/08/30 HTML / CSS
说出一些常用的类,包,接口
2014/09/22 面试题
static全局变量与普通的全局变量有什么区别?static局部变量和普通局部变量有什么区别?static函数与普通函数有什么区别?
2015/02/22 面试题
环境工程大学生个人的自我评价
2013/10/08 职场文书
新闻编辑求职信
2014/04/09 职场文书
大学生志愿者活动总结
2014/06/27 职场文书
庆祝教师节演讲稿
2014/09/03 职场文书
公司放假通知范文
2015/04/14 职场文书
同意离婚答辩状
2015/05/22 职场文书
Vue提供的三种调试方式你知道吗
2022/01/18 Vue.js