利用Python抓取行政区划码的方法


Posted in Python onNovember 28, 2016

前言

国家统计局网站上有相对比较齐的行政区划码,对于一些网站来说这是非常基础的数据,所以写了个Python程序将这部分数据抓取下来。

注意:抓取下来以后还要进行简单的人工的整理

示例代码:

# -*- coding:utf-8 -*-
'''
获取国家统计局上的行政区划码
'''
import requests,re
base_url = 'http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/201504/t20150415_712722.html'
 
def get_xzqh():
 html_data = requests.get(base_url).content
 pattern = re.compile('<p class="MsoNormal" style=".*?"><span lang="EN-US" style=".*?">(\d+)<span>.*?</span></span><span style=".*?">(.*?)</span></p>')
 areas = re.findall(pattern,html_data)
 print "code,name,level"
 for area in areas:
  print area[0],area[1].decode('utf-8').replace(u' ',''),area[1].decode('utf-8').count(u' ')
 
if __name__=='__main__':
 get_xzqh()

注意事项:

另外,关于国家地区表的信息,还有另外一种获取渠道,那就是QQ软件自带的国家地区信息表。(文件名为LocList.xml),一般的存储位置为:C:\Program Files\Tencent\QQ\I18N\2052

如需中文版安装中文版QQ即可获取,如需英文版则安装英文版QQ。国际版在1033目录。

code都是按照ISO3166标准写的,极易导入数据库。

总结

以上就是利用Python获取行政区划码的全部内容,希望本文的内容对大家学习或者使用python能有所帮助,如果有疑问大家可以留言交流。

Python 相关文章推荐
python实现图片批量剪切示例
Mar 25 Python
Python3基础之基本数据类型概述
Aug 13 Python
Django中实现点击图片链接强制直接下载的方法
May 14 Python
python Web开发你要理解的WSGI &amp; uwsgi详解
Aug 01 Python
Python实现定时自动关闭的tkinter窗口方法
Feb 16 Python
python PyQt5/Pyside2 按钮右击菜单实例代码
Aug 17 Python
关于Pytorch的MLP模块实现方式
Jan 07 Python
python如何利用Mitmproxy抓包
Oct 10 Python
python 利用opencv实现图像网络传输
Nov 12 Python
python中os.path.join()函数实例用法
May 26 Python
Python利用Turtle绘制哆啦A梦和小猪佩奇
Apr 04 Python
python区块链持久化和命令行接口实现简版
May 25 Python
Python抓取手机号归属地信息示例代码
Nov 28 #Python
Python文本相似性计算之编辑距离详解
Nov 28 #Python
Python实现全角半角字符互转的方法
Nov 28 #Python
Python连接PostgreSQL数据库的方法
Nov 28 #Python
windows及linux环境下永久修改pip镜像源的方法
Nov 28 #Python
Python如何为图片添加水印
Nov 25 #Python
Python pass详细介绍及实例代码
Nov 24 #Python
You might like
PHP中使用asort进行中文排序失效的问题处理
2014/08/18 PHP
php图片的二进制转换实现方法
2014/12/15 PHP
php中将一个对象保存到Session中的方法
2015/03/13 PHP
Js 获取HTML DOM节点元素的方法小结
2009/04/24 Javascript
jQuery对象和DOM对象的相互转化实现代码
2010/03/02 Javascript
JQuery 选择器 xpath 语法应用
2010/05/13 Javascript
JQuery Highcharts 动态生成图表的方法
2013/11/15 Javascript
JavaScript实现同时调用多个函数的方法
2015/11/09 Javascript
基于JS实现EOS隐藏错误提示层代码
2016/04/25 Javascript
JS实现title标题栏文字不间断滚动显示效果
2016/09/07 Javascript
微信小程序  TLS 版本必须大于等于1.2问题解决
2017/02/22 Javascript
JS实现批量上传文件并显示进度功能
2017/06/27 Javascript
老生常谈Bootstrap媒体对象
2017/07/06 Javascript
js中getBoundingClientRect的作用及兼容方案详解
2018/02/01 Javascript
js获取url页面id,也就是最后的数字文件名
2020/09/25 Javascript
Node.js fs模块原理及常见用途
2020/10/22 Javascript
[40:29]2018DOTA2亚洲邀请赛 4.7总决赛 LGD vs Mineski 第一场
2018/04/10 DOTA
[01:46]2018完美盛典章节片——坚守
2018/12/17 DOTA
Python抓取百度查询结果的方法
2015/07/08 Python
python 接口_从协议到抽象基类详解
2017/08/24 Python
python实现批量图片格式转换
2020/06/16 Python
Python爬虫框架scrapy实现downloader_middleware设置proxy代理功能示例
2018/08/04 Python
Python3.5 Pandas模块之DataFrame用法实例分析
2019/04/23 Python
在PyCharm中控制台输出日志分层级分颜色显示的方法
2019/07/11 Python
Laravel框架表单验证格式化输出的方法
2019/09/25 Python
django formset实现数据表的批量操作的示例代码
2019/12/06 Python
基于Tensorflow读取MNIST数据集时网络超时的解决方式
2020/06/22 Python
深入剖析HTML5 内联框架iFrame
2016/05/04 HTML / CSS
股份转让协议书
2014/04/12 职场文书
关于青春的演讲稿
2014/05/05 职场文书
医药销售自荐书
2014/05/29 职场文书
大学生见习期满自我鉴定
2014/09/13 职场文书
经理助理岗位职责
2015/02/02 职场文书
美丽人生观后感
2015/06/03 职场文书
2016年班主任新年寄语
2015/08/18 职场文书
2015团员个人年度总结
2015/11/24 职场文书