编程 Python

python脚本爬取字体文件的实现方法

Posted in Python onApril 29, 2017

前言

大家应该都有所体会，为了提高验证码的识别准确率，我们当然要首先得到足够多的测试数据。验证码下载下来容易，但是需要人脑手工识别着实让人受不了，于是我就想了个折衷的办法——自己造验证码。

为了保证多样性，首先当然需要不同的字模了，直接用类似ttf格式的字体文件即可，网上有很多ttf格式的字体包供我们下载。当然，我不会傻到手动下载解压缩，果断要写个爬虫了。

实现方法

网站一：fontsquirrel.com

这个网站的字体可以免费下载，但是有很多下载点都是外链连接到其他网站的，这部分得忽略掉。

#coding:utf-8
import urllib2,cookielib,sys,re,os,zipfile
import numpy as np
#网站登陆
cj=cookielib.CookieJar()
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders=[('User-agent','Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36))')]
urllib2.install_opener(opener)
#搜索可下载连接
def search(path):
 request=urllib2.Request(path)
 response=urllib2.urlopen(request)
 html=response.read()
 html=html.replace('\n',' ')#将所有的回车去掉，因为正则表达式是单行匹配。。。。。。
 urls=re.findall(r'<a href="(.*?)" rel="external nofollow" >(.*?)</a>',html)
 for i in urls:
  url,inner=i
  if not re.findall(r'Download ',inner)==[] and re.findall(r'offsite',inner)==[] and url not in items:
   items.append(url)
items=[]#保存下载地址
for i in xrange(15):
 host='http://www.fontsquirrel.com/fonts/list/find_fonts/'+str(i*50)+'?filter%5Bdownload%5D=local'
 search(host)
if not os.path.exists('ttf'):
 os.mkdir('ttf')
os.chdir('ttf')
def unzip(rawfile,outputdir):
 if zipfile.is_zipfile(rawfile):
  print 'yes'
  fz=zipfile.ZipFile(rawfile,'r')
  for files in fz.namelist():
   print(files) #打印zip归档中目录
   fz.extract(files,outputdir)#解压缩文件
 else:
  print 'no'
for i in items: 
 print i
 request=urllib2.Request('http://www.fontsquirrel.com'+i)
 response=urllib2.urlopen(request)
 html=response.read()
 name=i.split('/')[-1]+'.zip'
 f=open(name,'w')
 f.write(html)
 f.close()#文件记得关闭，否则下面unzip会出错
 unzip(name,'./')
 os.remove(name)
os.listdir(os.getcwd())
os.chdir('../')
files=os.listdir('ttf/')
for i in files:#删除无用文件
 if not (i.split('.')[-1]=='ttf' or i.split('.')[-1]=='otf'):
  if os.path.isdir(i):
   os.removedirs('ttf/'+i)
  else:
   os.remove('ttf/'+i)
print len(os.listdir('ttf/'))

搞到了2000+个字体，种类也挺多的，蛮好。

网站二：dafont.com

这个网站的字体花样比较多，下载起来也比较方便，恶心的是他的文件名的编码好像有点问题。

#coding:utf-8
import urllib2,cookielib,sys,re,os,zipfile
import shutil
import numpy as np
cj=cookielib.CookieJar()
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders=[('User-agent','Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36))')]
urllib2.install_opener(opener)
items=[]
def search(path):
 request=urllib2.Request(path)
 response=urllib2.urlopen(request)
 html=response.read()
 html=html.replace('\n',' ')
 urls=re.findall(r'href=\"(http://dl.dafont.com/dl/\?f=.*?)\" >',html)
 items.extend(urls)
for i in xrange(117):
 host='http://www.dafont.com/new.php?page='+str(i+1)
 search(host)
 print 'Page'+str(i+1)+'done'
 items=list(set(items))
 print len(items)
if not os.path.exists('ttf2'):
 os.mkdir('ttf2')
os.chdir('ttf2')
def unzip(rawfile,outputdir):
 if zipfile.is_zipfile(rawfile):
  print 'yes'
  fz=zipfile.ZipFile(rawfile,'r')
  for files in fz.namelist():
   print(files) #打印zip归档中目录
   fz.extract(files,outputdir)
 else:
  print 'no'
for i in items: 
 print i
 request=urllib2.Request(i)
 response=urllib2.urlopen(request)
 html=response.read()
 name=i.split('=')[-1]+'.zip'
 f=open(name,'w')
 f.write(html)
 f.close()
 unzip(name,'./')
 os.remove(name)
print os.listdir(os.getcwd())
for root ,dire,fis in os.walk('./'):#递归遍历文件夹
 for i in fis:
  if not (i.split('.')[-1]=='ttf' or i.split('.')[-1]=='otf'):
   os.remove(root+i)
   print i
for i in os.listdir('./'):
 if os.path.isdir(i):
  os.rmdir(i)
os.chdir('../')

总体操作跟之前的差不多，跑了几十分钟下了4000多的字体。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家学习或者使用python能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对三水点靠木的支持。

python脚本爬取字体文件的实现方法

- Author -

Myths

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python 返回汉字的汉语拼音

Feb 27 Python

pygame播放音乐的方法

May 19 Python

Python中sort和sorted函数代码解析

Jan 25 Python

使用python实现简单五子棋游戏

Jun 18 Python

Python代理IP爬虫的新手使用教程

Sep 05 Python

使用 Python 处理3万多条数据只要几秒钟

Jan 19 Python

从python读取sql的实例方法

Jul 21 Python

Python读取Excel一列并计算所有对象出现次数的方法

Sep 04 Python

python 爬虫基本使用——统计杭电oj题目正确率并排序

Oct 26 Python

Prometheus开发中间件Exporter过程详解

Nov 30 Python

详解BeautifulSoup获取特定标签下内容的方法

Dec 07 Python

python实现图像高斯金字塔的示例代码

Dec 11 Python

Python在图片中添加文字的两种方法

Apr 29 #Python

Python实现对字符串的加密解密方法示例

Apr 29 #Python

Python实现通过文件路径获取文件hash值的方法

Apr 29 #Python

python基于pyDes库实现des加密的方法

Apr 29 #Python

Python简单实现Base64编码和解码的方法

Apr 29 #Python

Python变量和字符串详解

Apr 29 #Python

python实现unicode转中文及转换默认编码的方法

Apr 29 #Python

You might like

PHP 数组入门教程小结

2009/05/20 PHP

PHP 类型转换函数intval

2009/06/20 PHP

php 读取文件乱码问题

2010/02/20 PHP

Yii不依赖Model的表单生成器用法实例

2014/12/04 PHP

php中 ob_start等函数截取标准输出的方法

2015/06/22 PHP

PHP防盗链的基本思想防盗链的设置方法

2015/09/25 PHP

PHP生成和获取XML格式数据的方法

2016/03/04 PHP

thinkPHP实现的联动菜单功能详解

2017/05/05 PHP

PHP数组常用函数实例小结

2018/08/20 PHP

PHP中“=>

2019/03/01 PHP

Jquery iframe内部出滚动条

2010/02/11 Javascript

JS使用replace()方法和正则表达式进行字符串的搜索与替换实例

2014/04/10 Javascript

Javascript保存网页为图片借助于html2canvas库实现

2014/09/05 Javascript

JavaScript获取指定元素位置的方法

2015/04/08 Javascript

JS实现仿QQ聊天窗口抖动特效

2015/05/10 Javascript

jquery的幻灯片图片切换效果代码分享

2015/09/07 Javascript

jQuery.trim() 函数及trim()用法详解

2015/10/26 Javascript

浅谈JavaScript异步编程

2017/01/20 Javascript

详述 Sublime Text 打开 GBK 格式中文乱码的解决方法

2017/10/26 Javascript

用React-Native+Mobx做一个迷你水果商城APP(附源码)

2017/12/25 Javascript

jQuery中的类名选择器（.class）用法简单示例

2018/05/14 jQuery

玩转vue的slot内容分发

2018/09/22 Javascript

详解iframe跨域的几种常用方法(小结)

2019/04/29 Javascript

Vue.js自定义指令学习使用详解

2019/10/19 Javascript

js实现省级联动（数据结构优化）

2020/07/17 Javascript

从零学Python之hello world

2014/05/21 Python

python生成验证码图片代码分享

2016/01/28 Python

PyCharm鼠标右键不显示Run unittest的解决方法

2018/11/30 Python

python 接收处理外带的参数方法

2018/12/03 Python

python3 sorted 如何实现自定义排序标准

2020/03/12 Python

个人自荐书

2013/12/20 职场文书

匿名信格式范文

2015/05/27 职场文书

承诺书的内容有哪些,怎么写?

2019/06/21 职场文书

Laravel中获取IP的真实地理位置

2021/04/01 PHP

Python数据可视化之绘制柱状图和条形图

2021/05/25 Python

解决Vmware虚拟机安装centos8报错“Section %Packages Does Not End With %End. Pane Is Dead”

2022/06/01 Servers