用python结合jieba和wordcloud实现词云效果


Posted in Python onSeptember 05, 2017

0x00 前言

突然想做一个漏洞词云,看看哪些漏洞比较高频,如果某些厂商有漏洞公开(比如ly),也好针对性挖掘。就选x云吧(镜像站 http://wy.hxsec.com/bugs.php )。用jieba和wordcloud两个强大的第三方库,就可以轻松打造出x云漏洞词云。

github地址: https://github.com/theLSA/wooyun_wordcloud

本站下载地址:wooyun_wordcloud

0x01 爬取标题

直接上代码:

#coding:utf-8
#Author:LSA
#Description:wordcloud for wooyun
#Date:20170904

import urllib
import urllib2
import re
import threading
import Queue

q0 = Queue.Queue()

threads = 20

threadList = []

def gettitle():
 while not q0.empty():

 i = q0.get()
 url = 'http://wy.hxsec.com/bugs.php?page=' + str(i)
 html = urllib.urlopen(url).read()
 reg = re.compile(r'<li style="width:60%;height:25px;background-color:#FFFFFF;float:left" ><a href=".*?" rel="external nofollow" >(.*?)</a>')
 titleList = re.findall(reg,html)
 fwy = open("wooyunBugTitle.txt","a")
 for title in titleList:
 fwy.write(title+'\n')
 fwy.flush()
 fwy.close()
 print 'Page ' + str(i) + ' over!'

def main():
 for page in range(1,2962):
 q0.put(page)
 for thread in range(threads):
 t = threading.Thread(target=gettitle)
 t.start()
 threadList.append(t)
 for th in threadList:
 th.join()

 print '***********************All pages over!**********************'

if __name__ == '__main__':
 main()

0x02 打造词云

还是直接上代码:

# coding: utf-8

import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt

data = open("wooyunBugTitle.txt","r").read()
cutData = jieba.cut(data, cut_all=True)
word = " ".join(cutData)

cloud = WordCloud(
 #设置字体,不指定可能会出现中文乱码
 font_path="msyh.ttf",
 #font_path=path.join(e,'xxx.ttc'),
 #设置背景色
 background_color='white',
 #词云形状
 #mask=color_mask,
 #允许最大词汇
 max_words=2000,
 #最大号字体
 max_font_size=40
 )

wc = cloud.generate(word)
wc.to_file("wooyunwordcloud.jpg") 
plt.imshow(wc)
plt.axis("off")
plt.show()

0x03 效果演示:

用python结合jieba和wordcloud实现词云效果

用python结合jieba和wordcloud实现词云效果

用python结合jieba和wordcloud实现词云效果

0x04 结语

由词云图可以看出,SQL注入依旧风光无限,其次是命令执行,继而是信息泄漏,整体看还是比较直观的。

Python 相关文章推荐
Python基于Tkinter的HelloWorld入门实例
Jun 17 Python
python实现下载指定网址所有图片的方法
Aug 08 Python
尝试用最短的Python代码来实现服务器和代理服务器
Jun 23 Python
Django验证码的生成与使用示例
May 20 Python
Python3生成手写体数字方法
Jan 30 Python
python实现mysql的读写分离及负载均衡
Feb 04 Python
python opencv 直方图反向投影的方法
Feb 24 Python
纯python进行矩阵的相乘运算的方法示例
Jul 17 Python
Python求两个字符串最长公共子序列代码实例
Mar 05 Python
PyTorch实现重写/改写Dataset并载入Dataloader
Jul 14 Python
弄清Pytorch显存的分配机制
Dec 10 Python
Python爬虫入门教程02之笔趣阁小说爬取
Jan 24 Python
python基础_文件操作实现全文或单行替换的方法
Sep 04 #Python
python 生成器协程运算实例
Sep 04 #Python
python 文件操作删除某行的实例
Sep 04 #Python
Django数据库操作的实例(增删改查)
Sep 04 #Python
python中Matplotlib实现绘制3D图的示例代码
Sep 04 #Python
Python2实现的LED大数字显示效果示例
Sep 04 #Python
Python2随机数列生成器简单实例
Sep 04 #Python
You might like
上海永华YH-R296(华普R-96)12波段立体声收音机的分析和打理
2021/03/02 无线电
利用PHP实现与ASP Banner组件相似的类
2006/10/09 PHP
PHP中如何防止外部恶意提交调用ajax接口
2016/04/11 PHP
Laravel+jQuery实现AJAX分页效果
2016/09/14 PHP
详解PHP归并排序的实现
2016/10/18 PHP
PHP操作Redis常用技巧总结
2018/04/24 PHP
JavaScript高级程序设计 读书笔记之十一 内置对象Global
2012/03/07 Javascript
jquery1.83 之前所有与异步列队相关的模块详细介绍
2012/11/13 Javascript
Js base64 加密解密介绍
2013/10/11 Javascript
动态创建script标签实现跨域资源访问的方法介绍
2014/02/28 Javascript
jquery实现通用版鼠标经过淡入淡出效果
2014/06/15 Javascript
异步JavaScript编程中的Promise使用方法
2015/07/28 Javascript
基于JavaScript实现通用tab选项卡(通用性强)
2016/01/07 Javascript
利用原生JS自动生成文章标题树的实例
2016/08/22 Javascript
javascript cookie基础应用之记录用户名的方法
2016/09/20 Javascript
jQuery扩展实现text提示还能输入多少字节的方法
2016/11/28 Javascript
JavaScript表单验证完美代码
2017/03/02 Javascript
Vue cli构建及项目打包以及出现的问题解决
2018/08/27 Javascript
详解关于Vue2.0路由开启keep-alive时需要注意的地方
2018/09/18 Javascript
微信小程序实现无限滚动列表
2020/05/29 Javascript
详解Vue源码学习之双向绑定
2019/04/10 Javascript
jquery获取并修改触发事件的DOM元素示例【基于target 属性】
2019/10/10 jQuery
JavaScript实现4位随机验证码的生成
2021/01/28 Javascript
详细解读Python中的__init__()方法
2015/05/02 Python
Python爬取成语接龙类网站
2018/10/19 Python
python求最大值,不使用内置函数的实现方法
2019/07/09 Python
使用Fabric自动化部署Django项目的实现
2019/09/27 Python
简单了解Python write writelines区别
2020/02/27 Python
Python如何使用正则表达式爬取京东商品信息
2020/06/01 Python
Columbia美国官网:美国著名的户外服装品牌
2016/11/24 全球购物
爱心捐书活动总结
2014/07/05 职场文书
逃课检讨书范文
2015/05/06 职场文书
学历证明样本
2015/06/16 职场文书
趣味运动会赞词
2015/07/22 职场文书
2019年房屋委托租赁合同范本(通用版)!
2019/07/17 职场文书
Java实现添加条码或二维码到Word文档
2022/06/01 Java/Android