使用Python检测文章抄袭及去重算法原理解析


Posted in Python onJune 14, 2019

在互联网出现之前,“抄”很不方便,一是“源”少,而是发布渠道少;而在互联网出现之后,“抄”变得很简单,铺天盖地的“源”源源不断,发布渠道也数不胜数,博客论坛甚至是自建网站,而爬虫还可以让“抄”完全自动化不费劲。这就导致了互联网上的“文章”重复性很高。这里的“文章”只新闻、博客等文字占据绝大部分内容的网页。

使用Python检测文章抄袭及去重算法原理解析

中文新闻网站的“转载”(其实就是抄)现象非常严重,这种“转载”几乎是全文照抄,或改下标题,或是改下编辑姓名,或是文字个别字修改。所以,对新闻网页的去重很有必要。

一、去重算法原理

文章去重(或叫网页去重)是根据文章(或网页)的文字内容来判断多个文章之间是否重复。这是爬虫爬取大量的文本行网页(新闻网页、博客网页等)后要进行的非常重要的一项操作,也是搜索引擎非常关心的一个问题。搜索引擎中抓取的网页是海量的,海量文本的去重算法也出现了很多,比如minihash, simhash等等。

在工程实践中,对simhash使用了很长一段时间,有些缺点,一是算法比较复杂、效率较差;二是准确率一般。

网上也流传着百度采用的一种方法,用文章最长句子的hash值作为文章的标识,hash相同的文章(网页)就认为其内容一样,是重复的文章(网页)。

这个所谓的“百度算法”对工程很友好,但是实际中还是会有很多问题。中文网页的一大特点就是“天下文章一大抄”,各种博文、新闻几乎一字不改或稍作修改就被网站发表了。这个特点,很适合这个“百度算法”。但是,实际中个别字的修改,会导致被转载的最长的那句话不一样,从而其hash值也不一样了,最终结果是,准确率很高,召回率较低。

为了解决这个问题,我提出了nshash(top-n longest sentences hash)算法,即:取文章的最长n句话(实践下来,n=5效果不错)分别做hash值,这n个hash值作为文章的指纹,就像是人的5个手指的指纹,每个指纹都可以唯一确认文章的唯一性。这是对“百度算法”的延伸,准确率还是很高,但是召回率大大提高,原先一个指纹来确定,现在有n个指纹来招回了。

二、算法实现

该算法的原理简单,实现起来也不难。比较复杂一点的是对于一篇文章(网页)返回一个similar_id,只要该ID相同则文章相似,通过groupby similar_id即可达到去重目的。

为了记录文章指纹和similar_id的关系,我们需要一个key-value数据库,本算法实现了内存和硬盘两种key-value数据库类来记录这种关系:

HashDBLeveldb 类:基于leveldb实现, 可用于海量文本的去重;

HashDBMemory 类:基于Python的dict实现,可用于中等数量(只要Python的dict不报内存错误)的文本去重。

这两个类都具有get()和put()两个方法,如果你想用Redis或MySQL等其它数据库来实现HashDB,可以参照这两个类的实现进行实现。

使用Python检测文章抄袭及去重算法原理解析

使用Python检测文章抄袭及去重算法原理解析

HashDBLeveldb类的实现

使用Python检测文章抄袭及去重算法原理解析

使用Python检测文章抄袭及去重算法原理解析

HashDBMemory类的实现

从效率上看,肯定是HashDBMemory速度更快。利用nshash对17400篇新闻网页内容的测试结果如下:

HashDBLeveldb: 耗时2.47秒; HashDBMemory: 耗时1.6秒;

具体测试代码请看 example/test.py。

有了这两个类,就可以实现nshash的核心算法了。

首先,对文本进行分句,以句号、感叹号、问号、换行符作为句子的结尾标识,一个正在表达式就可以分好句了。

其次,挑选最长的n句话,分别进行hash计算。hash函数可以用Python自带模块hashlib中的md5, sha等等,也可以用我在爬虫教程中多次提到的farmhash。

最后,我们需要根据这n个hash值给文本内容一个similar_id,通过上面两种HashDB的类的任意一种都可以比较容易实现。其原理就是,similar_id从0开始,从HashDB中查找这n个hash值是否有对应的similar_id,如果有就返回这个对应的similar_id;如果没有,就让当前similar_id加1作为这n个hash值对应的similar_id,将这种对应关系存入HashDB,并返回该similar_id即可。

这个算法实现为NSHash类:

使用Python检测文章抄袭及去重算法原理解析

使用Python检测文章抄袭及去重算法原理解析

NSHash类的实现

三、使用方法 

import nshash
nsh = nshash.NSHash(name='test', hashfunc='farmhash', hashdb='memory')
similar_id = nsh.get_similar(doc_text)

NSHash 类有三个参数:

  • name : 用于hashdb保存到硬盘的文件名,如果hashdb是HashDBMemory, 则用pickle序列化到硬盘;如果是HashDBLeveldb,则leveldb目录名为:name+'.hashdb'。name按需随便起即可。
  • hashfunc : 计算hash值的具体函数类别,目前实现两种类型: md5 和 farmhash 。默认是 md5 ,方便Windows上安装farmhash不方便。
  • hashdb :默认是 memory 即选择HashDBMemory,否则是HashDBLeveldb。

至于如何利用similar_id进行海量文本的去重,这要结合你如何存储、索引这些海量文本。可参考 example/test.py 文件。这个test是对excel中保存的新闻网页进行去重的例子。

总结

以上所述是小编给大家介绍的使用Python检测文章抄袭及去重算法原理解析 ,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

Python 相关文章推荐
使用Python中的线程进行网络编程的入门教程
Apr 15 Python
Python文件和流(实例讲解)
Sep 12 Python
Python中Threading用法详解
Dec 27 Python
python 实现判断ip连通性的方法总结
Apr 22 Python
利用Python进行图像的加法,图像混合(附代码)
Jul 14 Python
PyCharm 配置远程python解释器和在本地修改服务器代码
Jul 23 Python
PyTorch学习:动态图和静态图的例子
Jan 06 Python
keras获得某一层或者某层权重的输出实例
Jan 24 Python
Python如何在循环内使用list.remove()
Jun 01 Python
Python2及Python3如何实现兼容切换
Sep 01 Python
Python 的 __str__ 和 __repr__ 方法对比
Sep 02 Python
python实现企业微信定时发送文本消息的实例代码
Nov 25 Python
Ubuntu下Anaconda和Pycharm配置方法详解
Jun 14 #Python
PyQt5 加载图片和文本文件的实例
Jun 14 #Python
pyqt5 使用label控件实时显示时间的实例
Jun 14 #Python
ubuntu 18.04搭建python环境(pycharm+anaconda)
Jun 14 #Python
pyqt5 comboBox获得下标、文本和事件选中函数的方法
Jun 14 #Python
PyQt4实时显示文本内容GUI的示例
Jun 14 #Python
详解Python 定时框架 Apscheduler原理及安装过程
Jun 14 #Python
You might like
咖啡豆分级制度 咖啡豆等级分类 咖啡豆是按口感分类的吗?
2021/03/05 新手入门
php access 数据连接与读取保存编辑数据的实现代码
2010/05/12 PHP
PHP操作XML作为数据库的类
2010/12/19 PHP
10个实用的PHP代码片段
2011/09/02 PHP
深入for,while,foreach遍历时间比较的详解
2013/06/08 PHP
PHP实现git部署的方法教程
2017/12/19 PHP
基于jQuery实现的水平和垂直居中的div窗口
2011/08/08 Javascript
JavaScript多图片上传案例
2015/09/28 Javascript
jQuery Validate初步体验(一)
2015/12/12 Javascript
JS常用算法实现代码
2016/11/14 Javascript
详解如何优雅地在React项目中使用Redux
2017/12/28 Javascript
Vue中render方法的使用详解
2018/01/26 Javascript
在 Angular中 使用 Lodash 的方法
2018/02/11 Javascript
vue-lazyload使用总结(推荐)
2018/11/01 Javascript
微信小程序 image组件遇到的问题
2019/05/28 Javascript
详解一些适用于Node.js的命名约定
2019/12/08 Javascript
Javascript原生ajax请求代码实例
2020/02/20 Javascript
基于JavaScript实现表格隔行换色
2020/05/08 Javascript
vue在图片上传的时候压缩图片
2020/11/18 Vue.js
[01:13:46]iG vs Winstrike 2018国际邀请赛小组赛BO2 第一场 8.16
2018/08/17 DOTA
Python求导数的方法
2015/05/09 Python
Python双精度浮点数运算并分行显示操作示例
2017/07/21 Python
python+pyqt实现右下角弹出框
2017/10/26 Python
python读写csv文件方法详细总结
2019/07/05 Python
基于python cut和qcut的用法及区别详解
2019/11/22 Python
python3.6.8 + pycharm + PyQt5 环境搭建的图文教程
2020/06/11 Python
学术会议邀请函范文
2014/01/22 职场文书
大学生旷课检讨书
2014/01/22 职场文书
俄罗斯商务邀请函
2014/01/26 职场文书
乡镇干部先进事迹材料
2014/02/03 职场文书
老同学聚会感言
2014/02/23 职场文书
领导个人查摆剖析材料
2014/10/29 职场文书
中学生清明节演讲稿
2015/03/18 职场文书
2015新生加入学生会自荐书
2015/03/24 职场文书
投资公司董事长岗位职责
2015/04/16 职场文书
2015年度个人工作总结报告
2015/10/24 职场文书