python文本数据相似度的度量


Posted in Python onMarch 12, 2018

编辑距离

编辑距离,又称为Levenshtein距离,是用于计算一个字符串转换为另一个字符串时,插入、删除和替换的次数。例如,将'dad'转换为'bad'需要一次替换操作,编辑距离为1。

nltk.metrics.distance.edit_distance函数实现了编辑距离。

from nltk.metrics.distance import edit_distance

str1 = 'bad'
str2 = 'dad'
print(edit_distance(str1, str2))

N元语法相似度

n元语法只是简单地表示文本中n个标记的所有可能的连续序列。n元语法具体是这样的

import nltk

#这里展示2元语法
text1 = 'Chief Executive Officer'

#bigram考虑匹配开头和结束,所有使用pad_right和pad_left
ceo_bigrams = nltk.bigrams(text1.split(),pad_right=True,pad_left=True)

print(list(ceo_bigrams))
[(None, 'Chief'), ('Chief', 'Executive'), 
('Executive', 'Officer'), ('Officer', None)]

2元语法相似度计算

import nltk

#这里展示2元语法
def bigram_distance(text1, text2):
  #bigram考虑匹配开头和结束,所以使用pad_right和pad_left
  text1_bigrams = nltk.bigrams(text1.split(),pad_right=True,pad_left=True)
  
  text2_bigrams = nltk.bigrams(text2.split(), pad_right=True, pad_left=True)
  
  #交集的长度
  distance = len(set(text1_bigrams).intersection(set(text2_bigrams)))
  
  return distance


text1 = 'Chief Executive Officer is manager'

text2 = 'Chief Technology Officer is technology manager'

print(bigram_distance(text1, text2)) #相似度为3

jaccard相似性

jaccard距离度量的两个集合的相似度,它是由 (集合1交集合2)/(结合1交结合2)计算而来的。

实现方式

from nltk.metrics.distance import jaccard_distance

#这里我们以单个的字符代表文本
set1 = set(['a','b','c','d','a'])
set2 = set(['a','b','e','g','a'])

print(jaccard_distance(set1, set2))

0.6666666666666666

masi距离

masi距离度量是jaccard相似度的加权版本,当集合之间存在部分重叠时,通过调整得分来生成小于jaccard距离值。

from nltk.metrics.distance import jaccard_distance,masi_distance

#这里我们以单个的字符代表文本
set1 = set(['a','b','c','d','a'])
set2 = set(['a','b','e','g','a'])

print(jaccard_distance(set1, set2))
print(masi_distance(set1, set2))

0.6666666666666666
0.22000000000000003

余弦相似度

nltk提供了余弦相似性的实现方法,比如有一个词语空间

word_space = [w1,w2,w3,w4]

text1 = 'w1 w2 w1 w4 w1'
text2 = 'w1 w3 w2'

#按照word_space位置,计算每个位置词语出现的次数

text1_vector = [3,1,0,1]
text2_vector = [1,1,1,0]

[3,1,0,1]意思是指w1出现了3次,w2出现了1次,w3出现0次,w4出现1次。

好了下面看代码,计算text1与text2的余弦相似性

from nltk.cluster.util import cosine_distance

text1_vector = [3,1,0,1]
text2_vector = [1,1,1,0]

print(cosine_distance(text1_vector,text2_vector))

0.303689376177

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python修改字典内key对应值的方法
Jul 11 Python
Linux上安装Python的PIL和Pillow库处理图片的实例教程
Jun 23 Python
关于pip的安装,更新,卸载模块以及使用方法(详解)
May 19 Python
详细解读tornado协程(coroutine)原理
Jan 15 Python
python使用threading.Condition交替打印两个字符
May 07 Python
pyinstaller打包单个exe后无法执行错误的解决方法
Jun 21 Python
使用python对多个txt文件中的数据进行筛选的方法
Jul 10 Python
django admin后管定制-显示字段的实例
Mar 11 Python
使用jupyter Nodebook查看函数或方法的参数以及使用情况
Apr 14 Python
python报错TypeError: ‘NoneType‘ object is not subscriptable的解决方法
Nov 05 Python
关于python scrapy中添加cookie踩坑记录
Nov 17 Python
python3 实现mysql数据库连接池的示例代码
Apr 17 Python
python使用jieba实现中文分词去停用词方法示例
Mar 11 #Python
python实现拓扑排序的基本教程
Mar 11 #Python
Python实现图片尺寸缩放脚本
Mar 10 #Python
TensorFlow平台下Python实现神经网络
Mar 10 #Python
python构建深度神经网络(续)
Mar 10 #Python
python构建深度神经网络(DNN)
Mar 10 #Python
Python使用numpy实现BP神经网络
Mar 10 #Python
You might like
php 邮件发送问题解决
2014/03/22 PHP
php通过Chianz.com获取IP地址与地区的方法
2015/01/14 PHP
php身份证号码检查类实例
2015/06/18 PHP
Laravel框架控制器的request与response用法示例
2019/09/30 PHP
js性能优化 如何更快速加载你的JavaScript页面
2012/03/17 Javascript
利用原生JavaScript获取元素样式只是获取而已
2014/10/08 Javascript
JavaScript lastIndexOf方法入门实例(计算指定字符在字符串中最后一次出现的位置)
2014/10/17 Javascript
javascript实现多级联动下拉菜单的方法
2015/02/06 Javascript
Jq通过td获取同行其它列td的方法
2016/10/05 Javascript
canvas实现简易的圆环进度条效果
2017/02/28 Javascript
详解使用create-react-app快速构建React开发环境
2018/05/16 Javascript
微信小程序实现发红包功能
2018/07/11 Javascript
深入浅析var,let,const的异同点
2018/08/07 Javascript
在Vue中使用axios请求拦截的实现方法
2018/10/25 Javascript
vue中多路由表头吸顶实现的几种布局方式
2019/04/12 Javascript
Vue自定义多选组件使用详解
2020/09/08 Javascript
[03:34]2014DOTA2西雅图国际邀请赛 淘汰赛7月15日TOPPLAY
2014/07/15 DOTA
[53:13]DOTA2-DPC中国联赛 正赛 DLG vs PHOENIX BO3 第三场 1月18日
2021/03/11 DOTA
python基础教程之实现石头剪刀布游戏示例
2014/02/11 Python
零基础写python爬虫之爬虫的定义及URL构成
2014/11/04 Python
浅谈Python里面小数点精度的控制
2018/07/16 Python
python设计微型小说网站(基于Django+Bootstrap框架)
2019/07/08 Python
Python基于QQ邮箱实现SSL发送
2020/04/26 Python
Python实现FTP文件定时自动下载的步骤
2020/12/19 Python
css3模拟jq点击事件的实例代码
2017/07/06 HTML / CSS
Yves Rocher伊夫·黎雪美国官网:法国始创植物美肌1959
2019/01/09 全球购物
法国亚马逊官方网站:Amazon.fr
2020/12/19 全球购物
大学生物业管理求职信
2013/10/24 职场文书
学生打架检讨书1000字
2014/01/16 职场文书
精彩的广告词
2014/03/19 职场文书
出国留学担保书
2014/05/20 职场文书
2014审计局领导班子民主生活会对照检查材料思想汇报
2014/09/20 职场文书
市场总监岗位职责
2015/02/11 职场文书
小学生表扬稿范文
2015/05/05 职场文书
六一儿童节主持开场白
2015/05/28 职场文书
高三教师工作总结2015
2015/07/21 职场文书