python文本数据相似度的度量


Posted in Python onMarch 12, 2018

编辑距离

编辑距离,又称为Levenshtein距离,是用于计算一个字符串转换为另一个字符串时,插入、删除和替换的次数。例如,将'dad'转换为'bad'需要一次替换操作,编辑距离为1。

nltk.metrics.distance.edit_distance函数实现了编辑距离。

from nltk.metrics.distance import edit_distance

str1 = 'bad'
str2 = 'dad'
print(edit_distance(str1, str2))

N元语法相似度

n元语法只是简单地表示文本中n个标记的所有可能的连续序列。n元语法具体是这样的

import nltk

#这里展示2元语法
text1 = 'Chief Executive Officer'

#bigram考虑匹配开头和结束,所有使用pad_right和pad_left
ceo_bigrams = nltk.bigrams(text1.split(),pad_right=True,pad_left=True)

print(list(ceo_bigrams))
[(None, 'Chief'), ('Chief', 'Executive'), 
('Executive', 'Officer'), ('Officer', None)]

2元语法相似度计算

import nltk

#这里展示2元语法
def bigram_distance(text1, text2):
  #bigram考虑匹配开头和结束,所以使用pad_right和pad_left
  text1_bigrams = nltk.bigrams(text1.split(),pad_right=True,pad_left=True)
  
  text2_bigrams = nltk.bigrams(text2.split(), pad_right=True, pad_left=True)
  
  #交集的长度
  distance = len(set(text1_bigrams).intersection(set(text2_bigrams)))
  
  return distance


text1 = 'Chief Executive Officer is manager'

text2 = 'Chief Technology Officer is technology manager'

print(bigram_distance(text1, text2)) #相似度为3

jaccard相似性

jaccard距离度量的两个集合的相似度,它是由 (集合1交集合2)/(结合1交结合2)计算而来的。

实现方式

from nltk.metrics.distance import jaccard_distance

#这里我们以单个的字符代表文本
set1 = set(['a','b','c','d','a'])
set2 = set(['a','b','e','g','a'])

print(jaccard_distance(set1, set2))

0.6666666666666666

masi距离

masi距离度量是jaccard相似度的加权版本,当集合之间存在部分重叠时,通过调整得分来生成小于jaccard距离值。

from nltk.metrics.distance import jaccard_distance,masi_distance

#这里我们以单个的字符代表文本
set1 = set(['a','b','c','d','a'])
set2 = set(['a','b','e','g','a'])

print(jaccard_distance(set1, set2))
print(masi_distance(set1, set2))

0.6666666666666666
0.22000000000000003

余弦相似度

nltk提供了余弦相似性的实现方法,比如有一个词语空间

word_space = [w1,w2,w3,w4]

text1 = 'w1 w2 w1 w4 w1'
text2 = 'w1 w3 w2'

#按照word_space位置,计算每个位置词语出现的次数

text1_vector = [3,1,0,1]
text2_vector = [1,1,1,0]

[3,1,0,1]意思是指w1出现了3次,w2出现了1次,w3出现0次,w4出现1次。

好了下面看代码,计算text1与text2的余弦相似性

from nltk.cluster.util import cosine_distance

text1_vector = [3,1,0,1]
text2_vector = [1,1,1,0]

print(cosine_distance(text1_vector,text2_vector))

0.303689376177

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python脚本实现数据导出excel格式的简单方法(推荐)
Dec 30 Python
python给微信好友定时推送消息的示例
Feb 20 Python
PyQt弹出式对话框的常用方法及标准按钮类型
Feb 27 Python
Python3.5基础之NumPy模块的使用图文与实例详解
Apr 24 Python
eclipse创建python项目步骤详解
May 10 Python
Python求两点之间的直线距离(2种实现方法)
Jul 07 Python
python将print输出的信息保留到日志文件中
Sep 27 Python
Python concurrent.futures模块使用实例
Dec 24 Python
python实现udp传输图片功能
Mar 20 Python
python实现人像动漫化的示例代码
May 17 Python
Python中快速掌握Data Frame的常用操作
Mar 31 Python
Matlab如何实现矩阵复制扩充
Jun 02 Python
python使用jieba实现中文分词去停用词方法示例
Mar 11 #Python
python实现拓扑排序的基本教程
Mar 11 #Python
Python实现图片尺寸缩放脚本
Mar 10 #Python
TensorFlow平台下Python实现神经网络
Mar 10 #Python
python构建深度神经网络(续)
Mar 10 #Python
python构建深度神经网络(DNN)
Mar 10 #Python
Python使用numpy实现BP神经网络
Mar 10 #Python
You might like
实例(Smarty+FCKeditor新闻系统)
2007/01/02 PHP
PHP使用pcntl_fork实现多进程下载图片的方法
2014/12/16 PHP
PHP连接及操作PostgreSQL数据库的方法详解
2019/01/30 PHP
PHP使用 Pear 进行安装和卸载包的方法详解
2019/07/08 PHP
javascript对数组的常用操作代码 数组方法总汇
2011/01/27 Javascript
js根据日期判断星座的示例代码
2014/01/23 Javascript
addEventListener 的用法示例介绍
2014/05/07 Javascript
使用js实现数据格式化
2014/12/03 Javascript
XML文件转化成NSData对象的方法
2015/08/12 Javascript
jQuery弹层插件jquery.fancybox.js用法实例
2016/01/22 Javascript
支持移动端原生js轮播图
2017/02/16 Javascript
AngularJs定时器$interval 和 $timeout详解
2017/05/25 Javascript
vue登录页面cookie的使用及页面跳转代码
2019/07/10 Javascript
详解微信小程序入门从这里出发(登录注册、开发工具、文件及结构介绍)
2020/07/21 Javascript
[12:29]2018国际邀请赛 开幕秀
2018/08/22 DOTA
使用Python开发windows GUI程序入门实例
2014/10/23 Python
Python3.6正式版新特性预览
2016/12/15 Python
Python解惑之整数比较详解
2017/04/24 Python
Python代码实现KNN算法
2017/12/20 Python
树莓派实现移动拍照
2019/06/22 Python
使用python制作一个解压缩软件
2019/11/13 Python
Python基于类路径字符串获取静态属性
2020/03/12 Python
python中format函数如何使用
2020/06/22 Python
Python爬虫自动化爬取b站实时弹幕实例方法
2021/01/26 Python
HTML5自定义data-* data(obj)属性和jquery的data()方法的使用
2012/12/13 HTML / CSS
Hunter Boots美国官方网站:赫特威灵顿雨靴
2018/06/16 全球购物
美国购买肉、鸭、家禽、鹅肝和熟食网站:D’Artagnan
2018/11/13 全球购物
Nike挪威官网:Nike.com (NO)
2018/11/26 全球购物
什么是Smart Navigation?
2016/07/03 面试题
自我评价的写作规则
2014/01/06 职场文书
超市店庆活动方案
2014/08/31 职场文书
2014年党员学习“三严三实”思想汇报
2014/09/15 职场文书
教师个人事迹材料
2014/12/17 职场文书
《最后一头战象》读后感:动物也有感情
2020/01/02 职场文书
导游词之安徽醉翁亭
2020/01/10 职场文书
Django框架模板用法详解
2022/06/10 Python