用Python中的字典来处理索引统计的方法


Posted in Python onMay 05, 2015

最近折腾索引引擎以及数据统计方面的工作比较多, 与 Python 字典频繁打交道, 至此整理一份此方面 API 的用法与坑法备案.

    索引引擎的基本工作原理便是倒排索引, 即将一个文档所包含的文字反过来映射至文档; 这方面算法并没有太多花样可言, 为了增加效率, 索引数据尽可往内存里面搬, 此法可效王献之习书法之势, 只要把十八台机器内存全部塞满, 那么基本也就功成名就了. 而基本思路举个简单例子, 现在有以下文档 (分词已经完成) 以及其包含的关键词

doc_a: [word_w, word_x, word_y]
  doc_b: [word_x, word_z]
  doc_c: [word_y]

将其变换为

word_w -> [doc_a]
  word_x -> [doc_a, doc_b]
  word_y -> [doc_a, doc_c]
  word_z -> [doc_b]

    写成 Python 代码, 便是
 

doc_a = {'id': 'a', 'words': ['word_w', 'word_x', 'word_y']} 
doc_b = {'id': 'b', 'words': ['word_x', 'word_z']} 
doc_c = {'id': 'c', 'words': ['word_y']} 
 
docs = [doc_a, doc_b, doc_c] 
indices = dict() 
 
for doc in docs: 
  for word in doc['words']: 
    if word not in indices: 
      indices[word] = [] 
    indices[word].append(doc['id']) 
 
print indices

    不过这里有个小技巧, 就是对于判断当前词是否已经在索引字典里的分支
 

if word not in indices: 
  indices[word] = []

可以被  dict  的  setdefault(key, default=None)  接口替换. 此接口的作用是, 如果  key  在字典里, 那么好说, 拿出对应的值来; 否则, 新建此  key , 且设置默认对应值为  default . 但从设计上来说, 我不明白为何  default  有个默认值  None , 看起来并无多大意义, 如果确要使用此接口, 大体都会自带默认值吧, 如下
 

for doc in docs: 
  for word in doc['words']: 
    indices. setdefault(word, []) .append(doc['id'])

    这样就省掉分支了, 代码看起来少很多.
    不过在某些情况下,  setdefault  用起来并不顺手: 当  default  值构造很复杂时, 或产生  default  值有副作用时, 以及一个之后会说到的情况; 前两种情况一言以蔽之, 就是  setdefault  不适用于  default  需要惰性求值的场景. 换言之, 为了兼顾这种需求,  setdefault  可能会设计成
 

def setdefault(self, key, default_factory): 
  if key not in self: 
    self[key] = default_factory() 
  return self[key]

倘若真如此, 那么上面的代码应改成
 

for doc in docs: 
  for word in doc['words']: 
    indices.setdefault(word, list ).append(doc['id'])

不过实际上有其它替代方案, 这个最后会提到.

    如果说上面只是一个能预见但实际上可能根本不会遇到的 API 缺陷, 那么下面这个就略打脸了.
    考虑现在要进行词频统计, 即一个词在文章中出现了多少次, 如果直接拿  dict  来写, 大致是
 

def word_count(words): 
  count = dict() 
  for word in words: 
    count.setdefault(word, 0) += 1
  return count 
 
print word_count(['hiiragi', 'kagami', 'hiiragi', 'tukasa', 'yosimizu', 'kagami'])

    当你兴致勃勃地跑起上面代码时, 代码会以迅雷不及掩脸之势把异常甩到你鼻尖上 --- 因为出现在  +=  操作符左边的  count.setdefault(word, 0)  在 Python 中不是一个左值. 怎样, 现在开始念叨 C艹 类型体系的好了吧.

    因为 Python 把默认的字面常量  {}  等价于  dict()  就认为  dict  是银弹的思想是要不得的; Python 里面各种数据结构不少, 解决统计问题, 理想的方案是  collections.defaultdict  这个类. 下面的代码想必看一眼就明白
 

from collections import defaultdict 
 
doc_a = {'id': 'a', 'words': ['word_w', 'word_x', 'word_y']} 
doc_b = {'id': 'b', 'words': ['word_x', 'word_z']} 
doc_c = {'id': 'c', 'words': ['word_y']} 
 
docs = [doc_a, doc_b, doc_c] 
indices = defaultdict(list) 
 
for doc in docs: 
  for word in doc['words']: 
    indices[word].append(doc['id']) 
 
print indices 
 
def word_count(words): 
  count = defaultdict(int) 
  for word in words: 
    count[word] += 1
  return count 
 
print word_count(['hiiragi', 'kagami', 'hiiragi', 'tukasa', 'yosimizu', 'kagami'])

    完满解决了之前遇到的那些破事.

    此外  collections  里还有个  Counter , 可以粗略认为它是  defaultdict(int)  的扩展.

Python 相关文章推荐
在Python上基于Markov链生成伪随机文本的教程
Apr 17 Python
Python科学计算之Pandas详解
Jan 15 Python
Python数据结构与算法之图的广度优先与深度优先搜索算法示例
Dec 14 Python
Python 获得命令行参数的方法(推荐)
Jan 24 Python
Python FTP两个文件夹间的同步实例代码
May 25 Python
安装好Pycharm后如何配置Python解释器简易教程
Jun 28 Python
redis数据库及与python交互用法简单示例
Nov 01 Python
python基于opencv检测程序运行效率
Dec 28 Python
Pytorch释放显存占用方式
Jan 13 Python
python程序输出无内容的解决方式
Apr 09 Python
Python内置数据类型中的集合详解
Mar 18 Python
使用Django框架创建项目
Jun 10 Python
python递归计算N!的方法
May 05 #Python
浅谈Python中数据解析
May 05 #Python
探究Python多进程编程下线程之间变量的共享问题
May 05 #Python
浅谈Python中的数据类型
May 05 #Python
用Python实现一个简单的能够上传下载的HTTP服务器
May 05 #Python
使用Python程序抓取新浪在国内的所有IP的教程
May 04 #Python
Python版微信红包分配算法
May 04 #Python
You might like
php更新修改excel中的内容实例代码
2014/02/26 PHP
PHP中cookie知识点学习
2018/05/06 PHP
javascript编程起步(第二课)
2007/01/10 Javascript
JavaScript中去掉数组中的重复值的实现方法
2011/08/03 Javascript
一些有用的JavaScript和jQuery的片段分享
2011/08/23 Javascript
jquery实现隐藏与显示动画效果/输入框字符动态递减/导航按钮切换
2013/07/01 Javascript
node.js中的fs.fchown方法使用说明
2014/12/16 Javascript
JavaScript阻止事件冒泡示例分享
2014/12/28 Javascript
基于javascript实现根据身份证号码识别性别和年龄
2016/01/22 Javascript
js基于cookie方式记住返回页面用法示例
2016/05/27 Javascript
vue中v-model动态生成的实例详解
2017/10/27 Javascript
基于angular6.0实现的一个组件懒加载功能示例
2018/04/12 Javascript
layui结合form,table的全选、反选v1.0示例讲解
2018/08/15 Javascript
Angular设置别名alias的方法
2018/11/08 Javascript
vuejs数据超出单行显示更多,点击展开剩余数据实例
2019/05/05 Javascript
解决在Vue中使用axios用form表单出现的问题
2019/10/30 Javascript
[52:09]2014 DOTA2华西杯精英邀请赛 5 25 NewBee VS DK第二场
2014/05/26 DOTA
python监控linux内存并写入mongodb(推荐)
2017/09/11 Python
python使用phoenixdb操作hbase的方法示例
2019/02/28 Python
Python Django2.0集成Celery4.1教程
2019/11/19 Python
keras的siamese(孪生网络)实现案例
2020/06/12 Python
分享一枚pycharm激活码适用所有pycharm版本我的pycharm2020.2.3激活成功
2020/11/20 Python
对Pytorch 中的contiguous理解说明
2021/03/03 Python
带你认识HTML5中的WebSocket
2015/05/22 HTML / CSS
HTML5单选框、复选框、下拉菜单、文本域的实现代码
2020/12/01 HTML / CSS
美国最流行的男士时尚网站:Touch of Modern
2018/02/05 全球购物
加拿大廉价机票预订网站:CheapOair.ca
2018/03/04 全球购物
新学期班主任寄语
2014/01/18 职场文书
联谊会主持词
2014/03/26 职场文书
竞选班干部的演讲稿
2014/04/24 职场文书
我的老师教学反思
2014/05/01 职场文书
基层党支部公开承诺书
2014/05/29 职场文书
班级口号大全
2014/06/09 职场文书
印刷技术专业自荐信
2014/09/18 职场文书
基层党支部整改方案
2014/10/25 职场文书
详解Mysql 函数调用优化
2021/04/07 MySQL