用Python中的字典来处理索引统计的方法


Posted in Python onMay 05, 2015

最近折腾索引引擎以及数据统计方面的工作比较多, 与 Python 字典频繁打交道, 至此整理一份此方面 API 的用法与坑法备案.

    索引引擎的基本工作原理便是倒排索引, 即将一个文档所包含的文字反过来映射至文档; 这方面算法并没有太多花样可言, 为了增加效率, 索引数据尽可往内存里面搬, 此法可效王献之习书法之势, 只要把十八台机器内存全部塞满, 那么基本也就功成名就了. 而基本思路举个简单例子, 现在有以下文档 (分词已经完成) 以及其包含的关键词

doc_a: [word_w, word_x, word_y]
  doc_b: [word_x, word_z]
  doc_c: [word_y]

将其变换为

word_w -> [doc_a]
  word_x -> [doc_a, doc_b]
  word_y -> [doc_a, doc_c]
  word_z -> [doc_b]

    写成 Python 代码, 便是
 

doc_a = {'id': 'a', 'words': ['word_w', 'word_x', 'word_y']} 
doc_b = {'id': 'b', 'words': ['word_x', 'word_z']} 
doc_c = {'id': 'c', 'words': ['word_y']} 
 
docs = [doc_a, doc_b, doc_c] 
indices = dict() 
 
for doc in docs: 
  for word in doc['words']: 
    if word not in indices: 
      indices[word] = [] 
    indices[word].append(doc['id']) 
 
print indices

    不过这里有个小技巧, 就是对于判断当前词是否已经在索引字典里的分支
 

if word not in indices: 
  indices[word] = []

可以被  dict  的  setdefault(key, default=None)  接口替换. 此接口的作用是, 如果  key  在字典里, 那么好说, 拿出对应的值来; 否则, 新建此  key , 且设置默认对应值为  default . 但从设计上来说, 我不明白为何  default  有个默认值  None , 看起来并无多大意义, 如果确要使用此接口, 大体都会自带默认值吧, 如下
 

for doc in docs: 
  for word in doc['words']: 
    indices. setdefault(word, []) .append(doc['id'])

    这样就省掉分支了, 代码看起来少很多.
    不过在某些情况下,  setdefault  用起来并不顺手: 当  default  值构造很复杂时, 或产生  default  值有副作用时, 以及一个之后会说到的情况; 前两种情况一言以蔽之, 就是  setdefault  不适用于  default  需要惰性求值的场景. 换言之, 为了兼顾这种需求,  setdefault  可能会设计成
 

def setdefault(self, key, default_factory): 
  if key not in self: 
    self[key] = default_factory() 
  return self[key]

倘若真如此, 那么上面的代码应改成
 

for doc in docs: 
  for word in doc['words']: 
    indices.setdefault(word, list ).append(doc['id'])

不过实际上有其它替代方案, 这个最后会提到.

    如果说上面只是一个能预见但实际上可能根本不会遇到的 API 缺陷, 那么下面这个就略打脸了.
    考虑现在要进行词频统计, 即一个词在文章中出现了多少次, 如果直接拿  dict  来写, 大致是
 

def word_count(words): 
  count = dict() 
  for word in words: 
    count.setdefault(word, 0) += 1
  return count 
 
print word_count(['hiiragi', 'kagami', 'hiiragi', 'tukasa', 'yosimizu', 'kagami'])

    当你兴致勃勃地跑起上面代码时, 代码会以迅雷不及掩脸之势把异常甩到你鼻尖上 --- 因为出现在  +=  操作符左边的  count.setdefault(word, 0)  在 Python 中不是一个左值. 怎样, 现在开始念叨 C艹 类型体系的好了吧.

    因为 Python 把默认的字面常量  {}  等价于  dict()  就认为  dict  是银弹的思想是要不得的; Python 里面各种数据结构不少, 解决统计问题, 理想的方案是  collections.defaultdict  这个类. 下面的代码想必看一眼就明白
 

from collections import defaultdict 
 
doc_a = {'id': 'a', 'words': ['word_w', 'word_x', 'word_y']} 
doc_b = {'id': 'b', 'words': ['word_x', 'word_z']} 
doc_c = {'id': 'c', 'words': ['word_y']} 
 
docs = [doc_a, doc_b, doc_c] 
indices = defaultdict(list) 
 
for doc in docs: 
  for word in doc['words']: 
    indices[word].append(doc['id']) 
 
print indices 
 
def word_count(words): 
  count = defaultdict(int) 
  for word in words: 
    count[word] += 1
  return count 
 
print word_count(['hiiragi', 'kagami', 'hiiragi', 'tukasa', 'yosimizu', 'kagami'])

    完满解决了之前遇到的那些破事.

    此外  collections  里还有个  Counter , 可以粗略认为它是  defaultdict(int)  的扩展.

Python 相关文章推荐
Python实现抓取页面上链接的简单爬虫分享
Jan 21 Python
python操作sqlite的CRUD实例分析
May 08 Python
Python利用递归和walk()遍历目录文件的方法示例
Jul 14 Python
python数据结构链表之单向链表(实例讲解)
Jul 25 Python
解决pip install xxx报错SyntaxError: invalid syntax的问题
Nov 30 Python
django 使用全局搜索功能的实例详解
Jul 18 Python
python针对mysql数据库的连接、查询、更新、删除操作示例
Sep 11 Python
python运用sklearn实现KNN分类算法
Oct 16 Python
Python爬虫使用bs4方法实现数据解析
Aug 25 Python
python网络爬虫实现发送短信验证码的方法
Feb 25 Python
Python基础之常用库常用方法整理
Apr 30 Python
Python机器学习算法之决策树算法的实现与优缺点
May 13 Python
python递归计算N!的方法
May 05 #Python
浅谈Python中数据解析
May 05 #Python
探究Python多进程编程下线程之间变量的共享问题
May 05 #Python
浅谈Python中的数据类型
May 05 #Python
用Python实现一个简单的能够上传下载的HTTP服务器
May 05 #Python
使用Python程序抓取新浪在国内的所有IP的教程
May 04 #Python
Python版微信红包分配算法
May 04 #Python
You might like
PHP自动生成月历代码
2006/10/09 PHP
PHP5+UTF8多文件上传类
2008/10/17 PHP
pdo中使用参数化查询sql
2011/08/11 PHP
PHP设置一边执行一边输出结果的代码
2013/09/30 PHP
浅析PHP 中move_uploaded_file 上传中文文件名失败
2019/04/17 PHP
laravel自定义分页的实现案例offset()和limit()
2019/10/15 PHP
javascript编程起步(第六课)
2007/02/27 Javascript
Javascript 键盘keyCode键码值表
2009/12/24 Javascript
JS实现局部选择打印和局部不选择打印
2014/04/03 Javascript
javascript中对变量类型的判断方法
2015/08/09 Javascript
JavaScript使用DeviceOne开发实战(四)仿优酷视频应用
2015/12/02 Javascript
jQuery实现定位滚动条位置
2016/08/05 Javascript
es6学习笔记之Async函数基本教程
2017/05/11 Javascript
VUE页面中加载外部HTML的示例代码
2017/09/20 Javascript
nuxt+axios解决前后端分离SSR的示例代码
2017/10/24 Javascript
基于Two.js实现星球环绕动画效果的示例
2017/11/06 Javascript
web前端vue实现插值文本和输出原始html
2018/01/19 Javascript
ionic2中使用自动生成器的方法
2018/03/04 Javascript
node使用promise替代回调函数
2018/05/07 Javascript
详解ES6中的Map与Set集合
2019/03/22 Javascript
[04:19]完美世界携手游戏风云打造 卡尔工作室模型介绍篇
2013/04/24 DOTA
[01:05:52]DOTA2-DPC中国联赛 正赛 Ehome vs Aster BO3 第一场 2月2日
2021/03/11 DOTA
详解python3安装pillow后报错没有pillow模块以及没有PIL模块问题解决
2019/04/17 Python
Django对数据库进行添加与更新的例子
2019/07/12 Python
纯css3无js实现的Android Logo(有简单动画)
2013/01/21 HTML / CSS
关于CSS Tooltips(鼠标经过时显示)的效果
2013/04/10 HTML / CSS
详解canvas绘图时遇到的跨域问题
2018/03/22 HTML / CSS
俄罗斯街头服装品牌:Black Star Wear
2017/03/01 全球购物
Hanky Panky官方网站:内衣和睡衣
2019/07/25 全球购物
Java程序员面试题
2013/07/15 面试题
商场中秋节广播稿
2014/01/17 职场文书
《菜园里》教学反思
2014/04/17 职场文书
我的小天地教学反思
2014/04/30 职场文书
社区党务工作总结2015
2015/05/19 职场文书
贫困证明书范文
2015/06/16 职场文书
智慧人生:永远不需要向任何人解释你自己
2019/08/20 职场文书