python实现递归查找某个路径下所有文件中的中文字符


Posted in Python onAugust 31, 2019

本文实例为大家分享了python实现递归查找某个路径下所有文件中的中文字符,供大家参考,具体内容如下

# -*- coding: utf-8 -*-
# @ description:
# @ author: 
# @ created: 2018/7/21
 
import re
import sys
import os
 
reload(sys)
sys.setdefaultencoding("utf8")
 
 
def translate(str):
  out = set()
  line = str.strip().decode('utf-8', 'ignore') # 处理前进行相关的处理,包括转换成Unicode等
  p2 = re.compile(ur'[^\u4e00-\u9fa5]') # 中文的编码范围是:\u4e00到\u9fa5
  zh = " ".join(p2.split(line)).strip()
  # zh = "\n".join(zh.split()) #dsds经过相关处理后得到中文的文本
  for s in zh.split():
    out.add(s) # 经过相关处理后得到中文的文本
  return out
 
def extract_file(path):
  result = set()
  try:
    f = open(path) # 打开文件
    lines = f.readlines()
    for line in lines:
      string = translate(line)
      if string:
        result.update(string)
  except Exception as e:
    pass
  return result
 
 
def extract(path):
  result = set()
  files = os.listdir(path)
  for file in files:
    if not file.startswith("."):
      if not os.path.isdir(path + "/" + file): # 判断是否是文件夹,不是文件夹才打开ssgsg判断是否是文件夹,不是文件夹才打开
        sub_file = extract_file(path + "/" + file)
        if sub_file:
          result.update(sub_file)
      else:
        print file
        child = extract(path + "/" + file)
        if child:
          result.update(child)
  return result
 
 
if __name__ == '__main__':
  path = "/Users/common"
  result = extract(path)
  res_file = open("result.txt", "w")
  for s in result:
    res_file.write(s + "\n")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python三元运算实现方法
Jan 12 Python
利用Python的Django框架中的ORM建立查询API
Apr 20 Python
Python数据结构与算法之图的最短路径(Dijkstra算法)完整实例
Dec 12 Python
python socket网络编程之粘包问题详解
Apr 28 Python
详解python单元测试框架unittest
Jul 02 Python
python实现鸢尾花三种聚类算法(K-means,AGNES,DBScan)
Jun 27 Python
python+numpy按行求一个二维数组的最大值方法
Jul 09 Python
python生成器推导式用法简单示例
Oct 08 Python
Django中使用MySQL5.5的教程
Dec 18 Python
python numpy数组中的复制知识解析
Feb 03 Python
Python 实现打印单词的菱形字符图案
Apr 12 Python
Python中pass的作用与使用教程
Nov 13 Python
python+django+rest框架配置创建方法
Aug 31 #Python
Python实现Restful API的例子
Aug 31 #Python
python递归下载文件夹下所有文件
Aug 31 #Python
python或C++读取指定文件夹下的所有图片
Aug 31 #Python
解决Django删除migrations文件夹中的文件后出现的异常问题
Aug 31 #Python
Django项目后台不挂断运行的方法
Aug 31 #Python
python遍历文件目录、批量处理同类文件
Aug 31 #Python
You might like
php中比较简单的导入phpmyadmin生成的sql文件的方法
2011/06/28 PHP
php 使用GD库为页面增加水印示例代码
2014/03/24 PHP
php实现四舍五入的方法小结
2015/03/03 PHP
PHP使用自定义方法实现数组合并示例
2016/07/07 PHP
Thinkphp3.2.3整合phpqrcode生成带logo的二维码
2016/07/21 PHP
php版微信公众平台实现预约提交后发送email的方法
2016/09/26 PHP
jQuery EasyUI API 中文文档 - ProgressBar 进度条
2011/09/29 Javascript
javascript ready和load事件的区别示例介绍
2013/08/30 Javascript
浅谈javascript获取元素transform参数
2015/07/24 Javascript
Jquery左右滑动插件之实现超级炫酷动画效果附源码下载
2015/12/02 Javascript
Bootstrap与KnockoutJs相结合实现分页效果实例详解
2016/05/03 Javascript
JavaScript浮点数及运算精度调整详解
2016/10/21 Javascript
AngularJS解决ng界面长表达式(ui-set)的方法分析
2016/11/07 Javascript
初探nodeJS
2017/01/24 NodeJs
jQuery Datatable 多个查询条件自定义提交事件(推荐)
2017/08/24 jQuery
AngularJS集合数据遍历显示的实例
2017/12/27 Javascript
vue2.0之多页面的开发的示例
2018/01/30 Javascript
JS面向对象的程序设计相关知识小结
2018/05/26 Javascript
微信小程序生成二维码的示例代码
2019/03/29 Javascript
webpack DllPlugin xxx is not defined解决办法
2019/12/13 Javascript
vue npm install 安装某个指定的版本操作
2020/08/11 Javascript
解决vue中axios设置超时(超过5分钟)没反应的问题
2020/09/04 Javascript
JavaScript实现消消乐的源代码
2021/01/12 Javascript
python操作MySQL数据库具体方法
2013/10/28 Python
django站点管理详解
2017/12/12 Python
numpy返回array中元素的index方法
2018/06/27 Python
python requests post多层字典的方法
2018/12/27 Python
Python之Sklearn使用入门教程
2021/02/19 Python
西班牙多品牌鞋店连锁店:Krack
2018/11/30 全球购物
职工运动会邀请函
2014/01/19 职场文书
商业活动邀请函
2014/02/04 职场文书
三下乡个人总结
2015/03/04 职场文书
周末问候语大全
2015/11/10 职场文书
golang日志包logger的用法详解
2021/05/05 Golang
Python中的tkinter库简单案例详解
2022/01/22 Python
Vue如何清空对象
2022/03/03 Vue.js