python实现递归查找某个路径下所有文件中的中文字符


Posted in Python onAugust 31, 2019

本文实例为大家分享了python实现递归查找某个路径下所有文件中的中文字符,供大家参考,具体内容如下

# -*- coding: utf-8 -*-
# @ description:
# @ author: 
# @ created: 2018/7/21
 
import re
import sys
import os
 
reload(sys)
sys.setdefaultencoding("utf8")
 
 
def translate(str):
  out = set()
  line = str.strip().decode('utf-8', 'ignore') # 处理前进行相关的处理,包括转换成Unicode等
  p2 = re.compile(ur'[^\u4e00-\u9fa5]') # 中文的编码范围是:\u4e00到\u9fa5
  zh = " ".join(p2.split(line)).strip()
  # zh = "\n".join(zh.split()) #dsds经过相关处理后得到中文的文本
  for s in zh.split():
    out.add(s) # 经过相关处理后得到中文的文本
  return out
 
def extract_file(path):
  result = set()
  try:
    f = open(path) # 打开文件
    lines = f.readlines()
    for line in lines:
      string = translate(line)
      if string:
        result.update(string)
  except Exception as e:
    pass
  return result
 
 
def extract(path):
  result = set()
  files = os.listdir(path)
  for file in files:
    if not file.startswith("."):
      if not os.path.isdir(path + "/" + file): # 判断是否是文件夹,不是文件夹才打开ssgsg判断是否是文件夹,不是文件夹才打开
        sub_file = extract_file(path + "/" + file)
        if sub_file:
          result.update(sub_file)
      else:
        print file
        child = extract(path + "/" + file)
        if child:
          result.update(child)
  return result
 
 
if __name__ == '__main__':
  path = "/Users/common"
  result = extract(path)
  res_file = open("result.txt", "w")
  for s in result:
    res_file.write(s + "\n")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
使用Python操作MySQL的一些基本方法
Aug 16 Python
python实现12306火车票查询器
Apr 20 Python
详解Golang 与python中的字符串反转
Jul 21 Python
python 自定义异常和异常捕捉的方法
Oct 18 Python
Python 编程速成(推荐)
Apr 15 Python
分析运行中的 Python 进程详细解析
Jun 22 Python
python实现倒计时小工具
Jul 29 Python
Python解析json代码实例解析
Nov 25 Python
python创建n行m列数组示例
Dec 02 Python
PyCharm第一次安装及使用教程
Jan 08 Python
Python依赖包迁移到断网环境操作
Jul 13 Python
Python性能测试工具Locust安装及使用
Dec 01 Python
python+django+rest框架配置创建方法
Aug 31 #Python
Python实现Restful API的例子
Aug 31 #Python
python递归下载文件夹下所有文件
Aug 31 #Python
python或C++读取指定文件夹下的所有图片
Aug 31 #Python
解决Django删除migrations文件夹中的文件后出现的异常问题
Aug 31 #Python
Django项目后台不挂断运行的方法
Aug 31 #Python
python遍历文件目录、批量处理同类文件
Aug 31 #Python
You might like
使用PHP维护文件系统
2006/10/09 PHP
php 攻击方法之谈php+mysql注射语句构造
2009/10/30 PHP
探讨:使用XMLSerialize 序列化与反序列化
2013/06/08 PHP
php读取大文件示例分享(文件操作类)
2014/04/13 PHP
Yii2中YiiBase自动加载类、引用文件方法分析(autoload)
2016/07/25 PHP
浅谈PHP发送HTTP请求的几种方式
2017/07/25 PHP
PHP多进程通信-消息队列使用
2019/03/08 PHP
一个可以随意添加多个序列的tag函数
2009/07/21 Javascript
修改jquery里的dialog对话框插件为框架页(iframe) 的方法
2010/09/14 Javascript
ASP.NET jQuery 实例3 (在TextBox里面阻止复制、剪切和粘贴事件)
2012/01/13 Javascript
select标签模拟/美化方法采用JS外挂式插件
2013/04/01 Javascript
变量声明时命名与变量作为对象属性时命名的区别解析
2013/12/06 Javascript
JavaScript判断是否为数字的4种方法及效率比较
2015/04/01 Javascript
js实现文字闪烁特效的方法
2015/12/17 Javascript
javascript中的 object 和 function小结
2016/08/14 Javascript
详解nodejs微信jssdk后端接口
2017/05/25 NodeJs
详解如何更好的使用module vuex
2019/03/27 Javascript
vue实现滑动超出指定距离回顶部功能
2019/07/31 Javascript
多个vue子路由文件自动化合并的方法
2019/09/03 Javascript
ElementUI 修改默认样式的几种办法(小结)
2020/07/29 Javascript
jQuery实现回到顶部效果
2020/10/19 jQuery
vue 解决在微信内置浏览器中调用支付宝支付的情况
2020/11/09 Javascript
python调用系统ffmpeg实现视频截图、http发送
2018/03/06 Python
pandas dataframe的合并实现(append, merge, concat)
2019/06/24 Python
解析Python3中的Import
2019/10/13 Python
Python3常用内置方法代码实例
2019/11/18 Python
多视角3D逼真HTML5水波动画
2016/03/03 HTML / CSS
家乐福台湾线上购物网:Carrefour台湾
2020/09/15 全球购物
德国二手设计师时装和复古时装跳蚤市场:Mädchenflohmarkt
2020/11/09 全球购物
应届大专毕业生个人自荐信
2013/09/22 职场文书
计算机应用专业推荐信
2013/11/13 职场文书
九年级科学教学反思
2014/01/29 职场文书
熟背这些句子,让您的英语口语突飞猛进(135句)
2019/09/06 职场文书
python基于tkinter制作m3u8视频下载工具
2021/04/24 Python
css中有哪些方式可以隐藏页面元素及区别
2022/06/16 HTML / CSS
win10识别不了U盘怎么办 win10系统读取U盘失败的解决办法
2022/08/05 数码科技