python文本处理的方案(结巴分词并去除符号)


Posted in Python onMay 26, 2021

看代码吧~

import re
import jieba.analyse
import codecs
import pandas as pd
def simplification_text(xianbingshi):
    """提取文本"""
    xianbingshi_simplification = []
    with codecs.open(xianbingshi,'r','utf8') as f:
        for line in f :
            line = line.strip()
            line_write = re.findall('(?<=\<b\>).*?(?=\<e\>)',line)
            for line in line_write:
                xianbingshi_simplification.append(line)
    with codecs.open(r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\code\xianbingshi_write.txt','w','utf8') as f:
        for line in xianbingshi_simplification:
            f.write(line + '\n')
def jieba_text():
    """"""
    word_list = []
    data = open(r"C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\xianbingshi_write.txt", encoding='utf-8').read()
    seg_list = jieba.cut(data, cut_all=False)  # 精确模式
    for i in seg_list:
        word_list.append(i.strip())
    data_quchong = pd.DataFrame({'a':word_list})
    data_quchong.drop_duplicates(subset=['a'],keep='first',inplace=True)
    word_list = data_quchong['a'].tolist()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_list:
            w.write(line + '\n')
def word_messy(word):
    """词语提炼"""
    word_sub_list = []
    with codecs.open(word,'r','utf8') as f:
        for line in f:
            line_sub = re.sub("^[1-9]\d*\.\d*|^[A-Za-z0-9]+$|^[0-9]*$|^(-?\d+)(\.\d+)?$|^[A-Za-z0-9]{4,40}.*?",'',line)
            word_sub_list.append(line_sub)
    word_sub_list.sort()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_sub_list:
            w.write(line.strip("\n") + '\n')
if __name__ == '__main__':
    xianbingshi = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\xianbingshi_sub_sen_all(1).txt'
    # simplification_text(xianbingshi)
    # word = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\word.txt'
    simplification_text(xianbingshi)

补充:python 进行结巴分词 并且用re去掉符号

看代码吧~

# 把停用词做成字典
stopwords = {}
fstop = open('stop_words.txt', 'r',encoding='utf-8',errors='ingnore')
for eachWord in fstop:
    stopwords[eachWord.strip()] = eachWord.strip()  #停用词典
fstop.close()
f1=open('all.txt','r',encoding='utf-8',errors='ignore')
f2=open('allutf11.txt','w',encoding='utf-8')
line=f1.readline()
while line:
    line = line.strip()  #去前后的空格
    line = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;;:-【】+\"\']+|[+——!,;:。?、~@#¥%……&*()]+", " ", line) #去标点符号
    seg_list=jieba.cut(line,cut_all=False)  #结巴分词
    outStr=""
    for word in seg_list:
        if word not in stopwords:
            outStr+=word
            outStr+=" "
    f2.write(outStr)
    line=f1.readline()
f1.close()
f2.close()

python文本处理的方案(结巴分词并去除符号)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
从零学python系列之数据处理编程实例(一)
May 22 Python
python每隔N秒运行指定函数的方法
Mar 16 Python
python使用正则表达式分析网页中的图片并进行替换的方法
Mar 26 Python
Python单向链表和双向链表原理与用法实例详解
Aug 31 Python
Python爬取成语接龙类网站
Oct 19 Python
python2.7使用plotly绘制本地散点图和折线图
Apr 02 Python
python实现的生成word文档功能示例
Aug 23 Python
Python3之外部文件调用Django程序操作model等文件实现方式
Apr 07 Python
Python调用shell命令常用方法(4种)
May 11 Python
如何清空python的变量
Jul 05 Python
Python定义一个Actor任务
Jul 29 Python
Python中的matplotlib绘制百分比堆叠柱状图,并为每一个类别设置不同的填充图案
Apr 20 Python
Django操作cookie的实现
May 26 #Python
pandas中DataFrame检测重复值的实现
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
You might like
php strstr查找字符串中是否包含某些字符的查找函数
2010/06/03 PHP
PHP数组游标实现对数组的各种操作详解
2016/01/26 PHP
jQuery中removeProp()方法用法实例
2015/01/05 Javascript
元素绑定click点击事件方法
2015/06/08 Javascript
JS访问SWF的函数用法实例
2015/07/01 Javascript
jQuery控制div实现随滚动条滚动效果
2016/06/07 Javascript
jQuery使用eraser.js插件实现擦除、刮刮卡效果的方法【附eraser.js下载】
2017/04/28 jQuery
jQuery UI Draggable + Sortable 结合使用(实例讲解)
2017/09/07 jQuery
用vue写一个仿简书的轮播图的示例代码
2018/03/13 Javascript
解决jQuery使用append添加的元素事件无效的问题
2018/08/30 jQuery
重学JS之显示强制类型转换详解
2019/06/30 Javascript
p5.js实现简单货车运动动画
2019/10/23 Javascript
es6函数之严格模式用法实例分析
2020/03/17 Javascript
JS使用for in有序获取对象数据
2020/05/19 Javascript
vue+swiper实现左右滑动的测试题功能
2020/10/30 Javascript
详解阿里Node.js技术文档之process模块学习指南
2021/01/04 Javascript
python开启多个子进程并行运行的方法
2015/04/18 Python
Python聚类算法之DBSACN实例分析
2015/11/20 Python
Redis使用watch完成秒杀抢购功能的代码
2018/05/07 Python
Django框架静态文件使用/中间件/禁用ip功能实例详解
2019/07/22 Python
PyQt5连接MySQL及QMYSQL driver not loaded错误解决
2020/04/29 Python
python爬取网易云音乐热歌榜实例代码
2020/08/07 Python
Python本地及虚拟解释器配置过程解析
2020/10/13 Python
python中spy++的使用超详细教程
2021/01/29 Python
基于CSS3 animation动画属性实现轮播图效果
2017/09/12 HTML / CSS
解决H5的a标签的download属性下载service上的文件出现跨域问题
2019/07/16 HTML / CSS
伦敦最著名的老字号百货公司:Selfridges(塞尔福里奇百货)
2016/07/25 全球购物
迪卡侬比利时官网:Decathlon比利时
2019/12/28 全球购物
Delphi笔试题
2016/11/14 面试题
员工拾金不昧表扬信
2014/01/09 职场文书
出国留学介绍信
2014/01/13 职场文书
高中自我评价范文
2014/01/27 职场文书
房地产财务管理制度
2014/02/02 职场文书
本科应届生求职信
2014/08/05 职场文书
企业委托书范本
2014/09/13 职场文书
解决flex布局中子项目尺寸不受flex-shrink限制
2022/05/11 HTML / CSS