python文本处理的方案(结巴分词并去除符号)


Posted in Python onMay 26, 2021

看代码吧~

import re
import jieba.analyse
import codecs
import pandas as pd
def simplification_text(xianbingshi):
    """提取文本"""
    xianbingshi_simplification = []
    with codecs.open(xianbingshi,'r','utf8') as f:
        for line in f :
            line = line.strip()
            line_write = re.findall('(?<=\<b\>).*?(?=\<e\>)',line)
            for line in line_write:
                xianbingshi_simplification.append(line)
    with codecs.open(r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\code\xianbingshi_write.txt','w','utf8') as f:
        for line in xianbingshi_simplification:
            f.write(line + '\n')
def jieba_text():
    """"""
    word_list = []
    data = open(r"C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\xianbingshi_write.txt", encoding='utf-8').read()
    seg_list = jieba.cut(data, cut_all=False)  # 精确模式
    for i in seg_list:
        word_list.append(i.strip())
    data_quchong = pd.DataFrame({'a':word_list})
    data_quchong.drop_duplicates(subset=['a'],keep='first',inplace=True)
    word_list = data_quchong['a'].tolist()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_list:
            w.write(line + '\n')
def word_messy(word):
    """词语提炼"""
    word_sub_list = []
    with codecs.open(word,'r','utf8') as f:
        for line in f:
            line_sub = re.sub("^[1-9]\d*\.\d*|^[A-Za-z0-9]+$|^[0-9]*$|^(-?\d+)(\.\d+)?$|^[A-Za-z0-9]{4,40}.*?",'',line)
            word_sub_list.append(line_sub)
    word_sub_list.sort()
    with codecs.open('word.txt','w','utf8')as w:
        for line in word_sub_list:
            w.write(line.strip("\n") + '\n')
if __name__ == '__main__':
    xianbingshi = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\yiwoqu\xianbingshi_sub_sen_all(1).txt'
    # simplification_text(xianbingshi)
    # word = r'C:\Users\Administrator.SC-201812211013\PycharmProjects\untitled29\word.txt'
    simplification_text(xianbingshi)

补充:python 进行结巴分词 并且用re去掉符号

看代码吧~

# 把停用词做成字典
stopwords = {}
fstop = open('stop_words.txt', 'r',encoding='utf-8',errors='ingnore')
for eachWord in fstop:
    stopwords[eachWord.strip()] = eachWord.strip()  #停用词典
fstop.close()
f1=open('all.txt','r',encoding='utf-8',errors='ignore')
f2=open('allutf11.txt','w',encoding='utf-8')
line=f1.readline()
while line:
    line = line.strip()  #去前后的空格
    line = re.sub(r"[0-9\s+\.\!\/_,$%^*()?;;:-【】+\"\']+|[+——!,;:。?、~@#¥%……&*()]+", " ", line) #去标点符号
    seg_list=jieba.cut(line,cut_all=False)  #结巴分词
    outStr=""
    for word in seg_list:
        if word not in stopwords:
            outStr+=word
            outStr+=" "
    f2.write(outStr)
    line=f1.readline()
f1.close()
f2.close()

python文本处理的方案(结巴分词并去除符号)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
跟老齐学Python之有点简约的元组
Sep 24 Python
在Python的Django框架中生成CSV文件的方法
Jul 22 Python
python+requests+unittest API接口测试实例(详解)
Jun 10 Python
git进行版本控制心得详谈
Dec 10 Python
python机器学习之神经网络(一)
Dec 20 Python
Python实现的knn算法示例
Jun 14 Python
Python判断两个文件是否相同与两个文本进行相同项筛选的方法
Mar 01 Python
python通过paramiko复制远程文件及文件目录到本地
Apr 30 Python
用Python批量把文件复制到另一个文件夹的实现方法
Aug 16 Python
numpy:np.newaxis 实现将行向量转换成列向量
Nov 30 Python
django restframework serializer 增加自定义字段操作
Jul 15 Python
浅析Python 中的 WSGI 接口和 WSGI 服务的运行
Dec 09 Python
Django操作cookie的实现
May 26 #Python
pandas中DataFrame检测重复值的实现
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
You might like
PHP5中的this,self和parent关键字详解教程
2007/03/19 PHP
使用PHP获取网络文件的实现代码
2010/01/01 PHP
php中有关字符串的4个函数substr、strrchr、strstr、ereg介绍和使用例子
2014/04/24 PHP
PHP的PDO事务与自动提交
2019/01/24 PHP
php操作redis数据库常见方法实例总结
2020/02/20 PHP
jquery select下拉框操作的一些说明
2010/04/02 Javascript
javascript中的数字与字符串相加实例分析
2011/08/14 Javascript
js切换div css注意的细节
2012/12/10 Javascript
jquery中event对象属性与方法小结
2013/12/18 Javascript
jquery中html、val与text三者属性取值的联系与区别介绍
2013/12/29 Javascript
图解prototype、proto和constructor的三角关系
2016/07/31 Javascript
javascript实现的全国省市县无刷新多级关联菜单效果代码
2016/08/01 Javascript
jQuery实现的导航下拉菜单效果示例
2016/09/05 Javascript
原生JS实现图片轮播效果
2016/12/26 Javascript
Nodejs中使用captchapng模块生成图片验证码
2017/05/18 NodeJs
基于vue2框架的机器人自动回复mini-project实例代码
2017/06/13 Javascript
JavaScript内存泄漏的处理方式
2017/11/20 Javascript
vue项目中mock.js的使用及基本用法
2019/05/22 Javascript
js prototype和__proto__的关系是什么
2019/08/23 Javascript
Node.JS获取GET,POST数据之queryString模块使用方法详解
2020/02/06 Javascript
在Vuex中Mutations修改状态操作
2020/07/24 Javascript
python关键字and和or用法实例
2015/05/28 Python
pycharm下打开、执行并调试scrapy爬虫程序的方法
2017/11/29 Python
python占位符输入方式实例
2019/05/27 Python
Python时间序列缺失值的处理方法(日期缺失填充)
2019/08/11 Python
python破解bilibili滑动验证码登录功能
2019/09/11 Python
python实现的按要求生成手机号功能示例
2019/10/08 Python
Python绘图之二维图与三维图详解
2020/08/04 Python
财务管理职业生涯规划范文
2013/12/27 职场文书
公司授权委托书格式样本
2014/10/01 职场文书
教师党员自我评价2015
2015/03/04 职场文书
管辖权异议上诉状
2015/05/23 职场文书
演讲开场白台词大全
2015/05/29 职场文书
恋恋笔记本观后感
2015/06/16 职场文书
2016高三毕业赠言寄语
2015/12/04 职场文书
八年级作文之一起的走过日子
2019/09/17 职场文书