python实现的读取网页并分词功能示例


Posted in Python onOctober 29, 2019

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:

这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba

或点击此处本站下载jieba库

代码:

import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
  # <p>标签的处理
  for line in div.findChildren():
    file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
  with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
    for line in file_object.readlines():
      seg_list = jieba.cut(line,cut_all=False)
      file_cut_object.write('/'.join(seg_list))

爬取结果:

python实现的读取网页并分词功能示例

分词结果:

python实现的读取网页并分词功能示例

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Django框架下在URLconf中指定视图缓存的方法
Jul 23 Python
利用Python查看目录中的文件示例详解
Aug 28 Python
python实现数据预处理之填充缺失值的示例
Dec 22 Python
详解python 拆包可迭代数据如tuple, list
Dec 29 Python
python通过elixir包操作mysql数据库实例代码
Jan 31 Python
Python基于FTP模块实现ftp文件上传操作示例
Apr 23 Python
Python实现的简单排列组合算法示例
Jul 04 Python
numpy的文件存储.npy .npz 文件详解
Jul 09 Python
如何在Django中添加没有微秒的 DateTimeField 属性详解
Jan 30 Python
python使用openCV遍历文件夹里所有视频文件并保存成图片
Jan 14 Python
keras中的卷积层&amp;池化层的用法
May 22 Python
matplotlib部件之矩形选区(RectangleSelector)的实现
Feb 01 Python
python实现LRU热点缓存及原理
Oct 29 #Python
Python 中的 import 机制之实现远程导入模块
Oct 29 #Python
Centos7 下安装最新的python3.8
Oct 28 #Python
Python any()函数的使用方法
Oct 28 #Python
PYTHON发送邮件YAGMAIL的简单实现解析
Oct 28 #Python
详解如何用python实现一个简单下载器的服务端和客户端
Oct 28 #Python
SELENIUM自动化模拟键盘快捷键操作实现解析
Oct 28 #Python
You might like
回答PHPCHINA上的几个问题:URL映射
2007/02/14 PHP
PHP中的类型约束介绍
2015/05/11 PHP
PHP数组实例详解
2016/06/26 PHP
PHP实现常用排序算法的方法
2020/02/05 PHP
JQuery AJAX实现目录浏览与编辑的代码
2008/10/21 Javascript
jQuery 全选效果实现代码
2009/03/23 Javascript
网页和浏览器兼容性问题汇总(draft1)
2009/06/01 Javascript
基于jQuery替换table中的内容并显示进度条的代码
2011/08/02 Javascript
jquery图片放大镜功能的实例代码
2013/03/26 Javascript
JQueryEasyUI datagrid框架的进阶使用
2013/04/08 Javascript
angularjs学习笔记之三大模块(modal,controller,view)
2015/09/26 Javascript
node.js中express-session配置项详解
2017/05/31 Javascript
jQuery实现web页面樱花坠落的特效
2017/06/01 jQuery
快速解决brew安装特定版本flow的问题
2018/05/17 Javascript
如何为你的JS项目添加智能提示与类型检查详解
2019/03/12 Javascript
angular使用md5,CryptoJS des加密的方法
2019/06/03 Javascript
js实现带搜索功能的下拉框
2020/01/11 Javascript
JavaScript实现动态留言板
2020/03/16 Javascript
[01:10]3.19DOTA2发布会 三代刀塔人第一代
2014/03/25 DOTA
python实现数通设备tftp备份配置文件示例
2014/04/02 Python
Python 的 Socket 编程
2015/03/24 Python
python比较2个xml内容的方法
2015/05/11 Python
python处理Excel xlrd的简单使用
2017/09/12 Python
Python实现二维数组按照某行或列排序的方法【numpy lexsort】
2017/09/22 Python
浅谈利用numpy对矩阵进行归一化处理的方法
2018/07/11 Python
对python3 一组数值的归一化处理方法详解
2018/07/11 Python
用python脚本24小时刷浏览器的访问量方法
2018/12/07 Python
pytorch-RNN进行回归曲线预测方式
2020/01/14 Python
在 Pycharm 安装使用black的方法详解
2020/04/02 Python
150行Python代码实现带界面的数独游戏
2020/04/04 Python
斐乐美国官方网站:FILA美国
2019/03/01 全球购物
报社实习生自荐信
2014/01/24 职场文书
幼儿园教师培训方案
2014/02/04 职场文书
仓库管理员岗位职责
2015/02/03 职场文书
大队委员竞选稿
2015/11/20 职场文书
spring cloud 配置中心native配置方式
2021/09/25 Java/Android