python实现的读取网页并分词功能示例


Posted in Python onOctober 29, 2019

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:

这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba

或点击此处本站下载jieba库

代码:

import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
  # <p>标签的处理
  for line in div.findChildren():
    file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
  with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
    for line in file_object.readlines():
      seg_list = jieba.cut(line,cut_all=False)
      file_cut_object.write('/'.join(seg_list))

爬取结果:

python实现的读取网页并分词功能示例

分词结果:

python实现的读取网页并分词功能示例

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python UnicodeEncodeError: 'gbk' codec can't encode character 解决方法
Apr 24 Python
python实现数组插入新元素的方法
May 22 Python
Python通过正则表达式选取callback的方法
Jul 18 Python
举例讲解Python中的死锁、可重入锁和互斥锁
Nov 05 Python
Python3实现发送QQ邮件功能(html)
Dec 15 Python
Python实现合并同一个文件夹下所有PDF文件的方法示例
Apr 28 Python
安装好Pycharm后如何配置Python解释器简易教程
Jun 28 Python
python 计算数据偏差和峰度的方法
Jun 29 Python
详解python路径拼接os.path.join()函数的用法
Oct 09 Python
Python 找出出现次数超过数组长度一半的元素实例
May 11 Python
Python3中FuzzyWuzzy库实例用法
Nov 18 Python
如何基于Python和Flask编写Prometheus监控
Nov 25 Python
python实现LRU热点缓存及原理
Oct 29 #Python
Python 中的 import 机制之实现远程导入模块
Oct 29 #Python
Centos7 下安装最新的python3.8
Oct 28 #Python
Python any()函数的使用方法
Oct 28 #Python
PYTHON发送邮件YAGMAIL的简单实现解析
Oct 28 #Python
详解如何用python实现一个简单下载器的服务端和客户端
Oct 28 #Python
SELENIUM自动化模拟键盘快捷键操作实现解析
Oct 28 #Python
You might like
php在字符串中查找另一个字符串
2008/11/19 PHP
php 获取远程网页内容的函数
2009/09/08 PHP
PHP实现变色验证码实例
2014/01/06 PHP
PHP文件缓存内容保存格式实例分析
2014/08/20 PHP
php开发工具有哪五款
2015/11/09 PHP
PHP性能分析工具xhprof的安装使用与注意事项
2017/12/19 PHP
IE网页js语法错误2行字符1、FF中正常的解决方法
2013/09/09 Javascript
JS中字符串trim()使用示例
2015/05/26 Javascript
JS实现密码框根据焦点的获取与失去控制文字的消失与显示效果
2015/11/26 Javascript
AngualrJS中的Directive制作一个菜单
2016/01/26 Javascript
JS中的==运算: [''] == false —&gt;true
2016/07/24 Javascript
基于JavaScript实现树形下拉框
2016/08/10 Javascript
canvas实现弧形可拖动进度条效果
2017/05/11 Javascript
推荐VSCode 上特别好用的 Vue 插件之vetur
2017/09/14 Javascript
vue自定义filters过滤器
2018/04/26 Javascript
小程序中设置缓存过期的实现方法
2020/01/14 Javascript
vue3+typescript实现图片懒加载插件
2020/10/26 Javascript
Javascript文本框脚本实现方法解析
2020/10/30 Javascript
[01:01:24]DOTA2上海特级锦标赛A组败者赛 EHOME VS CDEC第三局
2016/02/25 DOTA
在PyCharm中控制台输出日志分层级分颜色显示的方法
2019/07/11 Python
Python 3.8 新功能全解
2019/07/25 Python
PyTorch和Keras计算模型参数的例子
2020/01/02 Python
Pycharm 使用 Pipenv 新建的虚拟环境(图文详解)
2020/04/16 Python
jupyter notebook oepncv 显示一张图像的实现
2020/04/24 Python
详解CSS3中border-image的使用
2015/07/18 HTML / CSS
Zadig&Voltaire官网:法国时装品牌
2018/01/05 全球购物
小学清明节活动方案
2014/03/08 职场文书
家长会主持词开场白
2014/03/18 职场文书
通信工程专业求职信
2014/06/04 职场文书
小学生我的梦想演讲稿
2014/08/21 职场文书
幼儿园教师节感谢信
2015/01/23 职场文书
公司文体活动总结
2015/05/07 职场文书
酒会开场白大全
2015/06/01 职场文书
道士塔读书笔记
2015/06/30 职场文书
进行数据处理的6个 Python 代码块分享
2022/04/06 Python
win10忘记pin密码登录不了怎么办?win10忘记pin密码登不进去的解决方法
2022/07/07 数码科技