python实现的读取网页并分词功能示例


Posted in Python onOctober 29, 2019

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:

这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba

或点击此处本站下载jieba库

代码:

import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
  # <p>标签的处理
  for line in div.findChildren():
    file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
  with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
    for line in file_object.readlines():
      seg_list = jieba.cut(line,cut_all=False)
      file_cut_object.write('/'.join(seg_list))

爬取结果:

python实现的读取网页并分词功能示例

分词结果:

python实现的读取网页并分词功能示例

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
简单介绍Python中的readline()方法的使用
May 24 Python
Python使用微信SDK实现的微信支付功能示例
Jun 30 Python
Python栈算法的实现与简单应用示例
Nov 01 Python
Python实现的多线程同步与互斥锁功能示例
Nov 30 Python
python计算阶乘和的方法(1!+2!+3!+...+n!)
Feb 01 Python
Python3环境安装Scrapy爬虫框架过程及常见错误
Jul 12 Python
Windows10下 python3.7 安装 facenet的教程
Sep 10 Python
python3下pygame如何实现显示中文
Jan 11 Python
Python字典添加,删除,查询等相关操作方法详解
Feb 07 Python
Virtualenv 搭建 Py项目运行环境的教程详解
Jun 22 Python
Python下划线5种含义代码实例解析
Jul 10 Python
Python调用腾讯API实现人脸身份证比对功能
Apr 04 Python
python实现LRU热点缓存及原理
Oct 29 #Python
Python 中的 import 机制之实现远程导入模块
Oct 29 #Python
Centos7 下安装最新的python3.8
Oct 28 #Python
Python any()函数的使用方法
Oct 28 #Python
PYTHON发送邮件YAGMAIL的简单实现解析
Oct 28 #Python
详解如何用python实现一个简单下载器的服务端和客户端
Oct 28 #Python
SELENIUM自动化模拟键盘快捷键操作实现解析
Oct 28 #Python
You might like
PHP数据库表操作的封装类及用法实例详解
2016/07/12 PHP
yii2局部关闭(开启)csrf的验证的实例代码
2017/07/10 PHP
PHP两个n位的二进制整数相加问题的解决
2018/08/26 PHP
PHP中quotemeta()函数的用法讲解
2019/04/04 PHP
JavaScript获得选中文本内容的方法
2008/12/02 Javascript
jquery.ui.progressbar 中文文档
2009/11/26 Javascript
非阻塞动态加载javascript广告实现代码
2010/11/17 Javascript
jquery时间下拉框小例子
2013/04/15 Javascript
jquery 日期控件datepicker属性详细解析
2013/11/08 Javascript
关于JS数组追加数组采用push.apply的问题
2014/06/09 Javascript
当前流行的JavaScript代码风格指南
2014/09/10 Javascript
JQuery中使文本框获得焦点的方法实例分析
2015/02/28 Javascript
AngularJS学习笔记之ng-options指令
2015/06/16 Javascript
javascript实现base64 md5 sha1 密码加密
2015/09/09 Javascript
Vue.js组件tab实现选项卡切换
2020/03/23 Javascript
JS给按钮添加跳转功能类似a标签
2017/05/30 Javascript
Express下采用bcryptjs进行密码加密的方法
2018/02/07 Javascript
一步快速解决微信小程序中textarea层级太高遮挡其他组件
2019/03/04 Javascript
详解关于React-Router4.0跳转不置顶解决方案
2019/05/10 Javascript
webpack是如何实现模块化加载的方法
2019/11/06 Javascript
基于Angular 8和Bootstrap 4实现动态主题切换的示例代码
2020/02/11 Javascript
[04:11]DOTA2上海特级锦标赛主赛事首日TOP10
2016/03/03 DOTA
python处理json数据中的中文
2014/03/06 Python
python字典快速保存于读取的方法
2018/03/23 Python
面向初学者的Python编辑器Mu
2018/10/08 Python
使用python进行波形及频谱绘制的方法
2019/06/17 Python
python实现删除列表中某个元素的3种方法
2020/01/15 Python
使用python执行shell脚本 并动态传参 及subprocess的使用详解
2020/03/06 Python
python读取yaml文件后修改写入本地实例
2020/04/27 Python
Pygame框架实现飞机大战
2020/08/07 Python
马来西亚最大的电器网站:Senheng
2017/10/13 全球购物
接口的多继承会带来哪些问题
2015/08/17 面试题
学前教育毕业生自荐信范文
2013/12/24 职场文书
2015年医院工作总结范文
2015/04/09 职场文书
MySQL创建管理LIST分区
2022/04/13 MySQL
python神经网络 使用Keras构建RNN训练
2022/05/04 Python