python实现的读取网页并分词功能示例


Posted in Python onOctober 29, 2019

本文实例讲述了python实现的读取网页并分词功能。分享给大家供大家参考,具体如下:

这里使用分词使用最流行的分词包jieba,参考:https://github.com/fxsjy/jieba

或点击此处本站下载jieba库

代码:

import requests
from bs4 import BeautifulSoup
import jieba
# 获取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 写入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
  # <p>标签的处理
  for line in div.findChildren():
    file_object.write(line.get_text()+'\n')
# 使用分词工具
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
  with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
    for line in file_object.readlines():
      seg_list = jieba.cut(line,cut_all=False)
      file_cut_object.write('/'.join(seg_list))

爬取结果:

python实现的读取网页并分词功能示例

分词结果:

python实现的读取网页并分词功能示例

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python学习资料
Feb 08 Python
在Python程序中操作文件之flush()方法的使用教程
May 24 Python
python实现将html表格转换成CSV文件的方法
Jun 28 Python
python实现爬虫统计学校BBS男女比例之数据处理(三)
Dec 31 Python
Python+django实现文件上传
Jan 17 Python
Python 多进程并发操作中进程池Pool的实例
Nov 01 Python
使用Python进行AES加密和解密的示例代码
Feb 02 Python
对python中大文件的导入与导出方法详解
Dec 28 Python
Python操作rabbitMQ的示例代码
Mar 19 Python
如何使用python3获取当前路径及os.path.dirname的使用
Dec 13 Python
tensorflow 2.1.0 安装与实战教程(CASIA FACE v5)
Jun 30 Python
基于logstash实现日志文件同步elasticsearch
Aug 06 Python
python实现LRU热点缓存及原理
Oct 29 #Python
Python 中的 import 机制之实现远程导入模块
Oct 29 #Python
Centos7 下安装最新的python3.8
Oct 28 #Python
Python any()函数的使用方法
Oct 28 #Python
PYTHON发送邮件YAGMAIL的简单实现解析
Oct 28 #Python
详解如何用python实现一个简单下载器的服务端和客户端
Oct 28 #Python
SELENIUM自动化模拟键盘快捷键操作实现解析
Oct 28 #Python
You might like
PHP - Html Transfer Code
2006/10/09 PHP
网页游戏开发入门教程三(简单程序应用)
2009/11/02 PHP
php实现从上传文件创建缩略图的方法
2015/04/02 PHP
YII Framework框架教程之安全方案详解
2016/03/14 PHP
什么是PHP文件?如何打开PHP文件?
2017/06/27 PHP
Laravel学习教程之View模块详解
2017/09/18 PHP
PHP设计模式之单例模式定义与用法分析
2019/03/26 PHP
innertext , insertadjacentelement , insertadjacenthtml , insertadjacenttext 等区别
2007/06/29 Javascript
jQuery数组处理代码详解(含实例演示)
2012/02/03 Javascript
当鼠标移动时出现特效的JQuery代码
2013/11/08 Javascript
js动态创建上传表单通过iframe模拟Ajax实现无刷新
2014/02/20 Javascript
AngularJS ngModel实现指令与输入直接的数据通信
2016/09/21 Javascript
js 性能优化之快速响应的用户界面
2017/02/15 Javascript
最常用的jQuery表单验证(简单)
2017/05/23 jQuery
node.js基于express使用websocket的方法
2017/11/09 Javascript
vue拦截器实现统一token,并兼容IE9验证功能
2018/04/26 Javascript
浅谈vue限制文本框输入数字的正确姿势
2019/09/02 Javascript
微信小程序在text文本实现多种字体样式
2019/11/08 Javascript
微信小程序实现可拖动悬浮图标(包括按钮角标的实现)
2020/12/29 Javascript
python验证码识别的示例代码
2017/09/21 Python
Python + selenium自动化环境搭建的完整步骤
2018/05/19 Python
浅谈pycharm的xmx和xms设置方法
2018/12/03 Python
pandas实现excel中的数据透视表和Vlookup函数功能代码
2020/02/14 Python
基于Python绘制美观动态圆环图、饼图
2020/06/03 Python
记录模型训练时loss值的变化情况
2020/06/16 Python
Python3如何使用range函数替代xrange函数
2020/10/05 Python
python 基于opencv操作摄像头
2020/12/24 Python
幼儿园六一儿童节主持节目串词
2014/03/21 职场文书
银行爱岗敬业演讲稿
2014/05/05 职场文书
个人师德师风自我剖析材料
2014/09/29 职场文书
领导班子专题民主生活会情况想汇报
2014/09/30 职场文书
派出所班子党的群众路线对照检查材料思想汇报
2014/10/01 职场文书
安全检查汇报材料
2014/12/26 职场文书
MySQL分区以及建索引的方法总结
2022/04/13 MySQL
动作冒险《Hell Is Us》将采用虚幻5 消灭怪物探索王国
2022/04/13 其他游戏
Win10系统搭建ftp文件服务器详细教程
2022/08/05 Servers