pyhanlp安装介绍和简单应用


Posted in Python onFebruary 22, 2019

1. 前言

中文分词≠自然语言处理!

Hanlp

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取新词发现 短语提取 自动摘要 文本分类 拼音简繁

中文分词只是第一步;HanLP从中文分词开始,覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务,提供了丰富的API。

不同于一些简陋的分词类库,HanLP精心优化了内部数据结构和IO接口,做到了毫秒级的冷启动、千万字符每秒的处理速度,而内存最低仅需120MB。无论是移动设备还是大型集群,都能获得良好的体验。

不同于市面上的商业工具,HanLP提供训练模块,可以在用户的语料上训练模型并替换默认模型,以适应不同的领域。项目主页上提供了详细的文档,以及在一些开源语料上训练的模型。

HanLP希望兼顾学术界的精准与工业界的效率,在两者之间取一个平衡,真正将自然语言处理普及到生产环境中去。

我们使用的pyhanlp是用python包装了HanLp的java接口。

2. pyhanlp的安装和使用

2.1 python下安装pyhanlp

pip安装

sudo pip3 install pyhanlp

第一次import pyhanlp会下载一个比较大的数据集,需要耐心等待下,后面再import就不会有了。

from pyhanlp import *

详情请见pyhanlp官方文档

2.2 pyhanlp简单使用方法

分词使用

from pyhanlp import *
print(HanLP.segment("今天开心了吗?"))
>>> [今天/t, 开心/a, 了/ule, 吗/y, ?/w]

依存分析使用

from pyhanlp import *
print(HanLP.parseDependency("今天开心了吗?"))
>>> 1  今天 今天 nt t  _  2  状中结构  _  _
>>> 2  开心 开心 a  a  _  0  核心关系  _  _
>>> 3  了  了  e  y  _  2  右附加关系  _  _
>>> 4  吗  吗  e  y  _  2  右附加关系  _  _
>>> 5  ?  ?  wp w  _  2  标点符号  _  _

2.3 pyhanlp可视化

如果大家看不太清楚上面的输出,pyhanlp提供了一个很好的展示交付界面,只要一句命令就能启动一个web服务

hanlp serve

登录http://localhost:8765就能看下可视化界面,能看到分词结果和依存关系的结果,是不是很直观。这个网页上还有安装说明、源码链接、文档链接、常见的问题(FAQ)。

pyhanlp安装介绍和简单应用

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现的Google IP 可用性检测脚本
Apr 23 Python
解决python 输出是省略号的问题
Apr 19 Python
Python实现读取SQLServer数据并插入到MongoDB数据库的方法示例
Jun 09 Python
Python MongoDB 插入数据时已存在则不执行,不存在则插入的解决方法
Sep 24 Python
PyTorch 普通卷积和空洞卷积实例
Jan 07 Python
Python小整数对象池和字符串intern实例解析
Mar 21 Python
Python matplotlib绘制图形实例(包括点,曲线,注释和箭头)
Apr 17 Python
python中shell执行知识点
May 06 Python
Selenium元素定位的30种方式(史上最全)
May 11 Python
Django视图、传参和forms验证操作
Jul 15 Python
Python数据可视化实现漏斗图过程图解
Jul 20 Python
python Scrapy框架原理解析
Jan 04 Python
Python3.7 dataclass使用指南小结
Feb 22 #Python
Python文件读写常见用法总结
Feb 22 #Python
Python 通过requests实现腾讯新闻抓取爬虫的方法
Feb 22 #Python
解决python3.5 正常安装 却不能直接使用Tkinter包的问题
Feb 22 #Python
浅谈python3.6的tkinter运行问题
Feb 22 #Python
Scrapy框架爬取西刺代理网免费高匿代理的实现代码
Feb 22 #Python
在Python运行时动态查看进程内部信息的方法
Feb 22 #Python
You might like
php下实现伪 url 的超简单方法[转]
2007/09/24 PHP
php is_file()和is_dir()用于遍历目录时用法注意事项
2010/03/02 PHP
Apache实现Web Server负载均衡详解(不考虑Session版)
2013/07/05 PHP
jQuery 可以拖动的div实现代码 脚本之家修正版
2009/06/26 Javascript
基于jQuery的表格操作插件
2010/04/22 Javascript
javascript按位非运算符的使用方法
2013/11/14 Javascript
Jquery弹出层插件ThickBox的使用方法
2014/12/09 Javascript
JavaScript中split() 使用方法汇总
2015/04/17 Javascript
如何用angularjs制作一个完整的表格
2016/01/21 Javascript
举例讲解如何判断JavaScript中对象的类型
2016/04/22 Javascript
js从外部获取图片的实现方法
2016/08/05 Javascript
利用JQuery直接调用asp.net后台的简单方法
2016/10/27 Javascript
JQuery异步提交表单与文件上传功能示例
2017/01/12 Javascript
微信小程序 跳转传参数与传对象详解及实例代码
2017/03/14 Javascript
jQuery复合事件结合toggle()方法的用法示例
2017/06/10 jQuery
详解js正则表达式验证时间格式xxxx-xx-xx形式
2018/02/09 Javascript
webpack+vuex+axios 跨域请求数据的示例代码
2018/03/06 Javascript
记一次webpack3升级webpack4的踩坑经历
2018/06/12 Javascript
JavaScript中this关键字用法实例分析
2018/08/24 Javascript
前端js中的事件循环eventloop机制详解
2019/05/15 Javascript
微信小程序mpvue点击按钮获取button值的方法
2019/05/29 Javascript
javascript实现的时间格式加8小时功能示例
2019/06/13 Javascript
python ip正则式
2009/05/07 Python
Python利用pyHook实现监听用户鼠标与键盘事件
2014/08/21 Python
Python中if __name__ == "__main__"详细解释
2014/10/21 Python
Python中使用语句导入模块或包的机制研究
2015/03/30 Python
完美解决python遍历删除字典里值为空的元素报错问题
2016/09/11 Python
对pandas进行数据预处理的实例讲解
2018/04/20 Python
pandas 根据列的值选取所有行的示例
2018/11/07 Python
Python3.5 处理文本txt,删除不需要的行方法
2018/12/10 Python
Python selenium 自动化脚本打包成一个exe文件(推荐)
2020/01/14 Python
python实现交并比IOU教程
2020/04/16 Python
python 制作网站筛选工具(附源码)
2021/01/21 Python
德国专业木制品经销商:Holz-Direkt24
2019/12/26 全球购物
大学生自我评价范文分享
2014/02/21 职场文书
财会专业毕业生自荐信
2014/07/09 职场文书