pyhanlp安装介绍和简单应用


Posted in Python onFebruary 22, 2019

1. 前言

中文分词≠自然语言处理!

Hanlp

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取新词发现 短语提取 自动摘要 文本分类 拼音简繁

中文分词只是第一步;HanLP从中文分词开始,覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务,提供了丰富的API。

不同于一些简陋的分词类库,HanLP精心优化了内部数据结构和IO接口,做到了毫秒级的冷启动、千万字符每秒的处理速度,而内存最低仅需120MB。无论是移动设备还是大型集群,都能获得良好的体验。

不同于市面上的商业工具,HanLP提供训练模块,可以在用户的语料上训练模型并替换默认模型,以适应不同的领域。项目主页上提供了详细的文档,以及在一些开源语料上训练的模型。

HanLP希望兼顾学术界的精准与工业界的效率,在两者之间取一个平衡,真正将自然语言处理普及到生产环境中去。

我们使用的pyhanlp是用python包装了HanLp的java接口。

2. pyhanlp的安装和使用

2.1 python下安装pyhanlp

pip安装

sudo pip3 install pyhanlp

第一次import pyhanlp会下载一个比较大的数据集,需要耐心等待下,后面再import就不会有了。

from pyhanlp import *

详情请见pyhanlp官方文档

2.2 pyhanlp简单使用方法

分词使用

from pyhanlp import *
print(HanLP.segment("今天开心了吗?"))
>>> [今天/t, 开心/a, 了/ule, 吗/y, ?/w]

依存分析使用

from pyhanlp import *
print(HanLP.parseDependency("今天开心了吗?"))
>>> 1  今天 今天 nt t  _  2  状中结构  _  _
>>> 2  开心 开心 a  a  _  0  核心关系  _  _
>>> 3  了  了  e  y  _  2  右附加关系  _  _
>>> 4  吗  吗  e  y  _  2  右附加关系  _  _
>>> 5  ?  ?  wp w  _  2  标点符号  _  _

2.3 pyhanlp可视化

如果大家看不太清楚上面的输出,pyhanlp提供了一个很好的展示交付界面,只要一句命令就能启动一个web服务

hanlp serve

登录http://localhost:8765就能看下可视化界面,能看到分词结果和依存关系的结果,是不是很直观。这个网页上还有安装说明、源码链接、文档链接、常见的问题(FAQ)。

pyhanlp安装介绍和简单应用

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python正则表达式抓取成语网站
Nov 20 Python
利用Python绘制MySQL数据图实现数据可视化
Mar 30 Python
Python数据类型详解(四)字典:dict
May 12 Python
Python找出list中最常出现元素的方法
Jun 14 Python
python 调用win32pai 操作cmd的方法
May 28 Python
python 中字典嵌套列表的方法
Jul 03 Python
Pytorch实现GoogLeNet的方法
Aug 18 Python
详细整理python 字符串(str)与列表(list)以及数组(array)之间的转换方法
Aug 30 Python
django实现类似触发器的功能
Nov 15 Python
python爬取本站电子书信息并入库的实现代码
Jan 20 Python
Python打包工具PyInstaller的安装与pycharm配置支持PyInstaller详细方法
Feb 27 Python
python爬取股票最新数据并用excel绘制树状图的示例
Mar 01 Python
Python3.7 dataclass使用指南小结
Feb 22 #Python
Python文件读写常见用法总结
Feb 22 #Python
Python 通过requests实现腾讯新闻抓取爬虫的方法
Feb 22 #Python
解决python3.5 正常安装 却不能直接使用Tkinter包的问题
Feb 22 #Python
浅谈python3.6的tkinter运行问题
Feb 22 #Python
Scrapy框架爬取西刺代理网免费高匿代理的实现代码
Feb 22 #Python
在Python运行时动态查看进程内部信息的方法
Feb 22 #Python
You might like
Flash空降上海 化身大魔王接受挑战
2020/03/02 星际争霸
phpinfo 系统查看参数函数代码
2009/06/05 PHP
基于php-fpm的配置详解
2013/06/03 PHP
PHP读取大文件的类SplFileObject使用介绍
2014/04/09 PHP
PHP5.5和之前的版本empty函数的不同之处
2014/06/13 PHP
PHP判断表单复选框选中状态完整例子
2014/06/24 PHP
PHP保存带BOM文件的方法
2015/02/12 PHP
php验证码生成代码
2015/11/11 PHP
PHP 访问数据库配置通用方法(json)
2018/05/20 PHP
Nigma vs Alliance BO5 第四场2.14
2021/03/10 DOTA
动感效果的TAB选项卡jquery 插件
2011/07/09 Javascript
JavaScript创建一个object对象并操作对象属性的用法
2015/03/23 Javascript
JS基于FileSystemObject创建一个指定路径的TXT文本文件
2015/08/05 Javascript
Jquery easyui 实现动态树
2015/11/17 Javascript
JS匿名函数类生成方式实例分析
2016/11/26 Javascript
详解js数组的完全随机排列算法
2016/12/16 Javascript
详解HTML5 使用video标签实现选择摄像头功能
2017/10/25 Javascript
Vue组件通信的四种方式汇总
2018/02/08 Javascript
Vue-Router基础学习笔记(小结)
2018/10/15 Javascript
学习node.js 断言的使用详解
2019/03/18 Javascript
Vue组件间通信方法总结(父子组件、兄弟组件及祖先后代组件间)
2019/04/17 Javascript
vue实现多条件和模糊搜索功能
2019/05/28 Javascript
vue柱状进度条图像的完美实现方案
2019/08/26 Javascript
使用 Element UI Table 的 slot-scope方法
2019/10/10 Javascript
[49:43]VG vs FNATIC 2019国际邀请赛小组赛 BO2 第一场 8.15
2019/08/17 DOTA
[42:32]完美世界DOTA2联赛PWL S2 LBZS vs FTD.C 第二场 11.27
2020/12/01 DOTA
Python并发之多进程的方法实例代码
2018/08/15 Python
Python使用POP3和SMTP协议收发邮件的示例代码
2019/04/16 Python
Python Des加密解密如何实现软件注册码机器码
2020/01/08 Python
Python打包模块wheel的使用方法与将python包发布到PyPI的方法详解
2020/02/12 Python
Python如何对XML 解析
2020/06/28 Python
css3 响应式媒体查询的示例代码
2019/09/25 HTML / CSS
解释下列WebService名词:WSDL、SOAP、UDDI
2012/06/22 面试题
实习教师自我鉴定
2013/09/27 职场文书
小学开学标语
2014/07/01 职场文书
爱心助学感谢信
2015/01/21 职场文书