对Python中gensim库word2vec的使用详解


Posted in Python onMay 08, 2018

pip install gensim安装好库后,即可导入使用:

1、训练模型定义

from gensim.models import Word2Vec 
model = Word2Vec(sentences, sg=1, size=100, window=5, min_count=5, negative=3, sample=0.001, hs=1, workers=4)

参数解释:

1.sg=1是skip-gram算法,对低频词敏感;默认sg=0为CBOW算法。

2.size是输出词向量的维数,值太小会导致词映射因为冲突而影响结果,值太大则会耗内存并使算法计算变慢,一般值取为100到200之间。

3.window是句子中当前词与目标词之间的最大距离,3表示在目标词前看3-b个词,后面看b个词(b在0-3之间随机)。

4.min_count是对词进行过滤,频率小于min-count的单词则会被忽视,默认值为5。

5.negative和sample可根据训练结果进行微调,sample表示更高频率的词被随机下采样到所设置的阈值,默认值为1e-3。

6.hs=1表示层级softmax将会被使用,默认hs=0且negative不为0,则负采样将会被选择使用。

7.workers控制训练的并行,此参数只有在安装了Cpython后才有效,否则只能使用单核。

详细参数说明可查看word2vec源代码。

2、训练后的模型保存与加载

model.save(fname) 
model = Word2Vec.load(fname)

3、模型使用(词语相似度计算等)

model.most_similar(positive=['woman', 'king'], negative=['man']) 
#输出[('queen', 0.50882536), ...] 
 
model.doesnt_match("breakfast cereal dinner lunch".split()) 
#输出'cereal' 
 
model.similarity('woman', 'man') 
#输出0.73723527 
 
model['computer'] # raw numpy vector of a word 
#输出array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32)

其它内容不再赘述,详细请参考gensim的word2vec的官方说明,里面讲的很详细。

以上这篇对Python中gensim库word2vec的使用详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python聊天程序实例代码分享
Nov 18 Python
Python中对元组和列表按条件进行排序的方法示例
Nov 10 Python
python用户管理系统的实例讲解
Dec 23 Python
python中matplotlib的颜色及线条控制的示例
Mar 16 Python
使用Python AIML搭建聊天机器人的方法示例
Jul 09 Python
django连接mysql配置方法总结(推荐)
Aug 18 Python
PyCharm+PySpark远程调试的环境配置的方法
Nov 29 Python
使用Python做定时任务及时了解互联网动态
May 15 Python
安装好Pycharm后如何配置Python解释器简易教程
Jun 28 Python
jenkins配置python脚本定时任务过程图解
Oct 29 Python
Python qrcode 生成一个二维码的实例详解
Feb 12 Python
使用Python打造一款间谍程序的流程分析
Feb 21 Python
用python处理MS Word的实例讲解
May 08 #Python
基于python批量处理dat文件及科学计算方法详解
May 08 #Python
使用Python通过win32 COM实现Word文档的写入与保存方法
May 08 #Python
Ubuntu下使用python读取doc和docx文档的内容方法
May 08 #Python
儿童编程python入门
May 08 #Python
解决python大批量读写.doc文件的问题
May 08 #Python
python在每个字符后添加空格的实例
May 07 #Python
You might like
DC动画很好看?新作烂得令人发指,名叫《红色之子》
2020/04/09 欧美动漫
php 记录进行累加并显示总时长为秒的结果
2011/11/04 PHP
php使用Image Magick将PDF文件转换为JPG文件的方法
2015/04/01 PHP
Windows平台实现PHP连接SQL Server2008的方法
2017/07/26 PHP
thinkphp5 migrate数据库迁移工具
2018/02/20 PHP
PhpStorm配置Xdebug调试的方法步骤
2019/02/02 PHP
PHP dirname功能及原理实例解析
2020/10/28 PHP
jQuery UI AutoComplete 使用说明
2011/06/20 Javascript
JS截取字符串常用方法整理及使用示例
2013/10/18 Javascript
jQuery的position()方法详解
2015/07/19 Javascript
javascript计时器编写过程与实现方法
2016/02/29 Javascript
jq实现左滑显示删除按钮,点击删除实现删除数据功能(推荐)
2016/08/23 Javascript
bootstrap表格内容过长时用省略号表示的解决方法
2017/11/21 Javascript
Node.js爬取豆瓣数据实例分析
2018/03/05 Javascript
vue富文本编辑器组件vue-quill-edit使用教程
2018/09/21 Javascript
Vue插件从封装到发布的完整步骤记录
2019/02/28 Javascript
vue router 跳转时打开新页面的示例方法
2019/07/28 Javascript
微信小程序vant弹窗组件的实现方式
2020/02/21 Javascript
js编写简易的计算器
2020/07/29 Javascript
python面向对象多线程爬虫爬取搜狐页面的实例代码
2018/05/31 Python
Python基于百度云文字识别API
2018/12/13 Python
python 两个数据库postgresql对比
2019/10/21 Python
Python笔记之工厂模式
2019/11/20 Python
python进程的状态、创建及使用方法详解
2019/12/06 Python
python中读入二维csv格式的表格方法详解(以元组/列表形式表示)
2020/04/24 Python
Python函数必须先定义,后调用说明(函数调用函数例外)
2020/06/02 Python
python基本算法之实现归并排序(Merge sort)
2020/09/01 Python
python定义具名元组实例操作
2021/02/28 Python
汇智创新科技发展有限公司
2015/12/06 面试题
校园十大歌手策划书
2014/02/01 职场文书
药剂专业自荐信范文
2014/04/16 职场文书
2014国庆节幼儿园亲子活动方案
2014/09/16 职场文书
安全生产协议书
2016/03/22 职场文书
JavaScript实现淘宝商品图切换效果
2021/04/29 Javascript
Oracle使用别名的好处
2022/04/19 Oracle
python blinker 信号库
2022/05/04 Python