编程 Python

Python连接Hadoop数据中遇到的各种坑(汇总)

Posted in Python onApril 14, 2020

最近准备使用Python+Hadoop+Pandas进行一些深度的分析与机器学习相关工作。（当然随着学习过程的进展，现在准备使用Python+Spark+Hadoop这样一套体系来搭建后续的工作环境），当然这是后话。
但是这项工作首要条件就是将Python与Hadoop进行打通，本来认为很容易的一项工作，没有想到竟然遇到各种坑，花费了整整半天时间。后来也在网上看到大家在咨询相同的问题，但是真正解决这个问题的帖子又几乎没有，所以现在将Python连接Hadoop数据库过程中遇到的各种坑进行一个汇总，然后与大家进行分享，以尽量避免大家花费宝贵的时间。

（说明一下：这篇文章中的各种坑的解决，翻阅了网上无数的帖子，最好一GIT上面一个帖子的角落里面带了这么一句，否则很容易翻船。但是由于帖子太多，所以我就不一一帖出来了）

首先是选组件，我选择的是使用：impala+Python3.7来连接Hadoop数据库，如果你不是的话，就不要浪费宝贵时间继续阅读了。

执行的代码如下：

import impala.dbapi as ipdb
conn = ipdb.connect(host="192.168.XX.XXX",port=10000,user="xxx",password="xxxxxx",database="xxx",auth_mechanism='PLAIN')
cursor = conn.cursor()
#其中xxxx是表名，为了不涉及到公司的信息，我把表名隐藏掉了，大家自己换成自己数据库表名
cursor.execute('select * From xxxx')
print(cursor.description) # prints the result set's schema
for rowData in cursor.fetchall():
  print(rowData)
conn.close()

坑一：提示语法错误

现象：

/Users/wangxxin/miniconda3/bin/python3.7 /Users/wangxxin/Documents/Python/PythonDataAnalyze/project/knDt/pyHiveTest.py
Traceback (most recent call last):
File "/Users/wangxxin/Documents/Python/PythonDataAnalyze/project/knDt/pyHiveTest.py", line 1, in <module>
    import impala.dbapi as ipdb
File "/Users/wangxxin/miniconda3/lib/python3.7/site-packages/impala/dbapi.py", line 28, in <module>
    import impala.hiveserver2 as hs2
File "/Users/wangxxin/miniconda3/lib/python3.7/site-packages/impala/hiveserver2.py", line 340
    async=True)

解决办法：将参数async全部修改为“async_”（当然这个可以随便，只要上下文一致，并且不是关键字即可），原因：在Python3.0中，已经将async标为关键词，如果再使用async做为参数，会提示语法错误；应该包括以下几个地方：

#hiveserver2.py文件338行左右
op = self.session.execute(self._last_operation_string,
                 configuration,
                 async_=True)
#hiveserver2.py文件1022行左右
def execute(self, statement, configuration=None, async_=False):
  req = TExecuteStatementReq(sessionHandle=self.handle,
                statement=statement,
                confOverlay=configuration,
                runAsync=async_)

坑二：提供的Parser.py文件有问题，加载的时候会报错

解决办法：

#根据网上的意见对原代码进行调整
elif url_scheme in ('c', 'd', 'e', 'f'):
  with open(path) as fh:
    data = fh.read()
elif url_scheme in ('http', 'https'):
  data = urlopen(path).read()
else:
  raise ThriftParserError('ThriftPy does not support generating module '
              'with path in protocol \'{}\''.format(
                url_scheme))

以上的坑一、坑二建议你直接修改。这两点是肯定要调整的；

坑三：上面的两个问题处理好之后，继续运行，会报如下错误：

TProtocolException: TProtocolException(type=4)

解决办法：

原因是由于connect方法里面没有增加参数：auth_mechanism='PLAIN，修改如下所示：

import impala.dbapi as ipdb
conn = ipdb.connect(host="192.168.XX.XXX",port=10000,user="xxx",password="xxxxxx",database="xxx",auth_mechanism='PLAIN')`

坑四：问题三修改好之后，继续运行程序，你会发现继续报错：

AttributeError: 'TSocket' object has no attribute 'isOpen'

解决办法：

由于是thrift-sasl的版本太高了(0.3.0)，故将thrift-sasl的版本降级到0.2.1

pip uninstall thrift-sasl
pip install thrift-sasl==0.2.1

坑五：处理完这个问题后，继续运行，继续报错（这个时间解决有点快崩溃的节奏了，但是请坚持住，其实你已经很快接近最后结果了）：

thriftpy.transport.TTransportException: TTransportException(type=1, message="Could not start SASL: b'Error in sasl_client_start (-4) SASL(-4): no mechanism available: Unable to find a callback: 2'")

解决办法：这个是最麻烦的，也是目前最难找到解决办法的。

I solved the issue, had to uninstall the package SASL and install PURE-SASL, when impyla can´t find the sasl package it works with pure-sasl and then everything goes well.

主要原因其实还是因为sasl和pure-sasl有冲突，这种情况下，直接卸载sasl包就可能了。

pip uninstall SASL

坑六：但是执行完成，继续完成，可能还是会报错：

TypeError: can't concat str to bytes

定位到错误的最后一条，在init.py第94行（标黄的部分）

header = struct.pack(">BI", status, len(body))
#按照网上的提供的办法增加对BODY的处理
if (type(body) is str):
 body = body.encode()
self._trans.write(header + body)
self._trans.flush()

经过以上步骤，大家应该可以连接Hive库查询数据，应该是不存在什么问题了。

最后总结一下，连接Hadoop数据库中各种依赖包，请大家仔细核对一下依赖包（最好是依赖包相同，也就是不多不少[我说的是相关的包]，这样真的可以避免很多问题的出现）

序号	包名	版本号	安装命令行
1	pure_sasl	0.5.1	pip install pure_sasl==0.5.1 -i https://pypi.tuna.tsinghua.edu.cn/simple
2	thrift	0.9.3	pip install thrift==0.9.3 -i https://pypi.tuna.tsinghua.edu.cn/simple
3	bitarray	0.8.3	pip install bitarray==0.8.3 -i https://pypi.tuna.tsinghua.edu.cn/simple
4	thrift_sasl	0.2.1	pip install thrift_sasl==0.2.1 -i https://pypi.tuna.tsinghua.edu.cn/simple
5	thriftpy	0.3.9	pip install thriftpy==0.3.9 -i https://pypi.tuna.tsinghua.edu.cn/simple
6	impyla	0.14.1	pip install impyla==0.14.1 -i https://pypi.tuna.tsinghua.edu.cn/simple

建议按顺序安装，我这边之前有依赖包的问题，但是最终我是通过conda进行安装的。
其中在安装thriftpy、thrift_sasl、impyla报的时候报错，想到自己有conda，直接使用conda install，会自动下载依赖的包，如下所示（供没有conda环境的同学参考）

package	build	size
ply-3.11	py37_0	80 KB
conda-4.6.1	py37_0	1.7 MB
thriftpy-0.3.9	py37h1de35cc_2	171 KB

祝您好运！如果在实际过程中还是遇到各种各样的问题，请你留言。

最后有一点提示：

SQL里面不要带分号，否则会报错。但是这个就不是环境问题了。报错如下：

impala.error.HiveServer2Error: Error while compiling statement: FAILED: ParseException line 2:83 cannot recogniz

到此这篇关于Python连接Hadoop数据中遇到的各种坑(汇总)的文章就介绍到这了,更多相关Python连接Hadoop内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python连接Hadoop数据中遇到的各种坑(汇总)

- Author -

wx0628

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

跟老齐学Python之dict()的操作方法

Sep 24 Python

Python 实现一行输入多个值的方法

Apr 21 Python

pytorch: tensor类型的构建与相互转换实例

Jul 26 Python

Python爬虫之正则表达式的使用教程详解

Oct 25 Python

Python实现简单的列表冒泡排序和反转列表操作示例

Jul 10 Python

Ubuntu+python将nii图像保存成png格式

Jul 18 Python

python正则-re的用法详解

Jul 28 Python

Python3 xml.etree.ElementTree支持的XPath语法详解

Mar 06 Python

Pyinstaller加密打包应用的示例代码

Jun 11 Python

Python实现石头剪刀布游戏

Jan 20 Python

python实现过滤敏感词

May 08 Python

Python趣味挑战之教你用pygame画进度条

May 31 Python

jupyter notebook 调用环境中的Keras或者pytorch教程

Apr 14 #Python

Python用5行代码实现批量抠图的示例代码

Apr 14 #Python

在jupyter notebook中调用.ipynb文件方式

Apr 14 #Python

使用jupyter notebook将文件保存为Markdown,HTML等文件格式

Apr 14 #Python

Python使用pyyaml模块处理yaml数据

Apr 14 #Python

Jupyter Notebook打开任意文件夹操作

Apr 14 #Python

Python requests模块cookie实例解析

Apr 14 #Python

You might like

咖啡的种类和口感

2021/03/03 新手入门

打造计数器DIY三步曲(下)

2006/10/09 PHP

Yii2实现自定义独立验证器的方法

2017/05/05 PHP

PHP5.6新增加的可变函数参数用法分析

2017/08/25 PHP

php使用curl伪造来源ip和refer的方法示例

2018/05/08 PHP

Firefox outerHTML实现代码

2009/06/04 Javascript

用html+css+js实现的一个简单的图片切换特效

2014/05/28 Javascript

Jquery获取当前城市的天气信息

2016/08/05 Javascript

ionic实现可滑动的tab选项卡切换效果

2020/04/15 Javascript

jquery validate表单验证插件

2016/09/06 Javascript

JavaScript中apply方法的应用技巧小结

2016/09/29 Javascript

pageGroup.js实现分页功能

2019/07/27 Javascript

js实现图片无缝循环轮播

2019/10/28 Javascript

Node.js中console.log()输出彩色字体的方法示例

2019/12/01 Javascript

python中的列表推导浅析

2014/04/26 Python

django反向解析URL和URL命名空间的方法

2018/06/05 Python

Python字符串格式化输出代码实例

2019/11/22 Python

关于tensorflow的几种参数初始化方法小结

2020/01/04 Python

TensorFlow dataset.shuffle、batch、repeat的使用详解

2020/01/21 Python

python字符串,元组,列表,字典互转代码实例详解

2020/02/14 Python

python opencv肤色检测的实现示例

2020/12/21 Python

HTML5实现文件断点续传的方法

2017/01/04 HTML / CSS

美国家具网站：Cymax

2016/09/17 全球购物

澳大利亚领先的宠物用品商店：VetSupply

2017/09/08 全球购物

英国复古服装和球衣购买网站：3Retro Football

2018/07/09 全球购物

Servlet的实例是在生命周期什么时候创建的？配置servlet最重要的是什么？

2012/05/30 面试题

统计员岗位职责

2013/11/14 职场文书

化学教学随笔感言

2014/02/19 职场文书

课堂教学改革实施方案

2014/03/17 职场文书

百货商场楼层班组长竞聘书

2014/03/31 职场文书

小学向国旗敬礼活动方案

2014/09/27 职场文书

自荐信怎么写

2015/03/04 职场文书

导游词之青岛太清宫

2019/12/13 职场文书

css3实现背景图片颜色修改的多种方式

2021/04/13 HTML / CSS

MySQL GRANT用户授权的实现

2021/06/18 MySQL

Java 定时任务技术趋势简介

2022/05/04 Java/Android