时间:2021-05-22
因需要将impala仅仅作为数据源使用,而python有较好的数据分析函数,所以需要使用python客户端来获取impala中的表数据,这里的测试环境是:
操作系统:win7 (linux下也可行)
python 2.7
大数据环境:centos6.6
CDH版本:CDH5.4.1
impala 2.1.2 port:21050
1、安装Python package
pip install impyla
2、python客户端与impala交互
2.1 连接impala
>>> from impala.dbapi import connect>>> conn = connect(host='my.impala.host', port=21050)>>> cur = conn.cursor()注意:这里要确保端口设置为HS2服务,而不是Beeswax服务。在Cloudera的管理集群中,HS2的默认端口是21050。 (Beeswax默认端口21000)
2.2 对impala执行SQL查询
>>> cur.execute('SHOW TABLES')>>> cur.fetchall()[('defect_code_dim',), ('gxzl_ca_materialinfo',), ('gxzl_cg_materialinfo',), ('gxzl_defect2',), ('gxzl_defects',), ('gxzl_defects_hd',), ('gxzl_fx_class',), ('gxzl_fx_leftmidright',), ('gxzl_fx_topandbot',), ('gxzl_jiejing_2cc_slab',), ('gxzl_kgx_drw',), ('gxzl_kgx_drw_tmp',), ('gxzl_rz_materialinfo',), ('gxzl_sdbase_defects',), ('gxzl_test',), ('new_table',), ('ouye_transactionlog',), ('ouye_userinfo',), ('simple_test',), ('t0',), ('t_100m_hdfs',), ('t_100m_test',), ('t_10m_hdfs',), ('target1',), ('target2',), ('target3',), ('test',), ('tianchi_mobile_recommend_train_full',), ('tianchi_mobile_recommend_train_item',), ('tianchi_mobile_recommend_train_user',), ('tianchi_mobile_recommend_train_useritem',)]>>> cur.execute('SELECT * FROM test')>>> cur.description[('id', 'DOUBLE', None, None, None, None, None), ('name', 'STRING', None, None, None, None, None), ('value', 'STRING', None, None, None, None, None)]>>> cur.fetchall()[(1.0, 'tom', 'f'), (2.0, 'jerry', 't')]>>>注意:从服务器上获取数据会删除缓存,所以第二个.fetchall()返回一个空列表。
>>> cur.fetchall()[(1.0, 'tom', 'f'), (2.0, 'jerry', 't')]>>> cur.fetchall()[]>>>2.3 遍历查询结果
>>> cur.execute('SELECT * FROM test')>>> for row in cur: print row[1] == 1.0FalseFalse注:python的角标是以0开始。以上仍是以缓存方式来获取数据。
如果你的数据集较小可以使用这种方式;如果你需要存储大量的数据集,你可以用CREATE TABLE AS SELECT语句把它写入HDFS。
2.4 将查询结果转化为python中的pandas DataFrames
除了遍历结果以外,还可以把结果转化成pandas的数据框对象,以便进行数据分析:
>>> from impala.dbapi import connect>>> conn = connect(host='my.impala.host', port=21050)>>> cur = conn.cursor()>>> from impala.util import as_pandas>>> cur.execute('SELECT * FROM test')>>> df = as_pandas(cur)>>> type(df)<class 'pandas.core.frame.DataFrame'>>>> df id name value0 1 tom f1 2 jerry t>>>注:前提是python中安装了pandas,使用pip install pandas在线安装,安装过程中可能会提示:Microsoft Visual C++ 9.0 is required (Unable to find vcvarsall.bat). Get it from http://aka.ms/vcpython27
只要按照提示说的的去下载一个VC就可以了。这样就安装好了pandas。
以上这篇使用python客户端访问impala的操作方式就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
Impyla是用于分布式查询引擎的HiveServer2实现(如Impala、Hive)的python客户端1)安装impylapipinstallimpyla
用python实现FTP文件传输,包括服务器端和客户端,要求(1)客户端访问服务器端要有一个验证功能(2)可以有多个客户端访问服务器端(3)可以对重名文件重新上
使用方式IHttpClientFactory有四种模式:基本用法命名客户端类型化客户端生成的客户端基本用法在Startup.ConfigureServices方
阿里云邮箱为什么客户端无法使用成功绑定阿里云邮箱,需要设置客户端密码才可使用客户端收发阿里云邮箱邮件。操作方法:登录web邮箱,点击“客户端密码&r
Pxe网络安装原理客户端发出请求,dhcp服务器给客户端分配ip地址,并把tftp的地址返回客户端,客户端访问tftp服务器进入tftp根目录找到配置文件,访问