hive
1、使用pyhive库
2、需要安装pyhive、thrift、sasl、thrift-sasl
一般安装pyhive时候就会自动安装其他三个库,但是sasl有可能安装不了,需要去官网下载https://www.lfd.uci.edu/~gohlke/pythonlibs/#pandas
3、如果安装了之后一直连接不上就把sasl库下的\sasl\sasl2\saslPLAIN.dll这个文件放在C:\CMU\bin\sasl2这个目录下,没有这个目录就创建一个,然后就可以连接上了,本来就能连接的就不需要这个操作了,
为什么这样就可以了?本人知识储备不足,只是网络上搜索到的一个答案,给不了解释
################具体操作#########################
from pyhive import hive # 导入类
conn = hive.connect(host="192.168.111.111", port=10000, username="root", database="test") # 实例连接对象
# database可以不填,默认是default库,username最好填上root,有时候会因为没有权限导致操作不了
curs = conn.cursor()
sql = "sql语句", curs.execute(sql) # 不建议直接这样插入数据,会很慢
# 建议先把文件上传至hdfs,再把文件导入到hive来建立表
##################假设以下操作以及上传至hdfs###########################
sql = "load data inpath 'hdfs中的文件路径' into table 库名.表名"
curs.execute(sql)
sql = "load data local inpath '本机文件路径' into table 库名.表名"
curs.execute(sql)
hbase
hdfs
mysql