Hive是一个基于Hadoop的数据仓库系统,主要处理大量的结构化数据并提供SQL查询。Hive将数据存储在HDFS(Hadoop分布式文件系统)中,但是Hive需要一个本地目录来存储元数据和其他Hive操作的相关数据。在默认配置下,Hive会将这些数据存储在/var/lib/hive/metastore目录中。但是,用户可以通过配置Hive的数据库目录来更改元数据和其它Hive操作数据的存储位置。本文将介绍。
创新互联建站-专业网站定制、快速模板网站建设、高性价比连城网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式连城网站制作公司更省心,省钱,快速模板网站建设找我们,业务覆盖连城地区。费用合理售后完善,10余年实体公司更值得信赖。
步骤1:创建新目录
在开始配置过程之前,您需要首先创建一个新目录,在此目录下存储Hive的元数据和相关数据。您可以使用以下命令创建新目录,并用hive命令作为所有者。
“`
sudo mkdir /new/hive/metastore
sudo chown -R hive:hive /new/hive
“`
步骤2:修改配置文件
在创建了一个新的目录之后,您需要修改Hive的配置,以指向新的Hive元数据和相关数据的存储目录。在Hive服务器节点上,找到hive-site.xml文件,然后添加以下代码来修改配置:
“`
javax.jdo.option.ConnectionURL
jdbc:derby:;databaseName=/new/hive/metastore_db;create=true
JDBC connect string for a JDBC metastore
hive.metastore.warehouse.dir
/new/hive/warehouse
Location of hive warehouse directory
hive.exec.local.scratchdir
/new/hive/tmp
Local scratch space for Hive jobs
“`
其中,javax.jdo.option.ConnectionURL属性指定了JDBC Metastore连接的存储位置。将databaseName /var/lib/hive/metastore_db更改为新目录/new/hive/metastore_db。hive.metastore.warehouse.dir属性指定了Hive Warehouse目录的存储位置。将默认目录/var/lib/hive/warehouse更改为新目录/new/hive/warehouse。hive.exec.local.scratchdir属性指定了本地磁盘上的Hive临时目录的存储位置。将默认目录/var/lib/hive/tmp更改为新目录/new/hive/tmp。
步骤3:重新启动Hive
完成hive-site.xml文件的修改后,您需要重启Hive才能使配置生效。您可以使用以下命令重启Hive:
“`
sudo service hive-server2 restart
“`
步骤4:测试配置
为了测试配置是否生效,您可以创建一个内部表并验证其位置是否匹配指定目录。在Hive CLI中,使用以下命令创建新表:
“`
hive> create table newTable (id int, name string) row format delimited fields
terminated by ‘,’
stored as textfile
location ‘/new/hive/warehouse/newTable’;
“`
创建完成表之后,您可以使用以下命令查看初始化表的位置:
“`
hive> describe formatted newTable;
“`
您应该看到类似于以下语句的输出:
“`
Location: hdfs://your-namenode:8020/new/hive/warehouse/newTable
“`
结论
通过这篇文章,您现在应该已经掌握了如何配置Hive数据库目录,以存储Hive元数据和相关数据的位置。通过在Hive服务器节点上修改hive-site.xml文件可以轻松地完成配置。在创建新目录,修改配置文件和重启Hive服务器之后,您可以轻松地测试您的配置并确保它正常工作。
成都网站建设公司-创新互联为您提供网站建设、网站制作、网页设计及定制高端网站建设服务!
由于版本的不同,Python 连接 Hive 的方式也就不一样。
在网上搜索关键字 python hive 的时候可以找誉察到一些解决方案。大部分是这弯毕样的,首先把hive 根目录埋虚芹下的$HIVE_HOME/lib/py拷贝到 python 的库中,也就是 site-package 中,或者干脆把新写的 python 代码和拷贝的 py 库放在同一个目录下,然后用这个目录下提供的 thrift 接口调用。示例也是非常简单的。类似这样:
import sys
from hive_service import ThriftHive
from hive_service.ttypes import HiveServerException
from thrift import Thrift
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol
def hiveExe(sql):
try:
transport = TSocket.TSocket(‘127.0.0.1’, 10000)
transport = TTransport.TBufferedTransport(transport)
protocol = TBinaryProtocol.TBinaryProtocol(transport)
client = ThriftHive.Client(protocol)
transport.open()
client.execute(sql)
print “The return value is : ”
print client.fetchAll()
print “…………”
transport.close()
except Thrift.TException, tx:
print ‘%s’ % (tx.message)
if __name__ == ‘__main__’:
hiveExe(“show tables”)
或者是这样的:
#!/usr/bin/env python
import sys
from hive import ThriftHive
from hive.ttypes import HiveServerException
from thrift import Thrift
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol
try:
transport = TSocket.TSocket(‘14.18.154.188’, 10000)
transport = TTransport.TBufferedTransport(transport)
protocol = TBinaryProtocol.TBinaryProtocol(transport)
client = ThriftHive.Client(protocol)
transport.open()
client.execute(“CREATE TABLE r(a STRING, b INT, c DOUBLE)”)
client.execute(“LOAD TABLE LOCAL INPATH ‘/path’ INTO TABLE r”)
client.execute(“SELECT * FROM test1”)
while (1):
row = client.fetchOne()
if (row == None):
break
print rowve
client.execute(“SELECT * FROM test1”)
print client.fetchAll()
transport.close()
except Thrift.TException, tx:
print ‘%s’ % (tx.message)
但是都解决不了问题,从 netstat 中查看可以发现 TCP 连接确实是建立了,但是不执行 hive 指令。也许就是版本的问题。
还是那句话,看各种中文博客不如看官方文档。
项目中使用的 hive 版本是0.13,此时此刻官网的最新版本都到了1.2.1了。中间间隔了1.2.0、1.1.0、1.0.0、0.14.0。但是还是参考一下官网的方法试试吧。
首先看官网的 setting up hiveserver2
可以看到启动 hiveserver2 可以配置更大最小线程数,绑定的 IP,绑定的端口,还可以设置认证方式。(之前一直不成功正式因为这个连接方式)然后还给了 python 示例代码。
import pyhs2
with pyhs2.connect(host=’localhost’,
port=10000,
authMechani=”PLAIN”,
user=’root’,
password=’test’,
database=’default’) as conn:
with conn.cursor() as cur:
#Show databases
print cur.getDatabases()
#Execute query
cur.execute(“select * from table”)
#Return column info from query
print cur.getSchema()
#Fetch table results
for i in cur.fetch():
print i
在拿到这个代码的时候,自以为是的把认证信息给去掉了。然后运行发现跟之前博客里介绍的方法结果一样,建立了 TCP 连接,但是就是不执行,也不报错。这是几个意思?然后无意中尝试了一下原封不动的使用上面的代码。结果可以用。唉。
首先声明一下,hive-site.xml中默认关于 hiveserver2的配置我一个都没有修改,一直是默认配置启动 hiveserver2。没想到的是默认配置是有认证机制的。
然后再写一点,在安装 pyhs2的时候还是遇到了点问题,其实还是要看官方文档的,我只是没看官方文档直接用 pip安装导致了这个问题。安装 pyhs2需要确定已经安装了几个依赖包。直接看在 github 上的 wiki 吧。哪个没安装就补上哪一个就好了。
To install pyhs2 on a clean CentOS 6.4 64-bit desktop….
(as root or with sudo)
get ez_setup.py from
python ez_setup.py
easy_install pip
yum install gcc-c++
yum install cyrus-sasl-devel.x86_64
yum install python-devel.x86_64
pip install pyhs
写了这么多,其实是在啰嗦自己遇到的问题。下面写一下如何使用 python
连接 hive。
python 连接 hive 是基于 thrift 完成的。所以需要服务器端和客户端的配合才能使用。
在服务器端需要启动 hiveserver2 服务,启动方法有两种, 第二种方法只是对之一种方法的封装。
1. $HIVE_HOME/bin/hive –server hiveserver2
2. $HIVE_HOME/bin/hiveserver21212
默认情况下就是hiveserver2监听了10000端口。也可以通过修改 hive-site.xml 或者在启动的时候添加参数来实现修改默认配置。
另外一方面,在客户端需要安装 python 的依赖包 pyhs2。安装方法在上面也介绍了,基本上就是用 pip install pyhs2,如果安装不成功,安装上面提到的依赖包就可以了。
最后运行上面的示例代码就可以了,配置好 IP 地址、端口、数据库、表名称就可以用了,默认情况下认证信息不需要修改。
另外补充一点 fetch 函数执行速度是比较慢的,会把所有的查询结果返回来。可以看一下 pyhs2 的源码,查看一下还有哪些函数可以用。下图是 Curor 类的可以使用的函数。
一般 hive 表里的数据比较多,还是一条一条的读比较好,所以选择是哟功能 fetchone函数来处理数据。fetchone函数如果读取成功会返回列表,否则 None。可以把示例代码修改一下,把 fetch修改为:
count = 0
while (1):
row = cur.fetchone()
if (row is not None):
count += 1
print count, row
else:
print “it’s over”
hive配置数据库目录的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于hive配置数据库目录,如何配置Hive的数据库目录,windows下怎么用python连接hive数据库的信息别忘了在本站进行查找喔。
创新互联-老牌IDC、云计算及IT信息化服务领域的服务供应商,业务涵盖IDC(互联网数据中心)服务、云计算服务、IT信息化、AI算力租赁平台(智算云),软件开发,网站建设,咨询热线:028-86922220
文章名称:如何配置Hive的数据库目录(hive配置数据库目录)
网站地址:http://www.csdahua.cn/qtweb/news41/298691.html
网站建设、网络推广公司-快上网,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 快上网