时间:2021-05-02
上次介绍了HDFS,本来想进入Mapreduce,但感觉Mapreduce基本废弃,于是直接进入了Hive中来。
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库顾名思义,是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。
它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。
数据库是面向交易的处理系统,它是针对具体业务在数据库联机的日常操作,通常对记录进行查询、修改。用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题。
数据仓库一般针对某些主题的历史数据进行分析,支持管理决策,又被称为联机分析处理 OLAP(On-Line Analytical Processing)。
比如,支付宝年度账单其本质是基于数据仓库进行数据可视化而成。
数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。
按照数据流入流出的过程,数据仓库架构可分为三层——源数据(ODS)、数据仓库(DW)、数据应用(APP)。
Hive是一个构建在 Hadoop上的数据仓库框架。最初,Hive是由Facebook开发,后来移交由 Apache!软件基金会开发,并作为一个 Apache开源项目。
Hive是建立在 Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以存储、查询和分析存储在分布式存储系统中的大规模数据集。Hive定义了简单的类SQL査询语言,通过底层的计算引擎,将SQL转为具体的计算任务进行执行。
Hive支持Mapreduce、Tez、Spark等分布式计算引擎。
在Hive环境搭建无需配置集群,Hive的安装其实有两部分组成,一个是Server端、一个是客户端,所谓服务端其实就是Hive管理Meta的那个Hive,服务端可以装在任何节点上,可以是Namenode上也可以是Datanode的任意一个节点上。
Hive的客户端界面工具早期选择SQuirrel SQL Client,但最近我喜欢上了Apache Zeppelin,Apache Zeppelin是一款基于Web的NoteBook,其实和Juypyter Notebook没有什么两样。
在 Hive环境搭建,需要搭建Mysql,这里选择节点node02进行Mysql环境搭建。
下面开始在centos系统中安装Hive。为了兼顾Hadoop3.1.4版本,我们选择安装hive3.1.2版本。Hive下载官方:http://www.apache.org/dyn/closer.cgi/hive/
为了使用Java连接Mysql,需要下载Mysql驱动,下载地址:https://maven.ityuan.com/maven2/mysql/mysql-connector-java/5.1.33。
下载完成后并放在lib文件夹中,并通过hive初始化Mysql数据库。
在Hive初始化Mysql数据库,容易遇到两个比较常见的Bug:
第一个Hive初始化Mysql数据库:java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument
错误原因:系统找不到这个类所在的jar包或者jar包的版本不一样系统不知道使用哪个。hive启动报错的原因是后者
解决办法:
第二个Hive初始化Mysql数据库:Exception in thread "main" java.lang.RuntimeException: com.ctc.wstx.exc.WstxParsingException: Illegal character entity: expansion character (code 0x8 at
报错原因:在本身的hive-site.xml配置文件中,3215行(见报错记录第二行)有特殊字符
解决办法:进入hive-site.xml文件,跳转到对应行,删除里面的特殊字符即可。
如果报Unknown database 'hive',建议直接在MySQL中创建hive数据库。
最终Hive成功初始化Mysql数据库如下图所示:
查看hive数据库,就会看见对应初始化的表生成。
在输入hive,即可进入Hive命令行,说明Hive搭建成功。
原文地址:https://mp.weixin.qq.com/s/8vRP6d3bco-LEDo7oHTM6Q
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。 hive数据
由于数据存放在大数据平台的Hive数据仓库中,我需要在Win10系统上利用Python3连接Hive,然后读取数据,进行探索、分析和挖掘工作。我通过网上查找资料
数据仓库:数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的并且是时间变量。数据仓库是所有操作环境和外部数据源的快照集合。它并不需要非常
首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射
生鲜app搭建数据仓库是非常必要的,它需要提升供应链管理能力和数据的计算的准确性和时效性。那么,要怎么去进行一个数据仓库的搭建呢?本文给大家分享一下搭建的过程~