在上篇文章里,我列举了一个简单的hive操作实例,创建了一张表test,并且向这张表加载了数据,这些操作和关系数据库操作类似,我们常把hive和关系数据库进行比较,也正是因为hive很多知识点和关系数据库类似。
关系数据库里有表(table),分区,hive里也有这些东西,这些东西在hive技术里称为hive的数据模型。今天本文介绍hive的数据类型,数据模型以及文件存储格式。这些知识大家可以类比关系数据库的相关知识。
首先我要讲讲hive的数据类型。
Hive支持两种数据类型,一类叫原子数据类型,一类叫复杂数据类型。
原子数据类型包括数值型、布尔型和字符串类型,具体如下表所示:
基本数据类型 |
||
类型 |
描述 |
示例 |
TINYINT |
1个字节(8位)有符号整数 |
1 |
SMALLINT |
2字节(16位)有符号整数 |
1 |
INT |
4字节(32位)有符号整数 |
1 |
BIGINT |
8字节(64位)有符号整数 |
1 |
FLOAT |
4字节(32位)单精度浮点数 |
1.0 |
DOUBLE |
8字节(64位)双精度浮点数 |
1.0 |
BOOLEAN |
true/false |
true |
STRING |
字符串 |
‘xia’,”xia” |
由上表我们看到hive不支持日期类型,在hive里日期都是用字符串来表示的,而常用的日期格式转化操作则是通过自定义函数进行操作。
hive是用java开发的,hive里的基本数据类型和java的基本数据类型也是一一对应的,除了string类型。有符号的整数类型:TINYINT、SMALLINT、INT和BIGINT分别等价于java的byte、short、int和long原子类型,它们分别为1字节、2字节、4字节和8字节有符号整数。Hive的浮点数据类型FLOAT和DOUBLE,对应于java的基本类型float和double类型。而hive的BOOLEAN类型相当于java的基本数据类型boolean。
对于hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数。
Hive支持基本类型的转换,低字节的基本类型可以转化为高字节的类型,例如TINYINT、SMALLINT、INT可以转化为FLOAT,而所有的整数类型、FLOAT以及STRING类型可以转化为DOUBLE类型,这些转化可以从java语言的类型转化考虑,因为hive就是用java编写的。当然也支持高字节类型转化为低字节类型,这就需要使用hive的自定义函数CAST了。
复杂数据类型包括数组(ARRAY)、映射(MAP)和结构体(STRUCT),具体如下表所示:
复杂数据类型 |
||
类型 |
描述 |
示例 |
ARRAY |
一组有序字段。字段的类型必须相同 |
Array(1,2) |
MAP |
一组无序的键/值对。键的类型必须是原子的,值可以是任何类型,同一个映射的键的类型必须相同,值得类型也必须相同 |
Map(‘a’,1,’b’,2) |
STRUCT |
一组命名的字段。字段类型可以不同 |
Struct(‘a’,1,1,0) |
下面我们看看hive使用复杂数据类型的实例,建表:
Create table complex(col1 ARRAY< INT >,
Col2 MAP<STRING, INT >,
Col3 STRUCT<a:STRING,b : INT ,c: DOUBLE >);
|
查询语句:
Select col1[0],col2[‘b’],col3.c from complex;
|
接下来我们来看看hive的数据模型,hive的数据模型包括:database、table、partition和bucket。下面我将一一论述这四种数据模型。
1.Database:相当于关系数据库里的命名空间(namespace),它的作用是将用户和数据库的应用隔离到不同的数据库或模式中,该模型在hive 0.6.0之后的版本支持,hive提供了create database dbname、use dbname以及drop database dbname这样的语句。
2.表(table):hive的表逻辑上由存储的数据和描述表格中的数据形式的相关元数据组成。表存储的数据存放在分布式文件系统里,例如HDFS,元数据存储在关系数据库里,当我们创建一张hive的表,还没有为表加载数据的时候,该表在分布式文件系统,例如hdfs上就是一个文件夹(文件目录)。Hive里的表友两种类型一种叫托管表,这种表的数据文件存储在hive的数据仓库里,一种叫外部表,这种表的数据文件可以存放在hive数据仓库外部的分布式文件系统上,也可以放到hive数据仓库里(注意:hive的数据仓库也就是hdfs上的一个目录,这个目录是hive数据文件存储的默认路径,它可以在hive的配置文件里进行配置,最终也会存放到元数据库里)。
下面是创建托管表的实例语句:
Create table tuoguan_tbl (flied string);
Load data local inpath ‘home/hadoop/test.txt’ into table tuoguan_tbl;
|
外部表创建的实例:
Create external table external_tbl (flied string)
Location ‘/home/hadoop/external_table’;
Load data local inpath ‘home/hadoop/test.txt’ into table external_tbl;
|
大家看到了创建外部表时候table之前要加关键字external,同时还要用location命令指定文件存储的路径,如果不使用locaction数据文件也会放置到hive的数据仓库里。
这两种表在使用的区别主drop命令上,drop是hive删除表的命令,托管表执行drop命令的时候,会删除元数据和存储的数据,而外部表执行drop命令时候只删除元数据库里的数据,而不会删除存储的数据。另外我还要谈谈表的load命令,hive加载数据时候不会对元数据进行任何检查,只是简单的移动文件的位置,如果源文件格式不正确,也只有在做查询操作时候才能发现,那个时候错误格式的字段会以NULL来显示。
3.分区(partition):hive里分区的概念是根据“分区列”的值对表的数据进行粗略划分的机制,在hive存储上就体现在表的主目录(hive的表实际显示就是一个文件夹)下的一个子目录,这个文件夹的名字就是我们定义的分区列的名字,没有实际操作经验的人可能会认为分区列是表的某个字段,其实不是这样,分区列不是表里的某个字段,而是独立的列,我们根据这个列存储表的里的数据文件。使用分区是为了加快数据分区的查询速度而设计的,我们在查询某个具体分区列里的数据时候没必要进行全表扫描。下面我就举一个分区使用的实例:
创建分区:
Create table logs(ts bigint ,line string)
Partitioned by (dt string,country string);
|
加载数据:
Local data local inpath ‘/home/hadoop/par/file01.txt’ into table logs partition (dt=’2012-06-02’,country=’cn’);
|
在hive数据仓库里实际存储的路径如下所示:
/ user /hive/warehouse/logs/dt=2013-06-02/country=cn/file1.txt
/ user /hive/warehouse/logs/dt=2013-06-02/country=cn/file2.txt
/ user /hive/warehouse/logs/dt=2013-06-02/country=us/file3.txt
/ user /hive/warehouse/logs/dt=2013-06-02/country=us/file4.txt
|
我们看到在表logs的目录下有了两层子目录dt=2013-06-02和country=cn
查询操作:
Select ts,dt,line from logs where country=’cn’,
|
这个时候我们的查询操作只会扫描file1.txt和file2.txt文件。
4.桶(bucket):上面的table和partition都是目录级别的拆分数据,bucket则是对数据源数据文件本身来拆分数据。使用桶的表会将源数据文件按一定规律拆分成多个文件,要使用bucket,我们首先要打开hive对桶的控制,命令如下:
set hive.enforce.bucketing = true
|
下面这段文字是我引用博客园里风生水起的博文:
示例: 建临时表student_tmp,并导入数据: hive> desc student_tmp;
OK id int
age int
name string
stat_date string Time taken: 0.106 seconds
hive> select * from student_tmp;
OK 1 20 zxm 20120801 2 21 ljz 20120801 3 19 cds 20120801 4 18 mac 20120801 5 22 android 20120801 6 23 symbian 20120801 7 25 wp 20120801 Time taken: 0.123 seconds
建student表: hive> create table student(id INT , age INT , name STRING)
>partitioned by (stat_date STRING)
>clustered by (id) sorted by (age) into 2 bucket
>row format delimited fields terminated by ',' ;
设置环境变量: > set hive.enforce.bucketing = true ;
插入数据: > from student_tmp
> insert overwrite table student partition(stat_date= "20120802" )
> select id,age, name where stat_date= "20120801" sort by age;
查看文件目录: $ hadoop fs -ls / user /hive/warehouse/studentstat_date=20120802/
Found 2 items -rw-r --r-- 1 work supergroup 31 2012-07-31 19:52 /user/hive/warehouse/student/stat_date=20120802/000000_0
-rw-r --r-- 1 work supergroup 39 2012-07-31 19:52 /user/hive/warehouse/student/stat_date=20120802/000001_0
|
物理上,每个桶就是表(或分区)目录里的一个文件,桶文件是按指定字段值进行hash,然后除以桶的个数例如上面例子2,最后去结果余数,因为整数的hash值就是整数本身,上面例子里,字段hash后的值还是字段本身,所以2的余数只有两个0和1,所以我们看到产生文件的后缀是*0_0和*1_0,文件里存储对应计算出来的元数据。
Hive的桶,我个人认为没有特别的场景或者是特别的查询,我们可以没有必要使用,也就是不用开启hive的桶的配置。因为桶运用的场景有限,一个是做map连接的运算,我在后面的文章里会讲到,一个就是取样操作了,下面还是引用风生水起博文里的例子:
查看sampling数据: hive> select * from student tablesample(bucket 1 out of 2 on id);
Total MapReduce jobs = 1 Launching Job 1 out of 1
....... OK 4 18 mac 20120802 2 21 ljz 20120802 6 23 symbian 20120802 Time taken: 20.608 seconds
tablesample是抽样语句,语法:TABLESAMPLE(BUCKET x OUT OF y)
y必须是 table 总bucket数的倍数或者因子。hive根据y的大小,决定抽样的比例。例如, table 总共分了64份,当y=32时,抽取 (64/32=)2个bucket的数据,当y=128时,抽取(64/128=)1/2个bucket的数据。x表示从哪个bucket开始抽取。例 如, table 总bucket数为32,tablesample(bucket 3 out of 16),表示总共抽取(32/16=)2个bucket的数据,分别为第3个bucket和第(3+16=)19个bucket的数据。
|
好了,今天就写到这里了,明天要上班不能在加班写文章了。这篇博文的内容并没有写完(hive存储格式没有写),因为这个章节的知识非常重要是理解hive的关键,所以要讲的细点,明天我争取写完hive存储格式的文章,后天也就是本周二,我将为我们技术部门介绍hive的相关技术,写博文算是我的预演了。
最后我要讲一下自己对大数据技术的看法,我觉得大数据技术是一个跨时代的技术,是互联网技术的未来,也是云计算的未来,它的深入发展不仅仅是数据处理上,也会改变整个互联网技术的生态链,包括我们使用的技术和开发语言,很庆幸亲身经历着整个伟大时代的变革,我也要展开双臂迎接这个大时代的到来。
相关推荐
针对本次实验,我们需要用到Hadoop集群作为模拟大数据的分析软件,集群环境必须要包括,hdfs,hbase,hive,flume,sqoop等插件,最后结合分析出来的数据进行可视化展示,需要用到Python(爬取数据集,可视化展示)...
涉及知识点:清洗 pandas + 分析 hive + 可视化 ( hue + pyecharts ) + 预测 sklearn 1. 数据集说明 2. 数据处理 2.1 数据清洗 2.2 数据导入 3. 数据分析可视化 3.1 整体情况(招聘企业数、岗位数、招聘人数、平均...
Hive是一个构建于Hadoop顶层的数据仓库工具,可以查询和管理PB级别的分布式数据。支持大规模数据存储、分析,具有良好的可扩展性某种程度上可以看作是用户编程接口,本身不存储和处理数据。依赖分布式文件系统HDFS...
数据仓库架构建立后,以数据仓库结构为目标对日志源进行ETL, ETL过程基于Hadoop分布式计算框架,摒弃日志文件中的多余信息,将需要的数据抽取、计算,并装载入Hive数据仓库。 随后基于Hive数据仓库及其提供的数据查询...
收集的数据用于训练模型和评价策略。 数据采集:爬取的网址包括沪深300指数,股票交易信息,公司财务信息,汇率信息,公告信息等。 数据处理:对爬取的数据进行清洗和预处理,如去除无效数据,处理缺失值,数据...
阿帕奇蜂巢 Apache Hive插件作为数据建模的...每个插件在术语,存储模型方面都与目标的特定方面匹配,数据类型和通信协议。 要为目标启用数据建模功能,必须首先按照以下下载并安装插件。 可以按照以下自定义插件。
数据模型:src/main/resources/数据模型.png一、编译程序: mvn assembly:assembly二、在MySQL中创建一个数据库,然后执行 src/main/resources/model_ddl.sql 创建对应的表。三、指定ES的经纬度类型:curl -H "Content...
Volume 海量的数据规模 Variety 多样的数据类型 Value Velocity 快速的数据流转 发现数据价值 要解决的问题 大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量...
用户行为分析是对用户在产品上的产生的行为及行为背后的数据进行分析,通过构建用户行为模型和用户画像,来改变产品决策,实现精细化运营,指导业务增长。该数据来源于网站用户购物行为数据集的2000万条记录。此案列...
[单选题] * A、金融 B、电信 C、互联网(正确答案) D、公共管理 3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是()。 [单选题] * A、数据管理人员 B、数据分析员...
Hive 在加载数据过程中不会对数据进行任何的修改,只是将数据移动到HDFS 中Hive 设定的目录下,因此,Hive 不支持对数据的改写和添加,所有的数据都是在加载的时候确定的。Hive 的设计特点如下。 支持索引,加快数据...
1.5.1 数据类型 1.5.2 操作和函数 1.6 表 1.6.1 托管表(Managed Tables)和外部表(External Tables) 1.6.2 分区(Partitions)和桶(Buckets) 1.6.3 存储格式 1.6.4 导入数据 1.6.5 表的修改 1.6.6 表的丢弃 1.7...
1.5.1 数据类型 1.5.2 操作和函数 1.6 表 1.6.1 托管表(Managed Tables)和外部表(External Tables) 1.6.2 分区(Partitions)和桶(Buckets) 1.6.3 存储格式 1.6.4 导入数据 1.6.5 表的修改 1.6.6 表...
⽽且Hadoop不断发展完善,还集成了众多优秀的产品如⾮关系数据库HBase、数据仓库Hive、数据处理⼯具Sqoop、机器学习算法库 Mahout、⼀致性服务软件ZooKeeper、管理⼯具Ambari等,形成了相对完整的⽣态圈和分布式...
要面向丰富多样的数据类型,包括结构化和非结构化的数据。这使得传统解决方案在新的需求面前束手无策。 点击查看原图 二、大数据分析的解决方案 1.大数据分析相关系统 大数据时代银行业的机遇与挑战全文共11页,...
⼤规模应⽤期:2010年以后,⼤数据应⽤渗透各⾏业,数据驱动决策,信息社会智能化程度⼤幅度提⾼ ⼆,⼤数据概念:"4个V" 1)数据量⼤(volume) 2)数据类型繁多(variety) 3)处理速度快(velocity) 4)价值密度低...
10.1.4 数据模型 10.1.5 查询语言 10.1.6 交互式和非交互式Hive 10.2 使用Hive 进行数据分析 10.2.1 序列化和反序列化 技术点64 载入日志文件 10.2.2 UDF、分区、分桶和压缩 技术点65 编写UDF ...
缺点比较: Sqoop1的缺点——命令行方式容易出错,格式紧耦合,无法支持所有数据类型,安全机制不够完善,例如密码暴漏, 安装需要root权限,connector必须符合JDBC模型 。 Sqoop2的缺点——架构稍复杂,配置部署...
这部分将介绍 NoSQL 的数据模型和分 类,着重讲述最具代表的 HBase。 ZooKeeper是⼀个分布式的,开放源码的分布式应⽤程序协调服务,,是Hadoop和Hbase的重要组件。它是⼀个为分布式应⽤提供⼀致性 服务的软件,提供...
10.2.1 序列化和反序列化技术点64 载入日志文件10.2.2 UDF、分区、分桶和压缩技术点65 编写UDF 和压缩分区表10.2.3 数据合并技术点66 优化Hive 合并10.2.4 分组、排序和explain 10.3 本章小结11 ...