全文预览

part-大数据仓库与挖掘平台-Hive数据仓库

上传者:似水流年 |  格式:pptx  |  页数:30 |  大小:1265KB

文档介绍
sform)和装载(load)过程,简称ETL过程数据需求:通过数据仓库,既可以周期性地回答已知的问题(如报表等),也可以进行即席查询(ad-hocqueries)数据仓库与数据库对比多维数据模型基础数据仓库主要有规范化数据模型、多维数据模型、DataVault数据模型等建模方法,其中前两种使用最为广泛规范化模型用于企业级数据仓库(EDW)建模,而多维模型多用于数据集市建模规范化模型对于数据库设计者来说非常熟悉,其核心思想就是消除数据冗余以保证数据一致性和事务处理的性能:1NF,2NF,3NF对于多维模型最简单的描述是,按照事实表、维度表来构建数据仓库或数据集市,这种模型被人们熟知的有星型和雪花型。多维数据模型基础星型模型是部署在关系数据库管理系统之上的多维结构,主要包含事实表,以及通过主键/外键关系与之关联的维度表。在星型模型实施中,所有维度级别的数据存储在单个表或视图中。雪花模型就是将维度层次进一步规范化为子维度。在雪花模型实施中,使用多个表或视图来存储维度级别数据。单独的数据库表或视图存储与维中每个级别相关的数据。多维数据模型基础在Hadoop上实现数据仓库传统的数据仓库并不是一个单一系统,而是由一系列协同工作的组件联合构成,包括ETL过程,RDS,TDS,数据目录,查询引擎,用户界面,自动化调度在Hadoop上实现数据仓库RDS(RAWDATASTORES)和TDS(TRANSFORMEDDATASTORES)这些组件负责实际存储数据仓库中的数据与Hadoop对应抽取:Sqoop,Flume转换与装载:Hive,MapReduce,Pig。。过程管理:Falcon,Oozie,Azkaban数据目录:HCatalog,Altas查询引擎和SQL层:SparkSQL,Hive,Impala等用户界面Hue和Zeppelin在Hadoop上实现数据仓库-实例?ERD设计

收藏

分享

举报
下载此文档