服务平台”旗下子栏目“大数据课程学生服务站”,为学生学习大数据课程提供全方位、一站式免费服务:?http://dblab.xmu./post/4331/Р本PPT是如下教材的配套讲义:?21世纪高等教育计算机规划教材?《大数据技术原理与应用?——概念、存储、处理、分析与应用》?(2015年8月第1版)?厦门大学林子雨编著,人民邮电出版社?ISBN:978-7-115-39287-9Р14.1?概述Р14.1.1 数据仓库概念?14.1.2 传统数据仓库面临的挑战?14.1.3?Hive简介?14.1.4?Hive与Hadoop生态系统中其他组件的关系?14.1.5?Hive与传统数据库的对比分析?14.1.6?Hive在企业中的部署和应用Р14.1.1?数据仓库概念Р数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。Р图14-1 数据仓库的体系结构Р(1)无法满足快速增长的海量数据存储需求?(2)无法有效处理不同类型的数据?(3)计算和处理能力不足Р14.1.2 传统数据仓库面临的挑战Р14.1.3 Hive简介РHive是一个构建于Hadoop顶层的数据仓库工具?支持大规模数据存储、分析,具有良好的可扩展性?某种程度上可以看作是用户编程接口,本身不存储和处理数据?依赖分布式文件系统HDFS存储数据?依赖分布式并行计算模型MapReduce处理数据?定义了简单的类似SQL 的查询语言——HiveQL?用户可以通过编写的HiveQL语句运行MapReduce任务?可以很容易把原来构建在关系数据库上的数据仓库应用程序移植到Hadoop平台上?是一个可以提供有效、合理、直观组织和使用数据的分析工具