全文预览

数据挖掘技术在税务行业中的应用

上传者:科技星球 |  格式:pdf  |  页数:64 |  大小:0KB

文档介绍
4个原则进行的:1、面向主题组织数据:确定主题是组织数据仓库中数据的前提。之后以主题为单位组织满足主题目标与需求的数据。一般讲,一个数据仓库有若于个主题,而每个主题又有一个主题域作支撑,这样,一个数据仓库可以按主题划分为若干个主题域(如图2.1)第2章数据仓库和数据挖掘技术图2.1主题域示意图2、按关系模式组织主题域:在数据仓库中主题域按关系模式构建,也就是按关系表形式组织。一般讲一个主题域往往由若干个关系表组成,而这些关系表的数据来源于数据源。其中的属性按统计、汇总需求。在一个主题域内的关系表一般有一定联系,因此还必须建立一个主题域内的公共码键一主题码,以关联主题内各表。3、数据仓库与数据源之间建立转换规则:为决策、分析需要,可以将数据仓库中的数据按不同粒度进行综合,其综合度一般分为四种:(1)、细节数据:在数据源中的数据。(2)、当前细节数据:由数据源中的数据经首次综合进入数据仓库而形成的第一次综合数据。(3)、轻度综合数据:对数据仓库中的第一次综合数据再次进行综合而形成的第二次综合数据。(4)、高度综合数据:根据决策、分析需要还可以将轻度综合数据进一步综合而形成更高层次的综合数据。数据仓库中上述4个综合级别称为“粒度”。粒度越大,细节程度越低,综合程度越高;而粒度越小,细节程度越高,综合程度越低。2.1.3数据仓库系统结构斯坦福大学“WHPS”课题组提出的一个基本的数据仓库模型。为了能够将已有的源数据提取出来,组织成可用于决策分析所需的综合数据的形式,数据仓库的基本体系结构必须有以下几个基本组成部分:1、数据源为数据仓库提供最底层数据的操作数据库及外部数据;2、监视器负责感知数据源发生的变化,并按数据仓库的要求提取数据;3、集成器将从操作数据库中提取的数据经过转换、计算、综合等处理,集成到数据仓库中;4、数据仓库存储已经按企业级视图转换的数据,供决策分析使用。根据不6

收藏

分享

举报
下载此文档