全文预览

数据挖掘概念与技术(版)习题答案

上传者:幸福人生 |  格式:doc  |  页数:14 |  大小:1031KB

文档介绍
25*MIN(Shelf) and R1.Shelf <= 1.5*MIN(Shelf)) and R1.Price < 100Р(c)这是一个分布式多特征立方体吗?为什么?Р 答:不,这不是一个分布式的多特征立方体.因为在such that子句中含有<=的条件.Р5.1.Apriori算法使用子集支持性质的先验知识.Р(a) 证明频繁项集的所有非空的子集也必须是频繁的.Р答:设s是一个频繁项集,min_sup 是最小支持度阀值,任务相关的数据D是数据库事务的集合,|D|是D 有事务量,则有Support_count(s) = min_sup×|D|;Р再设s’是s的非空子集,则任何包含项集s的事务将同样包含项集s’, 即:Рsupport_ count(s') support count(s) = min_sup ×|D|.Р所以,s’也是一个频繁项集.Р(b) 证明项集s的任意非空子集s’的支持至少和s的支持度一样大.Р 答:设任务相关的数据D是数据库事务的集合,|D|是D 的事务量,由定义得:Р Р设s’是s的非空子集,由定义得:Р由(a)可知:support(s’) support(s)Р由此证明,项集s的任意非空子集s’的支持至少和s的支持度一样大.Р(c)给定频繁项集 l 和 l 的子集 s ,证明规则的置信度不可能大于Р 答:设 s 是 l 的子集, 则Р 设s’是s的非空子集,则Р 由(b)可知:support_count(s') support count(s),Р 此外,confidence(s’) (l-s’)) confidence(s) (l- s))Р所以,规则的置信度不可能大于.Р5.3设数据库有5个事务.设min_sup =60%, min_conf=80%Р(a)分别使用Apriori和FP增长算法找出所有频繁项集.比较两种挖掘过程的效率.

收藏

分享

举报
下载此文档