全文预览

基于大数据的数据挖掘算法实现与应用毕业设计

上传者:相惜 |  格式:docx  |  页数:86 |  大小:206KB

文档介绍
个具体的实例,分别为Apriori算法在学生排课中的应用和在遥感数据中的应用以及BP神经网络及BP算法在投资估算中的应用。祝Р首先,简要介绍了数据挖掘的背景,现在社会属于一个信息爆炸的时代,各种信息数量庞大,因此人们对于信息的分析和整理成为了一个亟待解决的难题,而数据挖掘就能够从海量信息中找出有价值的信息去分析和总结,得出有利于人们解决问题的结论。关联规则与Apriori算法属于数据挖掘中比较典型的一种算法,该算法将发现关联规则的过程分为两个步骤:第一步通过迭代,检索出事务数据库中所有的频繁项集,即支持度不低于用户设定的阀值的项集;第二步利用频繁项集构造出满足最小置信度的股则。其中,找出所有的频繁项集是算法的核心,最后得到的关联规则的总体性能由该步决定。祝Р最后,将算法应用于学生成绩分析和遥感数据分析中,使其数据更具有时效性,更加简洁明了。Р祝Р2 关联规则与Apriori算法祝Р2.1基础理论祝Р2.1.1关联规则祝Р关联规则是由R.Agrawal等人于1993年提出的,它反映了一个事物与其他事物之间的相互依存性和关联性。如果两个和多个事物之间存在一定的关联关系的知识发现构成,而且是单向的,它是对观察数据中初现的模式的简单归纳,而不是能够刻画出整个总体的强结论。祝Р?设I=是项目的集合,称为项目。设D为事务T的集合,T是每个事务都有一个唯一的事务号。设X,Y是一个I中项目的集合,并且一个关联规则是形如的逻辑蕴含式,规定在事物集D中支持度是事物集中同时包含X和Y的事务数与所有事物数之比,反映规则的可靠程度。记为support(),祝Рsupport()=P()祝Р如果项集的支持度超过用户给定的最小支持度阀值,则称该项集为频繁项集。祝Р规则在事物中的置信度是指同时包含X和Y的事务数与包含X的事务数(不考虑是否包含Y)之比,反映规则的把握程度。?记为confidence(),祝

收藏

分享

举报
下载此文档