查全率来评价其性能。而文本挖掘采用收益、置信度、简洁性等来衡量所发现知识的有效性、可用性和可理解性。 5使用场合不同:文本挖掘是比信息检索更高层次的技术,可用于信息检索技术不能解决的许多场合。一方面,这两种技术各有所长,有各自适用的场合;另一方面,可以利用文本挖掘的研究成果来提高信息检索的精度和效率,改善检索结果的组织,使信息检索系统发展到一个新的水平。人工神经网络是用大量的简单处理单元广泛连接而成的网络, 用以模拟生物神经网络的智能计算系统, 神经网络是一组类似于神经元的处理单元, 其中每个连接都与一个权重相关联. Apriori 优缺点: 优点:大大压缩了频繁集的大小,取得了很好的性能。缺点: (1) 产生大量的频繁集(2) 重复扫描事务数据库如何改进? 改进:在第一次数据库遍历后就不需要用到原始数据库,而使用在前一次过程中所用的候选项集的集合。 AprioriTid 算法的优点是用逐渐减少的 TID 表代替原始数据库, 但是在循环的初始阶段, 候选项集的个数往往大于数据项个数, 导致构造的 TID 表可能比原始事务数据库还要大. 聚类分析: 从数据集中找出相似的数据并组成不同的组数据挖掘步骤: 问题定义, 数据准备, 预处理, 数据挖掘, 结果的解释和评估 ID3 优点: 搜索空间是完全的假设空间, 目标函数必在搜索空间中, 不存在无解的危险; 全盘使用训练数据, 而不是像候选剪除算法一个个地考虑训练例; 可以生成容易理解的 IF-THEN 分类规则, 更容易倍用户理解; 擅于处理非数值数据…缺点:这种基于互信息的计算方法偏向于属性取值数目较多的特征, 而可取较多值的属性不是最优; 此算法对噪声比较敏感, 不易去除噪声; 当训练集增加时, 该算法生成的决策树也会随之变化; 数据集越大, 算法的计算量也会越大; 缺乏伸缩性; 增大了分类算法的额外开销还降低了分类的准确性