iginalFeatureSet数据挖掘中的特征选择两个主要步骤产生过程特征子集的产生可以看作是一个搜索过程,搜索空间中的每一个状态都是一个可能特征子集。plete),启发式搜索(Heuristic),随机搜索(Random)3大类。评价函数评价函数是评价一个特征子集好坏的准则特征的评估函数分为五类:相关性,距离,信息增益,一致性和分类错误率。27数据挖掘中的特征选择搜索算法之完全搜索完全搜索分为穷举搜索与非穷举搜索两类广度优先搜索(BFS)分支限界搜索(BAB)定向搜索(BS)最优优先搜索(BestFirstSearch)28BS:首先选择N个得分最高的特征作为特征子集,将其加入一个限制最大长度的优先队列,每次从队列中取出得分最高的子集,然后穷举向该子集加入1个特征后产生的所有特征集,将这些特征集加入队列。数据挖掘中的特征选择搜索算法之启发式搜索启发式搜索序列前向选择(SFS)序列后向选择(SBS)双向搜索(BDS)增L去R选择算法(LRS)L和R的选择是关键序列浮动选择(SequentialFloatingSelection)决策树(DTM)29LRS两种形式: <1>算法从空集开始,每轮先加入L个特征,然后从中去除R个特征,使得评价函数值最优。(L>R)在训练样本集上运行C4.5或其他决策树生成算法,待决策树充分生长后,再在树上运行剪枝算法。则最终决策树各分支处的特征就是选出来的特征子集。一般使用信息增益作为评价函数。L和R怎么确定??数据挖掘中的特征选择搜索算法之随机算法随机算法随机产生序列选择算法(RGSS)随机产生一个特征子集,然后在该子集上执行SFS与SBS算法模拟退火算法(SA)以一定的概率来接受一个比当前解要差的解,因此有可能会跳出这个局部的最优解,达到一个全局次最优解遗传算法(GA) 共同缺点:依赖于随机因素,有实验结果难以重现210数据挖掘中的特征选择