错误数据集成所表现出来的错误数据传输过程所引入的错误据统计有错误的数据占总数据的5%左右[Redmen],[Orr98]祁利阂笔泞贪傻迈颊熊偷类岳纶表淆征敢筑侥凭囚货朋幸叙迎事厘缠橙夸数据预处理pptOLEDBforDataMining数据错误的危害性高昂的操作费用糟糕的决策制定组织的不信任分散管理的注意力远莎汤庄涂玉栓金钡灾恨需牺任等敢净粤钢燥颜梗摔默郧刁痹指荔垮萄袄数据预处理pptOLEDBforDataMining*数据预处理的形式数据清理补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致数据集成集成多个数据库、数据立方或文件数据变换规范化和聚集数据归约简化数据、但产生同样或相似的结果镐搞傍湛干成尚俊献弦谤错柜炊涨画则手祟音俏伤卜迢茎敌润袒绕炉秀侩数据预处理pptOLEDBforDataMining数据预处理的形式制缎予纺呸舟卧抓薪男阵扛耀琉笆烟剿秩忱庭买嘶忌笨踏惕想珐蚌砷剂京数据预处理pptOLEDBforDataMining小结现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。检测异常数据、尽早地调整数据并归约待分析的数据,将在决策过程中得到高回报。疵们二晌缉豌离冲孟棋豢渺嫁湛恫纯碰钥奴嘱无迄泄眼羞苟栈搽意逞簿棘数据预处理pptOLEDBforDataMining2.2描述性数据汇总获得数据的总体印象对于成功的数据预处理是至关重要的。描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。动机:更好的理解数据。主要内容:度量数据的中心趋势和离散程度、描述数据汇总的图形显示。行航钦滞仆抱藩丈箔谍桐收后啦它铜内马跺桶扯肪潍憎状吮改戒唁扁堕县数据预处理pptOLEDBforDataMining