搜索引擎中的查询纠错方法РР周博?智能技术与系统国家重点实验室 ? 导师:马少平 教授? 2008年10月РР内容提要Р问题描述?查询预处理?正确性判断?候选集合生成?候选评分?测试РРР问题描述Р拼写纠错?拼写纠错是一个首先判断拼写正确性,最后对错误的拼写给出其正确形式的过程。??查询拼写纠错?针对搜索引擎查询的拼写纠错,这里简称查询纠错。РР问题描述Р查询纠错的意义?据统计,输入英文搜索引擎的查询中有10-15%含有拼写错误[Cucerzan 2004]。?在中文搜索引擎中 ,包含拼写错误的查询的比例更高,错误种类更多。РР问题描述Р查询纠错问题的特殊性?查询的长度较短,导致无法使用基于上下文的纠错方法。?查询中包含大量动态变化的新词,导致查询的拼写正确性很难判断。例如:naboo、aznar、shrekРР问题描述Р查询纠错的一般过程?查询预处理?拼写正确性判断?候选集合生成?候选评分РР查询预处理Р查询的类型?中文查询?英文查询?拼音查询?混合查询РР查询预处理Р预处理流程?中文与英文字母拆开?中文交中文查询纠错处理?英文字母交拼音纠错处理?是拼音的还原成最有可能的中文查询?不是拼音的交英文查询纠错处理РР查询预处理РР拼写错误查询Р纠错结果Р方法Р中国娱伦监督网Р中国舆论监督网Р中文纠错РbaomazhuanmaiР宝马专卖Р拼音纠错Рavri lavigneРavril lavigneР英文纠错Р猛牛niunaiР蒙牛牛奶Р中文+拼音РР正确性判断Р不进行正确性判断(中文纠错)?将查询本身加入候选集合?参与候选集合评分?认为正确的查询应该在其候选集合中评分最高