自动分词

上传者：读书之乐 | 格式：doc | 页数：7 | 大小：32KB

文档介绍

(4)专业词表专业词表的编制是降低自然语言处理与智能信息检索实现难度的有利辅助。制约检索性能飞跃的障碍主要是由于检索面向的范围过于宽泛,尤其网上信息的充斥,更增加了检索的难度。但就用户利用而言,总是面向某个或某几个特定领域的,因此在执行查询之前,能初步明确该领域范围,对于提高检准率有很大的帮助,也为判别分词结果提供了依据。如对于用户提问为“我想了解冲浪的知识”,分词结果可以是“我/想/了解/冲浪/的/知识”,核心检索词是“冲浪”,然而是真正的海上冲浪还是流行的网上冲浪呢?不加处理的结果是两者的信息都被检出了。如果此时能就分词结果予以一定的反馈提示,就可以大大提高提问的专指度了。对于多领域共同存在的概念语词,系统应该提供给用户进一步区分的学科类目划分,帮助进一步明确需求,以减轻对信息库查询的消耗,更重要的是避免无关信息的噪声污染。因此,有必要编制专业词典来划清各个同名概念的界限。第四章发展的“瓶颈”在自动分词与信息检索的各自发展中存在着许多障碍,这为两者的结合带来了难度。1 自动分词技术面临的困难(1)汉语歧异现象的普遍存在是自动分词技术难于招架的一个方面。词法、句法、语义、语用中都可能存在不同程度的歧异现象,因此自动分词的精度很难予以评价。如“穿/好衣服”和“穿好/衣服”都属于合法的汉语表达,但是在脱离必要的上下文环境下,很难真正了解所表达的意思。(2)词自身定位的模糊性。词与词素、词组之间往往没有明确的界限,如“明白”、“国会”,这为分词词典中词条的选择带来难题,分词词典不能明确这一概念,又如何为自动分词提供依据呢?(3)新生概念语词的切分。对于分词词典中没有收录的概念词,词表并不能作到实时更新来适应新的需求,自适应能力差,然而人工智能技术尚且在摸索阶段,实现大规模真实信息的自动分词还没有形成成熟的技术,这使自动分词技术在近期内还没有一个质的飞跃。2 信息检索面临的困难