全文预览

基于感知器算法的高效中文分词与词性标注系统设计与实现-计算机科学与技术专业论文

上传者:幸福人生 |  格式:docx  |  页数:68 |  大小:657KB

文档介绍
然后对文本进行切分完成分词操作。其中比较有代表性的基于词典的分词方法有正向最大匹配[5,6]、逆向最大匹配[7]、双向匹配算法[8]以及N-最短路径分词算法[9]等。2、?基于规则的中文分词方法基于规则的方法通过让计算机模型人对句子的理解过程来实现句子的分词操作。这种方法从语言学角度出发,通过分析句子的语义来实现对文本的切分。1991年,何克抗等[10]首次将专家系统引进分词技术中,专家系统主要有两部分构成,一部分是独立的知识库,另一部分是一个推理机。系统将分词的过程转变为知识的推理过程,也就是所谓的句子“分词树”的生长过程。由于该方法首先需要构建一个规模巨大的知识库,而这时一个非常耗时、非常困难的任务。此外,推理的过程涉及到人工智能中的很多技术,要实现完全的自动推理面临很多目前无法解决的困难,因此该系统并未得到大规模的推广和使用。虽然该系统由于各种原因没能得到广泛的应用,但其理论分析和指导思想得到了普遍的关注,影响了很多后续系统的开发。在原有的基于规则的中文分词方法基础上,1998年,曹星明等人提出了基于多种知识源的汉语分词方法[11]。2004年,王彩荣等设计了汉语自动分词的专家系统[12]。2005年张茂元提出一种基于语境的分词方法[13]。3、?基于统计的中文分词方法随着大规模语料库的建立,统计机器学习算法在中文分词中得到了广泛的应用。目前基于大规模语料库的统计学习方法已经成为中文分词的主流方法。常用的统计机器模型有隐马尔可夫模型(HiddenMarkovModel,HMM)[14],最大熵模型(MaximumEntropyModel,ME)[15],条件随机场模型(ConditionalRandomFields,CRF)[16]等。2002年中科院计算所基于层叠隐马尔科夫模型实现了分词系统ICTCLAS[17],该系统取得了较好的性能并在学术界和商业界得到了广泛的

收藏

分享

举报
下载此文档