全文预览

基于在线知识库的问答系统docx - googlecode

上传者:徐小白 |  格式:docx  |  页数:31 |  大小:1535KB

文档介绍
的具体判断,包括向量空间模型和Tree Kernel的概念;再后将介绍测试方案以及测试结果;最后是一些总结以及将来的研究方向。Р第二章中文问答系统综述Р2.1 问答系统的核心问题Р问答系统一般主要包括三个部分:问题分析、信息检索和答案生成。如图1所示。它们各司其职,互相关联,具体作用如下:Р问题分析是问答系统的第一步,它首先要对用户提出的问题进行分析,主要有下面几项工作:分割出问题关键字,找出问题的类型,同时根据问题类型或相关信息对关键字进行扩展。同时,还要为后面的答案抽取步骤指定答案抽取规则,如问题询问“什么时候”,那么答案中就必须有时间信息。Р信息检索是系统的第二步,它利用第一步问题理解步骤中提取和扩展出来的关键,进行检索操作,以取得与最为相关的一些文档,甚至可以精确到段落颗粒度。这一步是现在发展得比较成熟的一块,如商业巨擘Google的搜索引擎,或者其他一些成熟的检索系统等等均可实现。所以,TREC会议也不强行要求所有问答系统都有其自己的信息检索模块,它会为你的每个问题返回最相关的1000个文档。Р答案生成是最后一步,它和第一步一样,是不同于传统检索系统和搜索引擎的地方,后者返回的只是一片片文档或者网页,或问答系统返回的是简短、准确、用户直接能用的信息。比如用户问“美国第一任总统是谁?”用户最希望看到的就是系统直接回答“乔治·华盛顿”,而不是一片很长的讲美国历史的文章。具体是通过第一步指定的抽取规则,从第二步返回的文档中抽取问题的答案。Р图1 问答系统的核心步骤[5]Р2.2 中文问答系统的体系结构Р中文问答系统出了具有2.1介绍的核心问题外,还有一些他自带的特性,需要额外单独进行处理,主要是语法上的一些特殊性,比如没有空格分隔词,没有词性信息等等,再有就是中文词语语义的多样性也会造成处理的困难。所以需要在图1的核心步骤外再加上一些针对中文本身特性的处理,如图2所示。

收藏

分享

举报
下载此文档