存的只是与主题相关的页面,较传统泛主题的信息采集页面少得多;同时,搜索引擎的索引模块需对采集页面按关键字进行索引生成倒排文件,Web信息采集生成的索引文件十分浩大,而基于主题的索引文件相对非常小,极大地增加了资源占用率。另外,面向主题采集的NPR算法主要是在与主题相关的页面之间迭代,其迭代规模及次数相对PageRank算法非常小,一定程度上也可提高系统性能。实验结果证明虽然增加相关度的计算,NPR算法代价并不比PageRank高很多。NPR算法能提供更加精确的主题页面,其对我国信息机构进行学科网络信息资源的深度建设具有更好的实用价值。参考文献[1]刘运强.垂直搜索引擎的研究与设计[J].计算机应用与软件,2010,27(7):130—132.[2]李盛韬,余智华,程学旗等Web信息采集研究进展[J].计算机科学,2003,30(2):151—157.[3]曹军.Google的PageRank技术剖析[J].情报杂志,2002(10):12.[4]王晓宇,周傲英.万维网的链接结构分析及其应用综述[J].软件学报,2003,14(10):1768—1780.[5]EironN,McCurleyKS.Analysisofanchortextforwebsearch[G].SI.GIR,2003:459—460.[6]PantG.DerivingLink—contextfromHTMLTagTree[C]//8thACMSIGMODWorkshoponResearchIssuesinDataMiningandKnowledgeDiscovery,2003.[7]刘群,李素建.基于《知网》的词汇语义相似度的计算[c]//台北:第三届汉语词汇语义学研讨会论文集,2002:23.[8]彭涛,孟宇,等.主题爬行中的隧道穿越技术[J].计算机研究与发展。2010,47(4):628—638.