天津市科技发展计划项目申请书

上传者：非学无以广才 | 格式：doc | 页数：34 | 大小：334KB

文档介绍

SIGMOD’98),73-84,1998.2.基础条件(主要包括项目前期工作、现有技术基础和工作基础、国内外的专利情况、研究队伍和产学研情况该项目产业链条中的位置和作用等)课题组在相关领域具有很强的学术背景。自20世纪90年代以来,一直从事人工智能、自然语言处理和信息检索方面的研究,已开发出拥有自主版权的信息检索辅助系统,包括中文分词工具、分词性能评价工具、中文文本分类工具、简易词性标注工具及词共现模型研究工具等,并发表几十篇相关论文。本课题组与亚洲微软研究院合作建立了计算语言学研究室。多次派遣访问学生到亚洲微软研究参加并出色完成高水平的研究工作。与亚洲微软研究院合作参加TREC-10,取得了优异的成绩。研究小组成员具有计算机和语言处理等多重研究背景,学科交叉将保证本课题高水平完成。项目负责人有完成多项国家自然科学基金项目的经验,刚刚完成的国家自然科学基金高技术项目被评为优秀,项目组成员老中青结合,梯队组成合理。项目主要参加人田梅是天津科技信息研究所高级工程师,长期从事国内外科技信息咨询,互联网信息资源开发与利用,在信息检索领域具有丰富的经验。项目主要参加人王中(天津大学在读博士生)任中信证券(天津)电脑部经理,在证券信息咨询领域积累了多年的经验,掌握大量翔实可靠的相关数据。3.主要研究内容本课题应用多项Web挖掘和自然语言处理(NLP)技术,结合面向领域信息检索的特点,研究基于拓扑结构挖掘的动态聚类、基于超链接分析的自动摘要和基于访问模式挖掘的查询扩展等项创新性的技术,开发面向领域的智能信息检索系统,为用户准确定位信息资源并提供高质量的检索结果。本项目研究的关键技术主要有三点:基于拓扑结构挖掘的动态聚类当前检索系统使用的文本聚类方法,一般是通过向量空间模型将文本标准化,形成基于距离或密度的文本层次聚类。这些方法没有充分考虑Web拓扑结构的特点,准确度还有较大的提高空间。