全文预览

袁晓辉-中国科学院

上传者:qnrdwb |  格式:doc  |  页数:25 |  大小:8727KB

文档介绍
公布了从93篇文献中手工收集的1300多条大豆的QTL信息。然而,在pubmed网站中搜索“soybean qtl”我们可以得到154篇相关文献,这表明还有大量的QTL信息并没有包含在Soybase的数据库中。因此,利用文本挖掘方法自动提取文献中的QTL信息是一项十分必要的研究。Р文本挖掘方法已经在基因调控关系,蛋白互作等领域取得了一定的进展,在QTL数据库构建方面Р却还未见应用。与基因调控关系挖掘不同,基因之间的互作关系主要通过文字描述,而QTL信息在文献中大都以表格形式存储,因此对于表格信息的提取是QTL信息挖掘的关键内容。本项目拟根据大豆QTL信息的特征建立表格内容抽取规则,最终构建一个完整的大豆QTL信息库。Р 本研究的技术路线图Р目前已取得的进展:Р利用SVM文本分类技术获取大豆QTL相关的文献Р根据pudmed文献摘要的搜索结果与已知QTL数据库的结果进行比较可以知道,现有的关键字搜索方法并不能获得全部的QTL相关文章,因此,我们利用SVM文本分类技术,对所有的大豆文献进行过滤,然后获取QTL文献的全文。我们以Pubmed和Soybase 收集到的133篇大豆QTL文献以及随机选取的133篇非QTL为训练集,选取特征词221个,对SVM分类器进行训练。训练后的模型对266篇大豆文章的分类正确率达到100%。同时我们还对Gramene数据中收录的412篇水稻、玉米等QTL文献与随机选择的500篇非QTL文献进行分类实验,正确率达到95.8%。证明了我们的QTL文献分类器具有很好的实用性。Р表格信息提取Р抽取QTL表格中的信息,QTL信息大都以表格形式描述,因此准确的理解表格内容是建立数据库的关键。我们已经能够完整的抽取PDF全文中的所有表格,并将表头栏目所对应的内容进行分类,写入数据库中,供后续的筛选分析。目前已经提取QTL条目9571条,正在进行去重和校正工作。

收藏

分享

举报
下载此文档