全文预览

网络爬虫应用介绍-课件(PPT演示稿)

上传者:幸福人生 |  格式:ppt  |  页数:19 |  大小:0KB

文档介绍
论信息作精确定向采集。?从网页分析层面来讲,不仅应提取网页标题、正文,更按需提供时间、来源、作者及特定内容的提取。?从索引和搜索层面来讲,进行全文索引,可支持全文检索和精确检索,并按需提供多种结果排序方式。挑战和应对 4效果演示—我的网络爬虫首页外网搜索 D、可根据个人喜好设定搜索关键字,从而关注特定内容。(初始关键字由管理员设定;) > 还原初始关键字 A、支持在本地资源库中实时搜索。 B、系统推送互联网最新、最热资讯 C、系统推送互联网分类资讯效果演示—搜索结果外网搜索更精准的搜索结果! 效果演示—后台配置简单方便的爬虫配置!!! 一条采集任务可定义采集多个网站! 爬虫管理员可新建、修改、删除采集任务。本地仅保存采集来的网页标题、文章节选及 URL 系统架构图?系统架构?配置采集策略:爬虫管理员可自定义抓取目标网站、定义抓取频率、定义默认关键字。?自定义关键字:不同用户可根据喜好约定个人使用的关键字,搜索结果由搜索模块返回显示。?输入查询条件: 前台提供用户界面使用户可以向 Web 应用程序服务器提交搜索请求,然后搜索结果通过用户接口来显示出来。系统架构前台说明?系统架构?网页采集模块:负责定时将指定 WEB 网页抓到服务器。使用开源的 Heritrix 实现。?网页分析模块:负责解析提取出网页的主要数据,包括标题、节选、发布时间、链接地址等.使用 htmlparser 实现。?索引模块:为 HTML 页面来创建索引。使用 Lucene 的 API 实现。?搜索模块:是系统与用户交互的模块,系统根据用户输入的查询语句,负责在数据库和索引文件上搜索出相应数据并按照一定的排序反馈给用户。使用 Lucene 提供的 API 来实现。系统架构后台说明应用效果更贴心更有效更准更快针对不同用户的导航地图及时掌握网络关键信息进一步改善信息检索水平提高环保局用户 web 检索效率

收藏

分享

举报
下载此文档