六章,总结与展望。主要总结和分析项目的完成情况,提出了WEBSCAN存在的不足之处以及本文下一步的工作计划。北京交通大学专业硕士学位论文WEBSCAN相关技术2WEBSCAN相关技术WEBSCAN作为一款漏洞检测工具,要准确检测网站存在的各种常见类型漏洞,必须能够完整地爬虫整个网站结构,还要能够对网站每个节点分别进行攻击检测,才能确定网站是否含有某种类型漏洞。因此,本章主要比较分析几种主流爬虫技术,分析常见类型漏洞的形成原因及其危害,并比较各种漏洞检测方法,确定最优的漏洞检测方案。2.1网络爬虫技术网络爬虫技术是网站漏洞扫描工具的设计基础,WEBSCAN只有通过爬虫来遍历整个网站结构,才能对网站各节点攻击测试,所以网站爬虫的完整性决定了网站漏洞检测的完整性。2.1.1聚焦爬虫概念网络爬虫是一个自动抓取网页的程序,它是搜索引擎从互联网上下载网页,是搜索引擎的重要组成部分131。传统网络爬虫是从一个或若干初始网页的URL开始,在网页抓取的过程中不断从当前页面上提取新的URL添加到爬虫队列,直到满足一定停止条件而终止爬虫。与传统的网络爬虫相比,聚焦爬虫的工作流程和搜索策略比较复杂,聚焦爬虫首先需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接,并将其添加到等待抓取的URL队列,然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到满足某一条件才停止。URUUniformResourceLocator)统一资源定位符,是WW上的信息资源。URL主要由三部分组成:资源类型、存放资源的主机域名、资源文件名。URL的语法格式为:protocol://hostname[:port]婚ath/[;parameters][?query]#fragnent其中:protocol(协议):使用的传输协议类型。hostname(主机名):服务器的域名或IP地址。