...............33参考文献....................................................................................................................................34致谢..........................................................................................................................................35III成都学院学士学位论文(设计)绪论随着计算机和网络技术的日臻成熟并被广泛的应用到社会生活的各个领域,网络上的信息呈爆炸式增长,并由此诞生了大量的数据,人类进入了一个“大数据时代”。这使得人们在网上找到自己所需的信息越来越困难,如果在信息的海洋里捞针。据统计搜索引擎已经成为仅次于电子邮件服务,是人们使用最多的网路服务。搜索引擎搜集互联网上数以亿计的网页,并为每个关键词建立索引。用户通过输入自己感兴趣的关键字就能获得与之相关的网页。从搜索引擎出发就能很快的到达互联网的任何一个地方。在建立搜索引擎的过程中,获取网页是非常重要的一个环节。爬虫程序就是用来获取网页的程序。网络爬虫,是一种按照一定的规则,自动的抓取因特网信息的程序或者脚本。另外一些不常使用的名字还有网路蚂蚁,自动索引,模拟程序或者蠕虫。网络蜘蛛是通过网页的链接地址来寻找网页,从网站的一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。