全文预览

基于python的网络爬虫设计

上传者:火锅鸡 |  格式:doc  |  页数:9 |  大小:60KB

文档介绍
].decode("utf-8"))r=r+1printr+3012filename.save('test3.xls')2.2.2储存在数据库中数据库指的是以一定方式储存在一起、能为多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。将数据储存在数据库中也具有直观简洁的特点。Python调用数据库是用pymongo模块,创建与导入代码如下:db=pymongo.Connection().testforainx:values=dict(img=a[0].decode("utf-8"),infor=a[1].decode("utf-8"),age=a[2].decode("utf-8"),adress=a[3].decode("utf-8"),marry=a[4].decode("utf-8"))db.user.insert({'values':values})content=db.user.find()forainx:print'img:'+a[0].decode("utf-8")print'infor:'+a[1].decode("utf-8")print'age:'+a[2].decode("utf-8")print'adress:'+a[3].decode("utf-8")print'marry:'+a[4].decode("utf-8")3、总结本程序利用了python语言编写网络爬虫程序,实现了从世纪佳缘网上爬取用户数据资料,使用URLlib函数以及re模块、pymongo模块进行源代码的获取、编辑和数据的导出,并针对网页代码中无性别显示的问题,采取爬取注册用户信息同时爬取注册用户照片地址的方式解决,浏览所爬取信息时,只需将照片地址输入浏览器地址栏,即可得到所查看用户上传的自拍照,得到形象信息。总的来说程序设计简便、实用性强、便于读取和再利用。继续阅读

收藏

分享

举报
下载此文档