【云计算招聘,求职】-前程无忧该招聘网站的编码为gbk。接下来,判断当前分析" /> 【云计算招聘,求职】-前程无忧该招聘网站的编码为gbk。接下来,判断当前分析" />

全文预览

项目3就业岗位数据采集和存储

上传者:非学无以广才 |  格式:pptx  |  页数:57 |  大小:3615KB

文档介绍
le"content="IE=edge,chrome=1"><metahttp-equiv="Content-Type"content="text/html;charset=gbk"><linkrel="icon"href="/favicon.ico"type="image/x-icon"/><title>【云计算招聘,求职】-前程无忧</title>该招聘网站的编码为gbk。接下来,判断当前分析的页面是否为岗位列表页。不难发现,列表页的URL中都含有search.字符段,可以通过简单的if语句判断:if(page.getUrl().toString().contains("search."))下面分析岗位信息页链接的HTML源代码,并用Xpath语法解析出,添加至抓取队列。检查某个链接源代码的方法,在岗位列表中右击一项,在弹出的下拉菜单中选择“Inspect”命令,如图3-3所示。图3-3选择Inspect命令右击并选择检查(Inspect)后,出现了该链接的HTML源码,如图3-4所示。图3-4查看HTML源代码可以发现,所需要的URL地址是一个<p>标签下的唯一的超链接,该标签的class名为t1。同理,这个岗位列表页下的所有岗位信息页的URL都有着相同的格式。因此可以使用Xpath全部识别,并添加至抓取队列,代码实现如下:select=page.getHtml().xpath("//p[@class='t1']");urls=select.links().all();page.addTargetRequests(urls);添加后续分页的链接也是如上一样的方法,在此省去分析HTML源码的截图,直接贴上代码:select=page.getHtml().xpath("//div[@class='dw_page']");urls=select.links().all();

收藏

分享

举报
下载此文档