项目3就业岗位数据采集和存储

上传者：非学无以广才 | 格式：pptx | 页数：57 | 大小：3615KB

文档介绍

le"content="IE=edge,chrome=1"><metahttp-equiv="Content-Type"content="text/html;charset=gbk"><linkrel="icon"href="/favicon.ico"type="image/x-icon"/><title>【云计算招聘,求职】-前程无忧</title>该招聘网站的编码为gbk。接下来,判断当前分析的页面是否为岗位列表页。不难发现,列表页的URL中都含有search.字符段,可以通过简单的if语句判断:if(page.getUrl().toString().contains("search."))下面分析岗位信息页链接的HTML源代码,并用Xpath语法解析出,添加至抓取队列。检查某个链接源代码的方法,在岗位列表中右击一项,在弹出的下拉菜单中选择“Inspect”命令,如图3-3所示。图3-3选择Inspect命令右击并选择检查(Inspect)后,出现了该链接的HTML源码,如图3-4所示。图3-4查看HTML源代码可以发现,所需要的URL地址是一个<p>标签下的唯一的超链接,该标签的class名为t1。同理,这个岗位列表页下的所有岗位信息页的URL都有着相同的格式。因此可以使用Xpath全部识别,并添加至抓取队列,代码实现如下:select=page.getHtml().xpath("//p[@class='t1']");urls=select.links().all();page.addTargetRequests(urls);添加后续分页的链接也是如上一样的方法,在此省去分析HTML源码的截图,直接贴上代码:select=page.getHtml().xpath("//div[@class='dw_page']");urls=select.links().all();

猜你喜欢

数据集中存储磁盘阵列设备采购投...108页

企业征信数据库采集、检验、存储...4页

ibm数据存储和远程容灾方案8页

数据存储PPT课件85页

药品储存岗位职责2页

采集表1.房地产开发项目工程量数...2页

数据存储 ppt课件129页

数据结构-顺序存储5页