山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》【精选】

上传者：你的雨天 | 格式：doc | 页数：12 | 大小：242KB

文档介绍

_dataР def _get_new_urls(self, page_url, soup):Р new_urls = set()Р # http://baike./item/%E8%87%AA%E7%94%B1%E8%BD%AF%E4%BB%B6Р # http://baike./item/%E6%BA%90%E4%BB%A3%E7%A0%81/3969Р links = soup.find_all('a', href=pile(r"/item/\%"))Р for link in links:Р new_url = link['href']Р # http://baike./item/Python?sefr=psР new_full_url = urlparse.urljoin("http://baike./",new_url)Р new_urls.add(new_full_url)Р return new_urlsР def _get_new_date(self, page_url, soup):Р res_data = {}Р # urlР res_data['url'] = page_urlР # <dd class="lemmaWgt-lemmaTitle-title"><h1>Python</h1>Р title_node = soup.find('dd',class_="lemmaWgt-lemmaTitle-title").find('h1')Р res_data['title'] = title_node.get_text()Р # <div class="lemma-summary" label-module="lemmaSummary">Р summary_node = soup.find('div', class_="lemma-summary")

猜你喜欢

1_7875192_【论文】基于java的网...36页

毕业设计（论文）-网络爬虫设计41页

计算机网络课程设计—?广告公司...9页

毕业论文-基于Python的网络爬虫...19页

毕业设计（论文）-基于Python 的...23页

山东建筑大学计算机网络课程设计...12页

计算机网络课程设计16页

基于python的网络爬虫设计19页

计算机的网络课程设计16页

山东建筑大学计算机网络课程设计...13页

计算机网络课程设计48页

基于python的网络爬虫设计9页