山东建筑大学计算机网络课程设计报告《基于.Python的网络爬虫设计》

上传者：qnrdwb | 格式：doc | 页数：12 | 大小：201KB

文档介绍

_dataР def _get_new_urls(self, page_url, soup):Р new_urls = set()Р # http://baike./item/%E8%87%AA%E7%94%B1%E8%BD%AF%E4%BB%B6Р # http://baike./item/%E6%BA%90%E4%BB%A3%E7%A0%81/3969Р links = soup.find_all('a', href=pile(r"/item/\%"))Р for link in links:Р new_url = link['href']Р # http://baike./item/Python?sefr=psР new_full_url = urlparse.urljoin("http://baike./",new_url)Р new_urls.add(new_full_url)Р return new_urlsР def _get_new_date(self, page_url, soup):Р res_data = {}Р # urlР res_data['url'] = page_urlР # <dd class="lemmaWgt-lemmaTitle-title"><h1>Python</h1>Р title_node = soup.find('dd',class_="lemmaWgt-lemmaTitle-title").find('h1')Р res_data['title'] = title_node.get_text()Р # <div class="lemma-summary" label-module="lemmaSummary">Р summary_node = soup.find('div', class_="lemma-summary")

猜你喜欢

计算机网络课程设计报告--校园网...15页

【设计参考】计算机网络课程设计...19页

1_7875192_【论文】基于java的网...36页

毕业设计（论文）-网络爬虫设计41页

计算机网络课程设计—?广告公司...9页

毕业论文-基于Python的网络爬虫...19页

毕业设计（论文）-基于Python 的...23页

山东建筑大学计算机网络课程设计...12页

基于python的网络爬虫设计19页

山东建筑大学计算机网络课程设计...13页

基于python的网络爬虫设计9页

计算机网络课程设计报告——大型...9页