• 回答数

    3

  • 浏览数

    188

心向着谁
首页 > 自考本科 > 100分自考网爬虫

3个回答 默认排序
  • 默认排序
  • 按时间排序

343004227qq

已采纳

首先了解下网络爬虫的基本工作流程:

1.先选取一部分精心挑选的种子URL;

2.将这些URL放入待抓取URL队列;

3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。

4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。

由此可见,你要的数据要通过URL进行传递,如果URL无效,通过一般正常的手段是基本获取不到数据的。所以基本上只要是人无法看到的东西就可以默认为无法获取到。

187 评论

我是伙星人

网络爬虫如何处理这个,其实是数据提取的那一步骤,首先我们要清楚知道网页的页面结构,这是根本,因为网页是一个树形结构,是有层次的。不然,我们是很难提取到我们想要的数据,所以,心中要有这样一个概念:网页是结构分层分明的树形文档。

在这里我以搜房网为例:housing/,这个页面,是一个小区的List页面,我们现在要提取其中的小区名称和URL。

首先,查看页面的结构

点击右键,选择查看选择,得到如下这样一个页面。因为是一个List,所以有很多个小区,这些小区的信息应该是在一个div样式下面的。在这里我们看到这样一行,这个就是我们要找的根div。

解析出我们想要的内容-小区名称、页面URL

我们就可以使用xpath提取页面中的内容,在这里我们就可以这样描述:

selectore_list=response.xpath('//div[@class=\houseList\]/*/dl/dd/a[@class=\plotTit\]')

这样的话是提取的整个页面的列表,我们还需要通过循环把每个小区的标题和页面URL取出来,我们可以这样写:

forliinselector_list:title=li.xpath('./@href').extract()[0]urls=li.xpath('./text()').extract()[0]

这样的话里面的标题和页面url都提取出来的。关于xpath如何使用,可以查询相关的课程学习。

285 评论

chaorenxiaoling

这里以python为例,简单介绍一下如何通过python网络爬虫获取网站数据,主要分为静态网页数据的爬取和动态网页数据的爬取,实验环境win10+python3.6+pycharm5.0,主要内容如下:

静态网页数据

这里的数据都嵌套在网页源码中,所以直接requests网页源码进行解析就行,下面我简单介绍一下,这里以爬取糗事百科上的数据为例:

1.首先,打开原网页,如下,这里假设要爬取的字段包括昵称、内容、好笑数和评论数:

接着查看网页源码,如下,可以看的出来,所有的数据都嵌套在网页中:

2.然后针对以上网页结构,我们就可以直接编写爬虫代码,解析网页并提取出我们需要的数据了,测试代码如下,非常简单,主要用到requests+BeautifulSoup组合,其中requests用于获取网页源码,BeautifulSoup用于解析网页提取数据:

点击运行这个程序,效果如下,已经成功爬取了到我们需要的数据:

动态网页数据

这里的数据都没有在网页源码中(所以直接请求页面是获取不到任何数据的),大部分情况下都是存储在一个json文件中,只有在网页更新的时候,才会加载数据,下面我简单介绍一下这种方式,这里以爬取人人贷上面的数据为例:

1.首先,打开原网页,如下,这里假设要爬取的数据包括年利率,借款标题,期限,金额和进度:

接着按F12调出开发者工具,依次点击“Network”->“XHR”,F5刷新页面,就可以找打动态加载的json文件,如下,也就是我们需要爬取的数据:

2.然后就是根据这个json文件编写对应代码解析出我们需要的字段信息,测试代码如下,也非常简单,主要用到requests+json组合,其中requests用于请求json文件,json用于解析json文件提取数据:

点击运行这个程序,效果如下,已经成功爬取到我们需要的数据:

至此,我们就完成了利用python网络爬虫来获取网站数据。总的来说,整个过程非常简单,python内置了许多网络爬虫包和框架(scrapy等),可以快速获取网站数据,非常适合初学者学习和掌握,只要你有一定的爬虫基础,熟悉一下上面的流程和代码,很快就能掌握的,当然,你也可以使用现成的爬虫软件,像八爪鱼、后羿等也都可以,网上也有相关教程和资料,非常丰富,感兴趣的话,可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家评论、留言进行补充。

216 评论

相关问答

  • 100%自考网

    全国自考网上报名系统的入口网址是。 这是教育部学历查询网站、教育部高校招收学生阳光工程指定网站、全国硕士研究生招收学生报名和调剂指定网站,里面展示了大量有关自考

    淡水氤氲 4人参与回答 2024-05-17
  • 100分自考

    自考每门课的满分都是100分60分为及格本

    杨大公主H 5人参与回答 2024-05-17
  • 100分自考真题网

    你好,如果你是想在网上查看自考往年的真题,你可以登录或者下载往年真题。相信对于你的自考备考以及复习会有很大的帮助。 你可以登录这个网站去看历年真题,自考会计专业

    楠辉之恋 5人参与回答 2024-05-18
  • 100分自考真题网址

    直接搜索科目代码以及名称,就可以搜索到历年真题,有些真题也是会带有答案,可以直接打印成册进行刷题。自考网中华人民共和国公民,不受性别、年龄、民族、种族和已受教育

    宇晨yuchen 3人参与回答 2024-05-16
  • 100分自考真题网络安全

    这里有你想要的一切... 全国2010年4月自学考试计算机网络安全试题及答案全国2009年7月自考计算机网络安全试卷及答案全国2010年4月自学考试计算机网络安

    宝妮Angela 4人参与回答 2024-05-18