爬行

未来题库→标签→爬行

爬行

1.在网络爬虫的爬行策略中，应用最为基础的是（）。2.理论上讲，纵使只提交网站的首页，（）也会爬行到其他页面3.爬行钉住有时也称作不清洁浮动。（）4.幼儿行走动作的发展，要经历爬行、站立和三个阶段。5.深度优先的爬行策略无需存储大量中间节点。6.如果要采集指定的数据，则需要使用到（），因为它只需要爬行与主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快。7.按照（）爬取的网页内容根据目录层次深浅来爬行页面，处于较浅目录层次的页面首先被爬行，当同一层次中的页面爬行完毕后，爬虫再深入下一层继续爬行。8.（）爬行过程中最重要部分就是表单填写及处理。9.（）又称全网爬虫，爬行对象从一些种子URL扩充到整个Web，主要为门户站点搜索引擎和大型Web服务提供商采集数据。10.广度优先爬行策略的不足之处在于需较长时间才能爬行到目录层次较深的页面。11.广度优先的爬行策略无需存储大量中间节点。12.DeepWeb爬虫爬行过程中的一个重要步骤是表单填写。13.聚焦网络爬虫能够在一定程度上保证所爬行的页面是尽可能新的页面。14.（）只会在需要的时候爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。15.广度优先的爬行策略按照网页内容目录层次深浅来爬行页面，当同一层次中的页面爬行完毕后，再深入下一层继续爬行。16.深度优先的爬行策略能够有效控制页面的爬行深度。17.深度优先爬行策略的不足之处在于需较长时间才能爬行到目录层次较深的页面。18.广度优先的爬行策略按照深度逐层爬行页面，所有链接遍历完后，爬行任务结束。19.深度优先的爬行策略可以避免遇到一个无穷深层分支时无法结束爬行的问题。20.以下对于爬行策略的说法，不正确的是（）。