爬虫

未来题库→标签→爬虫

爬虫

1.Robots排除协议，它是网站管理者表达是否希望爬虫自动获取网站信息意愿的方法。2.在网络爬虫的爬行策略中，应用最为基础的是（）。3.（），又称主题网络爬虫，是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。4.（）的爬虫针对的是网页上的数据，所抓取的数据一般要符合一定的模式，或者可以转化或映射为目标数据模式。5.深层网络爬虫的基于网页结构分析的表单填写法一般将网页表单表示成（），从中提取表单各字段值。6.增量式爬虫中的（）指的是：爬虫以相同的频率访问所有网页，不考虑网页的改变频率。7.以下关于网络爬虫的说法，不正确的是（）。8.DeepWeb爬虫体系结构中的LVS用于（）。9.DeepWeb爬虫体系结构包含六个基本功能模块和两个爬虫内部数据结构，其中（）表示标签数值集合，用来表示填充表单的数据源。10.（）又称全网爬虫，爬行对象从一些种子URL扩充到整个Web，主要为门户站点搜索引擎和大型Web服务提供商采集数据。11.DeepWeb爬虫结构中的URL列表是用来表示填充表单的数据源。12.可以通过网络爬虫或网站公开API等方式从网站上获取数据信息。13.DeepWeb爬虫不会自动填写表单。14.增量式网络爬虫只会在需要的时候爬行新产生或发生更新的页面。15.DeepWeb爬虫爬行过程中的一个重要步骤是表单填写。16.网络爬虫只可以抓取Web网页。17.现有聚焦爬虫对抓取目标的描述只包括基于目标数据模式这种方式。18.增量式爬虫的目标只有保持本地页面集中存储的页面为最新页面。19.通用网络爬虫通常采用串行工作方式。20.实际的网络爬虫系统通常是单一类型的爬虫。