爬虫

未来题库→标签→爬虫

爬虫

1.聚焦爬虫根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。2.DeepWeb爬虫爬行过程中表单填写的方法有（）。3.网络爬虫抓取各种资源后，通过相应的索引技术组织这些信息，提供给用户进行查询。4.小的网站将没有爬虫访问。5.网络爬虫实际上是一种”自动化浏览网络”的程序。6.网络爬虫的广泛应用可能造成个人隐私泄露。7.网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。8.聚焦网络爬虫对于爬行速度和存储空间要求更高。9.网络爬虫可以分为通用网络爬虫、聚焦网络爬虫等类型。10.DeepWeb爬虫基于领域知识填写表单时，一般会维持一个本体库，通过语义分析来选取合适的关键词填写表单。11.聚焦网络爬虫，是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。12.现有聚焦爬虫对抓取目标的描述只包括基于目标网页特征这种方式。13.DeepWeb爬虫基于网页结构分析填写表单时，一般无领域知识或仅有有限的领域知识。14.为保持本地页面集中存储的页面为最新页面，增量式爬虫常用的方法有：（）。15.相对于通用网络爬虫，聚焦爬虫还需要解决的主要问题有（）16.聚焦网络爬虫需要对网页或数据的分析与过滤。17.增量式爬虫不需要对网页的重要性排序。18.门户站点搜索引擎和大型Web服务常常通过通用网络爬虫提供商采集数据。19.深层网络（DeepWeb）爬虫爬行过程中最重要部分就是（）。20.下列选项中，属于网络爬虫应用场景的是（）。