以下关于网络爬虫的描述中,错误的一项是()。
A.在爬虫开始的时候,需要给爬虫输送一个URL列表,作为爬虫的起始位置
B.爬虫程序会抓取所有网页,以保证搜索正确性
C.根据某种抓取策略爬行新发现的URL,如此重复下去
D.对于商业搜索引擎来说,分布式爬虫是必须采用的技术
A.在爬虫开始的时候,需要给爬虫输送一个URL列表,作为爬虫的起始位置
B.爬虫程序会抓取所有网页,以保证搜索正确性
C.根据某种抓取策略爬行新发现的URL,如此重复下去
D.对于商业搜索引擎来说,分布式爬虫是必须采用的技术
A、在爬虫开始的时候,需要给爬虫输送一个URL列表,作为爬虫的起始位置
B、根据某种抓取策略爬行新发现的URL,如此重复下去
C、爬虫程序会抓取所有网页,以保证搜索正确性
D、对于商业搜索引擎来说,分布式爬虫是必须采用的技术
A.网络爬虫由控制节点、爬虫节点和资源库构成
B.网络爬虫中可以有多个控制节点,每个控制节点下可以有多个爬虫节点
C.控制节点之间可以互相通信,控制节点和其下的各爬虫节点之间也可以进行互相通信
D.属于同一个控制节点下的各爬虫节点间不可以互相通信
关于网络爬虫协议文件robots.txt,说法错误的是:
A一个网站可以放多个不同robots文件
Brobots文件不可以用xml格式命名
Cdisallow用来描述不希望被访问到的一个URL
Drobots文件可以放在任何位置
A.通用网络爬虫
B.聚焦网络爬虫
C.增量式网络爬虫
D.以上都是
B.为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分
C.爬虫从一个或若干个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件
D.网络爬虫的行为和人们访问网站的行为是完全不同的
为了保护您的账号安全,请在“简答题”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!