[奥鹏]南开22春学期《网络爬虫与信息提取》在线作业[答案]

作者：奥鹏作业答案字体：[增加减小] 来源：南开在线时间：2022-05-05 08:29

22春学期（高起本1709-2103、全层次2109-2103）《网络爬虫与信息提取》在线作业-00001 试卷总分:100 得分:100 一、单选题 (共 20 道试题,共 40 分) 1.如果使用Python的数据结构来做类比的话,MongoDB中库相当

南开22春学期《网络爬虫与信息提取》在线作业[答案]答案

正确答案:-----

22春学期（高起本1709-2103、全层次2109-2103）《网络爬虫与信息提取》在线作业-00001

正确答案:-----

试卷总分:100 得分:100

一、单选题 (共 20 道试题,共 40 分)

1.如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个大字典,大字典里面的每一个键值对都对应了一个集合,Key为(),Value就是一个集合。

正确答案:-----

A.字典

B.集合的名字

C.集合

D.文档

正确答案:-----

2.Redis若要进入交互环境,需要打开终端输入()

正确答案:-----

A.redis-cli

正确答案:-----

B.redis

正确答案:-----

C.redis-cmd

正确答案:-----

D.redis-start

正确答案:-----

3.xpath中extract方法返回值类型是()

A.列表

B.元组

C.字典

D.集合

正确答案:-----

4.Scrapy自带的待爬队列是()

A.deque

正确答案:-----

B.queue

C.list

D.lqueue

正确答案:-----

5.请问按哪个键可以打开Chrome自带的开发者工具()

A.F10

B.F1

C.F11

D.F12

正确答案:-----

6.服务器端记录信息确定用户身份的数据是

A.session

B.cookies

C.moonpies

D.localstorage

正确答案:-----

7.以下关于Charles的说法正确的是( )

A.Charles是一个跨平台的HTTP抓包工具，可以截取HTTP或者HTTPS请求的数据包

B.Charles有Windows 32/64版和Linux 64 版，但是目前还没有对Mac OS进行有效的支持。

正确答案:-----

C.Charles上面滚动的数据就是目前计算机发起的数据包。单击工具栏上面的黄色笤帚图标，可以清停止抓包。

D.在Charles启动时，系统自带浏览器的部分HTTP流量不会经过Charles。

正确答案:-----

8.MongoDB中数据存储的形式类似于()

正确答案:-----

A.列表

B.元组

C.字典

D.集合

9.一般来说在页面传输登录信息都用HTTP()请求类型

A.GET

B.POST

C.PUT

D.SEND

正确答案:-----

10.使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控()中的数据,并不读取start_urls中的数据。

正确答案:-----

A.Redis

B.RedisSpider

正确答案:-----

C.Spider

D.MongoDB

正确答案:-----

11.当需要把Python里面的数据发送给网页时,需要先转换成()字符串

A.Python

B.Json

C.正则表达式

D.Ajax

正确答案:-----

12.lxml库中etree模块的()方法把Selector对象转换为bytes型的源代码数据

A.etree.tostring

B.etree.convertBytes

C.etree.toBytes

D.etree.convertstring

正确答案:-----

13.Python中以下哪个容器里的元素不能重复()

A.列表

B.元组

C.字典

D.集合

14.通常使用()工具来模拟浏览器进行爬虫请求

A.Selenium

B.Chrome

C.ChromeDriver

正确答案:-----

D.WebDriver

正确答案:-----

15.下面Python代码输出为(): def default_para_trap(para=[], value=0): para.append(value) return para print('第一步:{}'.format(default_para_trap(value=100))) print('第二步:{}'.format(default_para_trap(value=50)))

正确答案:-----

A.第一步:[100] 第二步:[100,50]

B.第一步:[100] 第二步:[50]

C.第一步:[100] 第二步:[]

D.第一步:[100] 第二步:[100]

正确答案:-----

16.Python中若定义object=[1, 2, 3, 4, 5],则print(object[:3])输出()

A.12

B.123

C.23

D.234

正确答案:-----

17.使用Xpath构造属性值包含相同字符串的路径采用()方法

A.contain

B.contains

C.include

正确答案:-----

D.includes

正确答案:-----

21.使用UI Automatorr长按点击的操作是得到相应控件后使用命令()

A.longclick

B.long_click

C.clicklong

D.click_long

正确答案:-----

19.HTTP常用状态码表明服务器上没有请求的资源的是()

A.500

B.503

C.403

D.404

正确答案:-----

20.Scrapy_redis是Scrapy的“()”,它已经封装了使用Scrapy操作Redis的各个方法

正确答案:-----

A.组件

B.模块

C.控件

D.单元

正确答案:-----

南开22春学期《网络爬虫与信息提取》在线作业[答案]多选题答案

二、多选题 (共 10 道试题,共 20 分)

21.Python中有哪些实现多线程方法()

A.multiprocess.dummy

正确答案:-----

B.threading.Thread

正确答案:-----

C.process

D.PyMongoDB

正确答案:-----

22.最常见的HTTP请求类型有()

A.GET

B.POST

C.SEND

D.RECEIVE

正确答案:-----

23.Redis中的值可以支持()

正确答案:-----

A.列表

B.哈希

C.集合

D.有序集合

正确答案:-----

24.常用的会话跟踪技术是

A.session

B.cookies

C.moonpies

D.localstorage

25.以下哪种方法是MongoDB的查找方法()

正确答案:-----

A.find

B.find_one

正确答案:-----

C.finds

正确答案:-----

D.find_all

正确答案:-----

26.针对解析源代码的BeautifulSoup对象,构造时BeautifulSoup(网页源代码, '解析器')中的解析器可以为()

A.html

B.html.parser

C.lxml

D.xml

正确答案:-----

27.Python中一个函数可以有()个return语句

A.0

B.1

C.多个

D.2

正确答案:-----

28.Python中的容器有()

A.列表

B.元组

C.字典

D.集合

29.Python中一个函数没有返回值则可以写()

A.没有return

B.return

C.return None

D.return NULL

正确答案:-----

30.下列关于在IOS上配置charles的说法正确的是()

A.不同ios设备之间会有比较大的差别，所以配置的时候需要找到对应的安装证书的入口。

B.手机和电脑需要在同一个局域网下。

C.HTTP代理可以使用“自动”选项。

正确答案:-----

D.安装好证书以后，打开iOS设备上的任何一个App，可以看到Charles中有数据包在流动

正确答案:-----

三、判断题 (共 20 道试题,共 40 分)

31.Python中使用下面代码打开文件也需要对文件进行close关闭操作 with open('文件路径', '文件操作方式', encoding='utf-8') as f

正确答案:-----

32.在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。

33.Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。

正确答案:-----

34.插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1

正确答案:-----

35.Python正则表达式中“.*”是贪婪模式,获取最长的满足条件的字符串。

正确答案:-----

36.使用Scrapyd,可以实现一键部署Scrapy爬虫,访问一个网址就启动/停止爬虫

正确答案:-----

37.Python中元组生成以后还可以往里面继续添加数据,也可以从里面删除数据;

38.如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。

39.HTTP状态码302与307完全同义。

40.如果元组里面只有整数、浮点数、字符串、一个列表,就既不能添加数据,也不能删除数据,还不能修改里面数据的值。

41.HTTP状态码302表示资源永久重定向。

42.使用异步加载技术的网站,被加载的内容可以在源代码中找到

43.Python中条件语句在使用and连接的多个表达式中,只要有一个表达式不为真,那么后面的表达式就不会执行。

正确答案:-----

44.当运行爬虫代码后,出现"Forbidden by robots.txt"提示后,说明当前时间段被爬取的网站无法访问。

正确答案:-----

45.在请求头中设置User-Agent即可正常请求网站

46.爬虫中间件的激活需要另外写一个文件来进行

47.在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis

正确答案:-----

48.当使用Charles监控iOS设备或者Android设备的数据包以后,打开微信小程序,小程序的数据包不能自动被Charles抓住,需要另作处理。

正确答案:-----

Tag：南开学期网络爬虫与信息提取在线作业标准答案

[奥鹏]南开22春学期《网络爬虫与信息提取》在线作业[答案]

相关文章

文章分类

大家感兴趣的内容

最近更新的内容