南开21秋学期《网络爬虫与信息提取》在线作业答案

(单选题)1: Python操作CSV文件可通过()容器的方式操作单元格
A: 列表
B: 元组
C: 字典
D: 集合

(单选题)2: 以下关于Charles的说法正确的是( )
A: Charles是一个跨平台的HTTP抓包工具，可以截取HTTP或者HTTPS请求的数据包
B: Charles有Windows 32/64版和Linux 64 版，但是目前还没有对Mac OS进行有效的支持。
C: Charles上面滚动的数据就是目前计算机发起的数据包。单击工具栏上面的黄色笤帚图标，可以清停止抓包。
D: 在Charles启动时，系统自带浏览器的部分HTTP流量不会经过Charles。

(单选题)3: Redis中写数据到列表中,使用关键字()
A: push
B: append
C: lpush
D: lappend

(单选题)4: 使用UI Automator使屏幕向上滚动一屏的操作是得到相应控件后使用命令()
A: scroll_forwad
B: scroll_up
C: scroll.forward
D: scroll.vert.forward

(单选题)5: Python中若定义object=[1, 2, 3, 4, 5],则print(object[-4])输出()
A: NULL
B: 2
C: 4
D: 程序报错

(单选题)6: Python中哪种容器一旦生成就不能修改
A: 列表
B: 元组
C: 字典
D: 集合

(单选题)7: windows中创建定时任务的命令为
A: task
B: schtasks
C: createtasks
D: maketasks

(单选题)8: 参数headers=(),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。
A: HEADER
B: HEADERS
C: HEAD
D: BODY

(单选题)9: Python中把列表转换为集合需要使用##函数
A: set
B: list
C: convert
D: change

(单选题)10: Redis中读取数据语句lrange chapter 0 3,那么表示读列表中()个值
A: 2
B: 3
C: 4
D: 5

(单选题)11: chrome默认打开开发者工具的快捷是
A: F5
B: F11
C: F12
D: F2

(单选题)12: 网站根目录中哪个文件里面的内容会告诉爬虫哪些数据是可以爬取的,哪些数据是不可以爬取的()。
A: robot.txt
B: robot.html
C: robots.txt
D: robots.html

(单选题)13: PyMongo中逻辑查询表示等于的符号是()
A: $gt
B: $lt
C: $eq$$ne

(单选题)14: 使用Xpath获取文本使用()
A: text
B: text()
C: content
D: content()

(单选题)15: Python中以下哪个容器里的元素不能重复()
A: 列表
B: 元组
C: 字典
D: 集合

(单选题)16: HTTP状态码401表示
A: 请求报文中可能存在语法错误
B: 请求需要通过HTTP认证
C: 请求资源的访问被拒绝
D: 服务器上没有请求的资源

(单选题)17: MongoDB中数据存储的形式类似于()
A: 列表
B: 元组
C: 字典
D: 集合

(单选题)18: HTTP常用状态码表明服务器上没有请求的资源的是()
A: 500
B: 503
C: 403
D: 404

(单选题)19: 可以通过()绕过网站登录。
A: session
B: cookies
C: moonpies
D: localstorage

(单选题)20: 浏览器用来记录用户状态信息的数据叫
A: session
B: cookies
C: moonpies
D: selenium

(多选题)21: 如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据()来起诉使用爬虫的公司
A: 服务器日志
B: 数据库日志记录
C: 程序日志记录
D: 服务器监控

(多选题)22: requests中post请求方法的第二个参数可以为()
A: 字典
B: 列表
C: json数据
D: 字符串

(多选题)23: BS4可以用来从()中提取数据
A: HTML
B: XML
C: 数据库
D: JSON

(多选题)24: MongoDB中获取名字为db的库的语句为()
A: client.db
B: client('db')
C: client['db']
D: client{'db'}

(多选题)25: 要使用tesseract来进行图像识别,需要安装两个第三方库
A: requests
B: beautifulsoup
C: Pillow
D: pytesseract

(多选题)26: Python中()容器有推导式
A: 列表
B: 元组
C: 字典
D: 集合

(多选题)27: 网络爬虫的用途有()
A: 收集数据
B: 尽职调查
C: 提高流量
D: 攻击服务器

(多选题)28: cookies的缺点是
A: 实现自动登录
B: 跟踪用户状态
C: http中明文传输
D: 增加http请求的流量

(多选题)29: PyMongo删除操作有()
A: delete
B: delete_all
C: delete_one
D: delete_many

(多选题)30: 下载器中间件的作用有哪些?
A: 更换代理IP
B: 更换Cookies
C: 更换User-Agent
D: 自动重试

(判断题)31: process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用
A: 对
B: 错

(判断题)32: process_spider_input(response, spider)是在爬虫运行yield item或者yield scrapy.Request()的时候调用
A: 对
B: 错

(判断题)33: 在安装Scarpy的依赖库时,由于Visual C++ Build Tools的安装速度很慢,为了节省时间,可以和安装Twisted同时进行
A: 对
B: 错

(判断题)34: 当Charles抓包以后,在Mac OS系统下可以按Command+F组合键,在Windows系统下按Ctrl+F组合键打开Charles进行搜索
A: 对
B: 错

(判断题)35: MongoDB是一个关系数据库产品
A: 对
B: 错

(判断题)36: RoboMongo是MongoDB的管理软件
A: 对
B: 错

(判断题)37: UI Automator Viewer与Python uiautomator可以同时使用
A: 对
B: 错

(判断题)38: 需要实名认证的打码网站更加安全可靠。
A: 对
B: 错

(判断题)39: PyMongoDB中排序方法sort第二个参数1表示降序
A: 对
B: 错

(判断题)40: 代理中间件的可用代理列表一定要写在settings.py里面
A: 对
B: 错

(判断题)41: 在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的
A: 对
B: 错

(判断题)42: 如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好。于是将数据或者分析结果出售给某基金公司,从而获得销售收入。这是合法的。
A: 对
B: 错

(判断题)43: 使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。
A: 对
B: 错

(判断题)44: mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本
A: 对
B: 错

(判断题)45: 当运行爬虫代码后,出现"Forbidden by robots.txt"提示后,说明当前时间段被爬取的网站无法访问。
A: 对
B: 错

(判断题)46: Python中直接对浮点数进行计算有print(0.1+0.2),则结果为0.3
A: 对
B: 错

(判断题)47: 如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。
A: 对
B: 错

(判断题)48: Linux环境中,Virtualenv创建的虚拟Python环境中,执行pip命令安装第三方库就不需要使用sudo命令了。
A: 对
B: 错

(判断题)49: 通用搜索引擎的目标是尽可能大的网络覆盖率,搜索引擎服务器资源与网络数据资源互相匹配
A: 对
B: 错

(判断题)50: requests中get请求方法的使用为requests.get('网址', data=data)
A: 对
B: 错

(责任编辑：admin)要这答案加QQ：800020900 或加微信：vq800020900 获取

搜索

热门标签:

南开21秋学期《网络爬虫与信息提取》在线作业答案

提示信息×