23春學(xué)期(高起本:1709-2103、專升本/高起專:1909-2103)《網(wǎng)絡(luò)爬蟲與信息提取》在線作業(yè)-00001
試卷總分:100 得分:100
一、單選題 (共 20 道試題,共 40 分)
1.當(dāng)爬蟲創(chuàng)建好了之后,可以使用"scrapy()" 命令運(yùn)行爬蟲。
A.startup
B.starwar
C.drawl
D.crawl
2.Redis中讀取數(shù)據(jù)語(yǔ)句lrange chapter 0 3,那么表示讀列表中()個(gè)值
A.2
B.3
C.4
D.5
3.PyMongo中邏輯查詢表示小于等于的符號(hào)是()
A.$gt
B.$lt
C.$gte$$lte
4.Python中把列表轉(zhuǎn)換為集合需要使用##函數(shù)
A.set
B.list
C.convert
D.change
5.HTTP常用狀態(tài)碼表明服務(wù)器內(nèi)部資源出故障了的是()
A.500
B.503
C.403
D.404
6.啟動(dòng)MongoDB使用命令mongod --() usr/local/etc/mongod.conf
A.config
B.install
C.start
D.begin
7.要使用Python來(lái)操作UI Automator從而控制手機(jī),需要安裝一個(gè)第三方庫(kù)()
A.uiautomator
B.automator
C.ui_automator
D.pyautomator
8.HTTP常用狀態(tài)碼表明服務(wù)器不允許訪問那個(gè)資源的是()
A.500
B.503
C.403
D.405
9.網(wǎng)站根目錄中哪個(gè)文件里面的內(nèi)容會(huì)告訴爬蟲哪些數(shù)據(jù)是可以爬取的,哪些數(shù)據(jù)是不可以爬取的()。
A.robot.txt
B.robot.html
C.robots.txt
D.robots.html
10.服務(wù)器端記錄信息確定用戶身份的數(shù)據(jù)是
A.session
B.cookies
C.moonpies
D.localstorage
11.使用UI Automatorr讓屏幕向左滾動(dòng)的操作是得到相應(yīng)控件后使用命令()
A.scroll.left
B.scroll.horiz.left
C.scroll.forward
D.scroll.horiz.forward
12.瀏覽器用來(lái)記錄用戶狀態(tài)信息的數(shù)據(jù)叫
A.session
B.cookies
C.moonpies
D.selenium
13.PyMongo中邏輯查詢表示大于的符號(hào)是()
A.$gt
B.$lt
C.$gte$$lte
14.Python中Object=(1, 2, 3, 4, 5),則Objcet是()
A.列表
B.元組
C.字典
D.集合
15.當(dāng)需要把Python里面的數(shù)據(jù)發(fā)送給網(wǎng)頁(yè)時(shí),需要先轉(zhuǎn)換成()字符串
A.Python
B.Json
C.正則表達(dá)式
D.Ajax
16.Python中專門用來(lái)處理圖像的第三方庫(kù)是
A.lxml
B.Pillow
C.beautifulsoup
D.pytesseract
17.以下HTTP狀態(tài)碼與302等價(jià)的是
A.301
B.303
C.304
D.307
18.下面代碼一共執(zhí)行循環(huán)多少次(): for i in range(10): print(i ** i)
A.9
B.10
C.11#0
19.MongoDB中數(shù)據(jù)存儲(chǔ)的形式類似于()
A.列表
B.元組
C.字典
D.集合
20.在Scrapy的目錄下,哪個(gè)文件負(fù)責(zé)數(shù)據(jù)抓取以后的處理工作?()
A.spiders文件夾
B.item.py
C.pipeline.py
D.settings.py
二、多選題 (共 10 道試題,共 20 分)
21.下列說(shuō)法錯(cuò)誤的是()
A.mitmproxy的強(qiáng)大之處在于它還自帶一個(gè)mitmdump命令。這個(gè)命令可以用來(lái)運(yùn)行符合一定規(guī)則的Python腳本,并在Python腳本里面直接操作HTTP和HTTPS的請(qǐng)求,以及返回的數(shù)據(jù)包。
B.命令行中執(zhí)行mitmdump -s parse_request.py即可運(yùn)行python 腳本
C.使用python可以自定義返回的數(shù)據(jù)包,如 response.headers,就是返回的頭部信息
D.如果返回的是JSON類型的字符串,python無(wú)法進(jìn)行解析。
22.下列關(guān)于mitmproxy的使用說(shuō)法正確的是()
A.mitmproxy的端口為8080端口。
B.設(shè)置好代理以后,在手機(jī)上打開一個(gè)App或者打開一個(gè)網(wǎng)頁(yè),可以看到mitmproxy上面有數(shù)據(jù)滾動(dòng)。
C.用鼠標(biāo)在終端窗口上單擊其中的任意一個(gè)請(qǐng)求,可以顯示這個(gè)數(shù)據(jù)包的詳情信息。
D.如果要訪問HTTPS網(wǎng)站,還需要安裝mitmproxy的證書
23.下載器中間件的作用有哪些?
A.更換代理IP
B.更換Cookies
C.更換User-Agent
D.自動(dòng)重試
24.以下哪種方法是MongoDB的查找方法()
A.find
B.find_one
C.finds
D.find_all
25.Python中一個(gè)函數(shù)可以有()個(gè)return語(yǔ)句
A.0
B.1
C.多個(gè)
D.2
26.MongoDB中獲取名字為db的庫(kù)的語(yǔ)句為()
A.client.db
B.client('db')
C.client['db']
D.client{'db'}
27.Python中哪種容器生成后可以修改內(nèi)容
A.列表
B.元組
C.字典
D.集合
28.Python中一個(gè)函數(shù)沒有返回值則可以寫()
A.沒有return
B.return
C.return None
D.return NULL
29.Python中()與元組由類似的數(shù)據(jù)讀取方式
A.字符串
B.列表
C.字典
D.集合
30.要使用tesseract來(lái)進(jìn)行圖像識(shí)別,需要安裝兩個(gè)第三方庫(kù)
A.requests
B.beautifulsoup
C.Pillow
D.pytesseract
三、判斷題 (共 20 道試題,共 40 分)
31.使用Charles,可以輕松截獲手機(jī)App和微信小程序的數(shù)據(jù)包,從而開發(fā)出直接抓取App后臺(tái)和小程序后臺(tái)的爬蟲。
32.MongoDB URI的格式為: mongodb://服務(wù)器IP或域名:端口@用戶名:密碼
33.如果目標(biāo)網(wǎng)站本身就是提供公眾查詢服務(wù)的網(wǎng)站,那么使用爬蟲是合法合規(guī)的。
34.當(dāng)Charles抓包以后,在Mac OS系統(tǒng)下可以按Command+F組合鍵,在Windows系統(tǒng)下按Ctrl+F組合鍵打開Charles進(jìn)行搜索
35.Scrapy每一次發(fā)起請(qǐng)求之前都會(huì)在這里檢查網(wǎng)址是否重復(fù)。因此如果確實(shí)需要再一次爬取數(shù)據(jù),在Redis中把這個(gè)Key刪除即可。
36.mitmproxy的強(qiáng)大之處在于它還自帶一個(gè)mitmdump命令。這個(gè)命令可以用來(lái)運(yùn)行符合一定規(guī)則的Python腳本
37.如果通過(guò)爬蟲抓取某公司網(wǎng)站的公開數(shù)據(jù),分析以后發(fā)現(xiàn)這個(gè)公司業(yè)績(jī)非常好。于是將數(shù)據(jù)或者分析結(jié)果出售給某基金公司,從而獲得銷售收入。這是合法的。
38.cookies在http請(qǐng)求中是明文傳輸?shù)摹?/span>
39.MongoDB支持對(duì)查詢到的結(jié)果進(jìn)行排序。排序的方法為sort()。它的格式為: handler.find().sort('列名', 1或-1或0)
40.在使用多線程處理問題時(shí),線程池設(shè)置越大越好
41.Python中使用下面代碼打開文件也需要對(duì)文件進(jìn)行close關(guān)閉操作 with open('文件路徑', '文件操作方式', encoding='utf-8') as f
42.robots.txt是一種規(guī)范,在法律范疇內(nèi)
43.上課傳紙條。A要把紙條傳給B,但是A與B距離太遠(yuǎn),于是讓C來(lái)轉(zhuǎn)交紙條。此時(shí),C先篡改紙條的內(nèi)容再傳給B,這是一種類似抓包的方式。
44.requests中g(shù)et請(qǐng)求方法的使用為requests.get('網(wǎng)址', data=data)
45.Charles和Chrome開發(fā)者工具相比,只是多了一個(gè)搜索功能。
46.需要實(shí)名認(rèn)證的打碼網(wǎng)站更加安全可靠。
47.Redis的列表是一個(gè)單向隊(duì)列
48.爬蟲中間件的激活需要另外寫一個(gè)文件來(lái)進(jìn)行
49.如果元組里面只有整數(shù)、浮點(diǎn)數(shù)、字符串、一個(gè)列表,就既不能添加數(shù)據(jù),也不能刪除數(shù)據(jù),還不能修改里面數(shù)據(jù)的值。
50.使用Charles直接抓取HTTPS的數(shù)據(jù)包,就會(huì)出現(xiàn)大量的Method為CONNECT的請(qǐng)求,但是這些請(qǐng)求又全部都會(huì)失敗,是沒有安裝SSL證書導(dǎo)致的
奧鵬,國(guó)開,廣開,電大在線,各省平臺(tái),新疆一體化等平臺(tái)學(xué)習(xí)
詳情請(qǐng)咨詢QQ : 3230981406或微信:aopopenfd777