南開23春學(xué)期《網(wǎng)絡(luò)爬蟲與信息提取》在線作業(yè)【答案】

可做奧鵬全部院校在線離線作業(yè)畢業(yè)論文QQ:3230981406 微信:aopopenfd777

發(fā)布時(shí)間:2023-07-23 01:22:58來(lái)源:admin瀏覽: 0 次

23春學(xué)期(高起本:1709-2103、專升本/高起專:1909-2103)《網(wǎng)絡(luò)爬蟲與信息提取》在線作業(yè)-00001

試卷總分:100  得分:100

一、單選題 (共 20 道試題,共 40 分)

1.當(dāng)爬蟲創(chuàng)建好了之后,可以使用"scrapy()" 命令運(yùn)行爬蟲。

A.startup

B.starwar

C.drawl

D.crawl


2.Redis中讀取數(shù)據(jù)語(yǔ)句lrange chapter 0 3,那么表示讀列表中()個(gè)值

A.2

B.3

C.4

D.5


3.PyMongo中邏輯查詢表示小于等于的符號(hào)是()

A.$gt

B.$lt

C.$gte$$lte


4.Python中把列表轉(zhuǎn)換為集合需要使用##函數(shù)

A.set

B.list

C.convert

D.change


5.HTTP常用狀態(tài)碼表明服務(wù)器內(nèi)部資源出故障了的是()

A.500

B.503

C.403

D.404


6.啟動(dòng)MongoDB使用命令mongod --() usr/local/etc/mongod.conf

A.config

B.install

C.start

D.begin


7.要使用Python來(lái)操作UI Automator從而控制手機(jī),需要安裝一個(gè)第三方庫(kù)()

A.uiautomator

B.automator

C.ui_automator

D.pyautomator


8.HTTP常用狀態(tài)碼表明服務(wù)器不允許訪問那個(gè)資源的是()

A.500

B.503

C.403

D.405


9.網(wǎng)站根目錄中哪個(gè)文件里面的內(nèi)容會(huì)告訴爬蟲哪些數(shù)據(jù)是可以爬取的,哪些數(shù)據(jù)是不可以爬取的()。

A.robot.txt

B.robot.html

C.robots.txt

D.robots.html


10.服務(wù)器端記錄信息確定用戶身份的數(shù)據(jù)是

A.session

B.cookies

C.moonpies

D.localstorage


11.使用UI Automatorr讓屏幕向左滾動(dòng)的操作是得到相應(yīng)控件后使用命令()

A.scroll.left

B.scroll.horiz.left

C.scroll.forward

D.scroll.horiz.forward


12.瀏覽器用來(lái)記錄用戶狀態(tài)信息的數(shù)據(jù)叫

A.session

B.cookies

C.moonpies

D.selenium


13.PyMongo中邏輯查詢表示大于的符號(hào)是()

A.$gt

B.$lt

C.$gte$$lte


14.Python中Object=(1, 2, 3, 4, 5),則Objcet是()

A.列表

B.元組

C.字典

D.集合


15.當(dāng)需要把Python里面的數(shù)據(jù)發(fā)送給網(wǎng)頁(yè)時(shí),需要先轉(zhuǎn)換成()字符串

A.Python

B.Json

C.正則表達(dá)式

D.Ajax


16.Python中專門用來(lái)處理圖像的第三方庫(kù)是

A.lxml

B.Pillow

C.beautifulsoup

D.pytesseract


17.以下HTTP狀態(tài)碼與302等價(jià)的是

A.301

B.303

C.304

D.307


18.下面代碼一共執(zhí)行循環(huán)多少次(): for i in range(10): print(i ** i)

A.9

B.10

C.11#0


19.MongoDB中數(shù)據(jù)存儲(chǔ)的形式類似于()

A.列表

B.元組

C.字典

D.集合


20.在Scrapy的目錄下,哪個(gè)文件負(fù)責(zé)數(shù)據(jù)抓取以后的處理工作?()

A.spiders文件夾

B.item.py

C.pipeline.py

D.settings.py


二、多選題 (共 10 道試題,共 20 分)

21.下列說(shuō)法錯(cuò)誤的是()

A.mitmproxy的強(qiáng)大之處在于它還自帶一個(gè)mitmdump命令。這個(gè)命令可以用來(lái)運(yùn)行符合一定規(guī)則的Python腳本,并在Python腳本里面直接操作HTTP和HTTPS的請(qǐng)求,以及返回的數(shù)據(jù)包。

B.命令行中執(zhí)行mitmdump -s parse_request.py即可運(yùn)行python 腳本

C.使用python可以自定義返回的數(shù)據(jù)包,如 response.headers,就是返回的頭部信息

D.如果返回的是JSON類型的字符串,python無(wú)法進(jìn)行解析。


22.下列關(guān)于mitmproxy的使用說(shuō)法正確的是()

A.mitmproxy的端口為8080端口。

B.設(shè)置好代理以后,在手機(jī)上打開一個(gè)App或者打開一個(gè)網(wǎng)頁(yè),可以看到mitmproxy上面有數(shù)據(jù)滾動(dòng)。

C.用鼠標(biāo)在終端窗口上單擊其中的任意一個(gè)請(qǐng)求,可以顯示這個(gè)數(shù)據(jù)包的詳情信息。

D.如果要訪問HTTPS網(wǎng)站,還需要安裝mitmproxy的證書


23.下載器中間件的作用有哪些?

A.更換代理IP

B.更換Cookies

C.更換User-Agent

D.自動(dòng)重試


24.以下哪種方法是MongoDB的查找方法()

A.find

B.find_one

C.finds

D.find_all


25.Python中一個(gè)函數(shù)可以有()個(gè)return語(yǔ)句

A.0

B.1

C.多個(gè)

D.2


26.MongoDB中獲取名字為db的庫(kù)的語(yǔ)句為()

A.client.db

B.client('db')

C.client['db']

D.client{'db'}


27.Python中哪種容器生成后可以修改內(nèi)容

A.列表

B.元組

C.字典

D.集合


28.Python中一個(gè)函數(shù)沒有返回值則可以寫()

A.沒有return

B.return

C.return None

D.return NULL


29.Python中()與元組由類似的數(shù)據(jù)讀取方式

A.字符串

B.列表

C.字典

D.集合


30.要使用tesseract來(lái)進(jìn)行圖像識(shí)別,需要安裝兩個(gè)第三方庫(kù)

A.requests

B.beautifulsoup

C.Pillow

D.pytesseract


三、判斷題 (共 20 道試題,共 40 分)

31.使用Charles,可以輕松截獲手機(jī)App和微信小程序的數(shù)據(jù)包,從而開發(fā)出直接抓取App后臺(tái)和小程序后臺(tái)的爬蟲。


32.MongoDB URI的格式為: mongodb://服務(wù)器IP或域名:端口@用戶名:密碼


33.如果目標(biāo)網(wǎng)站本身就是提供公眾查詢服務(wù)的網(wǎng)站,那么使用爬蟲是合法合規(guī)的。


34.當(dāng)Charles抓包以后,在Mac OS系統(tǒng)下可以按Command+F組合鍵,在Windows系統(tǒng)下按Ctrl+F組合鍵打開Charles進(jìn)行搜索


35.Scrapy每一次發(fā)起請(qǐng)求之前都會(huì)在這里檢查網(wǎng)址是否重復(fù)。因此如果確實(shí)需要再一次爬取數(shù)據(jù),在Redis中把這個(gè)Key刪除即可。


36.mitmproxy的強(qiáng)大之處在于它還自帶一個(gè)mitmdump命令。這個(gè)命令可以用來(lái)運(yùn)行符合一定規(guī)則的Python腳本


37.如果通過(guò)爬蟲抓取某公司網(wǎng)站的公開數(shù)據(jù),分析以后發(fā)現(xiàn)這個(gè)公司業(yè)績(jī)非常好。于是將數(shù)據(jù)或者分析結(jié)果出售給某基金公司,從而獲得銷售收入。這是合法的。


38.cookies在http請(qǐng)求中是明文傳輸?shù)摹?/span>


39.MongoDB支持對(duì)查詢到的結(jié)果進(jìn)行排序。排序的方法為sort()。它的格式為: handler.find().sort('列名', 1或-1或0)


40.在使用多線程處理問題時(shí),線程池設(shè)置越大越好


41.Python中使用下面代碼打開文件也需要對(duì)文件進(jìn)行close關(guān)閉操作 with open('文件路徑', '文件操作方式', encoding='utf-8') as f


42.robots.txt是一種規(guī)范,在法律范疇內(nèi)


43.上課傳紙條。A要把紙條傳給B,但是A與B距離太遠(yuǎn),于是讓C來(lái)轉(zhuǎn)交紙條。此時(shí),C先篡改紙條的內(nèi)容再傳給B,這是一種類似抓包的方式。


44.requests中g(shù)et請(qǐng)求方法的使用為requests.get('網(wǎng)址', data=data)


45.Charles和Chrome開發(fā)者工具相比,只是多了一個(gè)搜索功能。


46.需要實(shí)名認(rèn)證的打碼網(wǎng)站更加安全可靠。


47.Redis的列表是一個(gè)單向隊(duì)列


48.爬蟲中間件的激活需要另外寫一個(gè)文件來(lái)進(jìn)行


49.如果元組里面只有整數(shù)、浮點(diǎn)數(shù)、字符串、一個(gè)列表,就既不能添加數(shù)據(jù),也不能刪除數(shù)據(jù),還不能修改里面數(shù)據(jù)的值。


50.使用Charles直接抓取HTTPS的數(shù)據(jù)包,就會(huì)出現(xiàn)大量的Method為CONNECT的請(qǐng)求,但是這些請(qǐng)求又全部都會(huì)失敗,是沒有安裝SSL證書導(dǎo)致的




奧鵬,國(guó)開,廣開,電大在線,各省平臺(tái),新疆一體化等平臺(tái)學(xué)習(xí)
詳情請(qǐng)咨詢QQ : 3230981406或微信:aopopenfd777

作業(yè)咨詢 論文咨詢
微信客服掃一掃

回到頂部