可做奧鵬院校所有作業(yè),畢業(yè)論文,咨詢請?zhí)砑観Q:3230981406 微信:aopopenfd777
《數(shù)據(jù)分析》20春期末考核
一、單選題 (共 20 道試題,共 20 分)
1.以下屬于關(guān)聯(lián)分析的是( )
A.CPU性能預(yù)測
B.購物籃分析
C.自動判斷鳶尾花類別
D.股票趨勢建模
正確答案:
2.潛在語義分析中,以()表示文本的語義內(nèi)容
A.話題
B.話題向量
C.語義向量
D.距離向量
正確答案:
3.聚類屬于()
A.有監(jiān)督學(xué)習(xí)
B.無監(jiān)督學(xué)習(xí)
C.強(qiáng)化學(xué)習(xí)
D.對抗學(xué)習(xí)
正確答案:
4.特征空間中兩個實例點(diǎn)的()是兩個實例點(diǎn)相似程度的反映。
A.關(guān)聯(lián)性
B.向量值
C.距離
正確答案:
5.閔式距離參數(shù)是()時代表曼哈頓距離
A.0
B.1
C.2
D.無窮
正確答案:
6.在文本信息處理系統(tǒng)中,所處理的原始數(shù)據(jù)是()
A.結(jié)構(gòu)化的自然語言文本
B.非結(jié)構(gòu)化的自然語言文本
C.非結(jié)構(gòu)化的編碼
D.結(jié)構(gòu)化的編碼
正確答案:
7.邏輯斯諦函數(shù)是一條()曲線
A.拋物線
B.三角函數(shù)
C.S型曲線
D.直線
正確答案:
8.聚類過程為()
A.數(shù)據(jù)準(zhǔn)備,特征選擇,特征提取,聚類,結(jié)果評估
B.數(shù)據(jù)準(zhǔn)備,特征提取,特征選擇,聚類,結(jié)果評估
C.數(shù)據(jù)準(zhǔn)備,特征提取,聚類,特征選擇,結(jié)果評估
正確答案:
9.評價分類器效果時,表示將正類樣本預(yù)測為正類數(shù)與總預(yù)測為正類數(shù)之比的指標(biāo)是()。
A.準(zhǔn)確率
B.精確率
C.召回率
D.F1值
正確答案:
10.KNN算法用MapReduce實現(xiàn),要進(jìn)行幾輪MapReduce()
A.1
B.2
C.3
D.4
正確答案:
11.在估計PLSA生成模型的參數(shù)時,使用()
A.極大似然估計
B.對數(shù)似然函數(shù)
C.特征獨(dú)立假設(shè)
D.貝葉斯定理
正確答案:
12.LDA導(dǎo)入先驗分布是為了應(yīng)對()現(xiàn)象
A.欠擬合
B.話題識別不準(zhǔn)
C.過擬合
D.分詞困難
正確答案:
13.類的R型聚類是指()
A.對樣本個體進(jìn)行聚類
B.對指標(biāo)變量進(jìn)行聚類。
正確答案:
14.決策樹中的葉結(jié)點(diǎn)表示()
A.特征
B.類
C.屬性
D.值域輸出
正確答案:
15.pageRank中,將網(wǎng)頁鏈接轉(zhuǎn)化為()"投票"。
A.搜索量
B.評價
C.訪問量
D.重要度
正確答案:
16.HITS算法中,網(wǎng)頁的重要性應(yīng)該依賴于()
A.每個網(wǎng)頁上的超鏈接個數(shù)
B.用戶提出的查詢請求
C.網(wǎng)頁上超鏈接重要性
正確答案:
17.算法中用到了外存的算法是()
A.隨機(jī)算法
B.外存算法
C.并行算法
D.Anytime算法
正確答案:
18.決策樹中的分支表示()
A.特征
B.類
C.屬性
D.值域輸出
正確答案:
19.非頻繁模式( )
A.其置信度小于閾值
B.令人不感興趣
C.包含負(fù)模式和負(fù)相關(guān)模式
D.對異常數(shù)據(jù)項敏感
正確答案:
20.度量距離中,表示各個坐標(biāo)距離最大值的是()
A.歐氏距離
B.曼哈頓距離
C.切比雪夫距離
正確答案:
二、多選題 (共 20 道試題,共 40 分)
21.關(guān)聯(lián)規(guī)則用于查找項目集合或?qū)ο蠹现g的()
A.頻繁模式
B.關(guān)聯(lián)
C.相關(guān)性
D.因果結(jié)構(gòu)
正確答案:BCD
22.Q型聚類的結(jié)果具有()的特點(diǎn)
A.直觀
B.細(xì)致
C.全面
D.合理
正確答案:BCD
23.決策樹中的信息增益等價于()中類與特征的()
A.訓(xùn)練數(shù)據(jù)
B.測試數(shù)據(jù)
C.交叉熵
D.互信息
正確正確答案:
24.下面哪些屬于分類算法()
A.SVM
B.決策樹
C.KMeans
D.樸素貝葉斯
正確答案:BD
25.向量空間模型中,是將()看成()
A.文檔
B.單詞
C.詞袋
D.編碼
正確答案:B
26.大數(shù)據(jù)在醫(yī)療中的應(yīng)用有()
A.流行性疾病預(yù)防
B.慢性病健康管理
C.臨床決策支持
D.醫(yī)療器械研發(fā)
正確答案:BCD
27.下列屬于樸素貝葉斯缺點(diǎn)的是()
A.分類效果不穩(wěn)定
B.不適合增量式訓(xùn)練
C.先驗?zāi)P涂赡軐?dǎo)致結(jié)果不佳
D.對缺失數(shù)據(jù)不太敏感
正確正確答案:
28.下列屬于樸素貝葉斯優(yōu)點(diǎn)的是()
A.有穩(wěn)定的分類效率
B.對小規(guī)模的數(shù)據(jù)表現(xiàn)很好
C.對缺失數(shù)據(jù)敏感
D.分類決策錯誤率很低
正確答案:B
29.大數(shù)據(jù)在社交網(wǎng)絡(luò)中的應(yīng)用
A.用戶偏好、情感、社交網(wǎng)絡(luò)結(jié)構(gòu)
B.用戶畫像、精準(zhǔn)推薦
C.輿情監(jiān)控、突發(fā)事件預(yù)警
D.預(yù)測外部趨勢
正確答案:BCD
30.以下哪些統(tǒng)計量可以反映數(shù)據(jù)的集中趨勢
A.均值
B.中位數(shù)
C.方差(標(biāo)準(zhǔn)差)
D.眾數(shù)
正確答案:BD
31.按社團(tuán)形成機(jī)制分類,社團(tuán)包括()
A.明顯的社團(tuán)
B.預(yù)定義社團(tuán)
C.自組織社團(tuán)
D.隱含的社團(tuán)
正確正確答案:
32.聚類方法中的劃分方法包括()
A.K-均值算法
B.凝聚法
C.分裂法
D.K-中心點(diǎn)算法
正確正確答案:
33.關(guān)聯(lián)分析的作用是什么()
A.用于發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性
B.用于發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的相關(guān)性
C.描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律
D.描述了一個事物中某些屬性同時出現(xiàn)的模式
正確答案:BCD
34.大數(shù)據(jù)在教育中的應(yīng)用
A.網(wǎng)上公開課
B.慕課
C.智慧校園
D.翻轉(zhuǎn)課堂
正確答案:BCD
35.以下什么問題可以歸為回歸問題()
A.市場趨勢預(yù)測
B.產(chǎn)品質(zhì)量管理
C.客戶滿意度調(diào)查
D.投資風(fēng)險分析
正確答案:BCD
36.借助于大數(shù)據(jù)提供的()和(),政府可為農(nóng)業(yè)生產(chǎn)進(jìn)行合理引導(dǎo),依據(jù)需求進(jìn)行生產(chǎn),避免產(chǎn)能過剩造成不必要的資源和社會財富浪費(fèi)。
A.消費(fèi)能力
B.趨勢報告
C.購物結(jié)果
正確答案:B
37.類的特征可以通過不同角度來刻畫,包括()
A.類的均值
B.類的直徑
C.類的樣本散布矩陣
D.樣本協(xié)方差矩陣
正確答案:BCD
38.按主題分類,社團(tuán)包括()
A.明顯的社團(tuán)
B.預(yù)定義社團(tuán)
C.自組織社團(tuán)
D.隱含的社團(tuán)
正確正確答案:
39.隨機(jī)游走的馬爾可夫鏈中,互聯(lián)網(wǎng)中的每一個網(wǎng)頁就是馬爾可夫鏈中的一個();該馬爾可夫鏈平穩(wěn)時每個狀態(tài)停留的概率即反映了相應(yīng)網(wǎng)頁的()。
A.序列
B.隱變量
C.狀態(tài)
D.重要程度
正確正確答案:
40.鏈接分析是對網(wǎng)絡(luò)鏈接的()等各種現(xiàn)象進(jìn)行分析
A.自身屬性
B.鏈接對象
C.鏈接網(wǎng)絡(luò)
正確答案:BC
三、答案來源:(www.) (共 10 道試題,共 10 分)
41.kNN不需存儲所有的樣本
答案:錯誤
42.城市公共交通規(guī)劃、教育資源配置、醫(yī)療資源配置、商業(yè)中心建設(shè)、房地產(chǎn)規(guī)劃、產(chǎn)業(yè)規(guī)劃、城市建設(shè)等都可以借助于大數(shù)據(jù)技術(shù)進(jìn)行良好的規(guī)劃和動態(tài)調(diào)整。
答案:正確
43.麥肯錫研究院發(fā)布的報告Big Data: The next frontier for innovation, competition, and productivity, 第一次給大數(shù)據(jù)做出了相對清晰的定義
答案:正確
44.k均值聚類中,每個樣本只能屬于一個類。()
答案:正確
45.推薦系統(tǒng)根據(jù)用戶的興趣特點(diǎn)和購買行為,向用戶提供建議
答案:正確
46.大數(shù)據(jù)在行業(yè)應(yīng)用很廣泛,行業(yè)領(lǐng)域包括電視媒體,汽車行業(yè),醫(yī)療行業(yè),保險行業(yè)等等。
答案:正確
47.網(wǎng)絡(luò)數(shù)據(jù)采集是利用互聯(lián)網(wǎng)搜索引擎技術(shù)對數(shù)據(jù)進(jìn)行針對性、行業(yè)性、精準(zhǔn)性的抓取,并按照一定規(guī)則和篩選標(biāo)準(zhǔn)將數(shù)據(jù)進(jìn)行歸類,形成數(shù)據(jù)庫文件的一個過程。
答案:正確
48.DAG中的父節(jié)點(diǎn)是唯一的。
答案:錯誤
49.文本分析是結(jié)構(gòu)大數(shù)據(jù)分析的一個基本問題。()
答案:錯誤
50.大數(shù)據(jù)分析模型討論的問題是從大數(shù)據(jù)中發(fā)現(xiàn)什么
答案:正確
四、更多答案下載:(www.) (共 1 道試題,共 6 分)
51.簡述概率潛在語義分析PLSA的特點(diǎn)和基本想法。
答案:概率潛在語義分析(probabilistic latent semantic analysis, PLSA),是一種利用概率生成模型對文本集合進(jìn)行話題分析的無監(jiān)督學(xué)習(xí)方法。模型的最大特點(diǎn)是用隱變量表示話題;整個模型表示文本生成話題,話題生成單詞,從而得到單詞一文本共現(xiàn)數(shù)據(jù)的過程;假設(shè)每個文本由一個話題分布決定,每個話題由一個單詞分布決定。<br>給定一個文本集合,每個文本討論若干個話題,每個話題由若干個單詞表示。對文本集合進(jìn)行概率潛在語義分析,就能夠發(fā)現(xiàn)每個文本的話題,以及每個話題的單詞。話題是不能從數(shù)據(jù)中直接觀察到的,是潛在的。文本集合轉(zhuǎn)換為文本--單詞共現(xiàn)數(shù)據(jù),具體表現(xiàn)為單詞-文本矩陣。一個話題表示一個語義內(nèi)容。文本數(shù)據(jù)基于如下的概率模型產(chǎn)生:首先有話題的概率分布,然后有話題給定條件下文本的條件概率分布,以及話題給定條件下單詞的條件概率分布。概率潛在語義分析就是發(fā)現(xiàn)由隱變量表示的話題,即潛在語義。直觀上,語義相近的單詞、語義相近的文本會被聚到相同的"軟的類別"中,而話題所表示的就是這樣的軟的類別。<br>假設(shè)定義了K個話題和M個單詞。任何一個文本是由K個話題中的多個混合而成。每個文本都可以看作話題集合上的一個概率分布,也就是每個文本以某個概率匹配某一個話題。每個話題都是單詞集合上的一個概率分布,這意味著文本中的每個單詞都看成是由某一個的話題以某種概率隨機(jī)生成的。<br><br>
五、更多答案下載:(www.) (共 3 道試題,共 15 分)
52.層次聚類算法分為哪兩種方法?簡述這兩個層次聚類算法。
答案:層次聚類算法是假設(shè)類別之間存在層次結(jié)構(gòu),將樣本聚到層次化的類中。<br>層次聚類又有聚合或自底向上聚類、分裂或自頂向下聚類兩種方法。<br>聚合聚類開始將每個樣本各自分到一個類,之后將相距最近的兩類合并,建立一個新的類,重復(fù)此操作直到滿足終止條件,得到層次化的類別。<br>分裂聚類開始將所有樣本分到一個類,之后將已有類中相距最遠(yuǎn)的樣本分到兩個新的類,重復(fù)此操作直到滿足停止條件,得到層次化的類別。<br><br>
53.簡述支持向量機(jī)的基本模型。
答案:支持向量機(jī)的基本模型是定義在特征空間上的間隔最大的線性分類器,其學(xué)習(xí)策略是間隔最大化,可形式化為一個求解凸二次規(guī)劃的問題,其學(xué)習(xí)算法是求解凸二次規(guī)劃的最優(yōu)化算法。
54.試比較PageRank算法和HITS算法。
答案:相同點(diǎn):兩者都是為了提高搜索引擎查找質(zhì)量而提出的兩種不同算法。<br>不同點(diǎn):1)兩者對網(wǎng)頁的描述形式不同。<br>PageRank算法只用一個量值來表示網(wǎng)頁的重要程度,而HITS算法對網(wǎng)頁從權(quán)威性和集線性兩個不同的方面來進(jìn)行描述。<br>2)兩者的理論基礎(chǔ)不同。雖然兩者的迭代算法都利用了特征向量作為理論基礎(chǔ)和收斂性依據(jù),但PageRank算法更具理論支持,它用馬爾可夫隨機(jī)游走來建模,并用馬氏鏈的理論來進(jìn)行解釋;而HITS算法更多是基于人的直觀,缺乏很好的理論模型。<br>3)兩者計算所選取的鏈接網(wǎng)絡(luò)不同。PageRank算法與用戶查詢無關(guān),針對的是整個互聯(lián)網(wǎng)的鏈接結(jié)構(gòu)圖,所有處理過程都是離線進(jìn)行的,不會為實時在線查詢過程付出額外的代價。HITS算法則不同,它依賴于特定的查詢,是針對與特定查詢相關(guān)的互聯(lián)網(wǎng)子圖來進(jìn)行計算,規(guī)模上的極大減小可以使HITS算法的迭代收斂速度比PageRank算法要快得多。但因為與查詢相關(guān),所以查詢過程以及擴(kuò)展根集的過程都需要付出代價,還有可能在擴(kuò)展過程中,引入大量的噪聲信息,造成主題漂移出現(xiàn)。<br>以前的研究工作已經(jīng)證明HITS算法的性能跟PageRank算法旗鼓相當(dāng)、不相上下。<br><br>
六、更多答案下載:(www.) (共 3 道試題,共 9 分)
55.S折交叉驗證
答案:S折交叉驗證(S-fold cross validation)方法如下:首先隨機(jī)地將已給數(shù)據(jù)切分為S個互不相交的大小相同的子集;然后利用S一1個子集的數(shù)據(jù)訓(xùn)練模型,利用余下的子集測試模型;將這一過程對可能的S種可能(即劃分后,把每個子集都當(dāng)一次測試集其余訓(xùn)練集)重復(fù)進(jìn)行;最后選出S次評測中平均測試誤差最小的模型.<br><br>
56.類間的中心距離
答案:一個類中所有樣本的均值,即類的中心。類間的中心距離使用兩類中心之間的距離作為兩類間的距離。<br><br>
57.鄰接矩陣
答案:如果結(jié)點(diǎn)i和j之間有邊,則矩陣的第i行、第j列的元素為1,否則為0。<br><br>

