可做奧鵬院校所有作業(yè),畢業(yè)論文,咨詢請?zhí)砑観Q:3230981406 微信:aopopenfd777
[南開大學]20秋學期(1709、1803、1809、1903、1909、2003、2009 )《數(shù)據(jù)分析》在線作業(yè)
試卷總分:100 得分:100
第1題,()反映了學習方法對未知的測試數(shù)據(jù)集的預測能力,是學習中的重要概念
A、訓練誤差
B、測試誤差
C、統(tǒng)計誤差
D、平均誤差
正確答案:
第2題,支持向量機的MapReduce實現(xiàn)要進行幾輪MapReduce()
A、1
B、2
C、3
D、自行規(guī)定
正確答案:
第3題,類的R型聚類是指()
A、對樣本個體進行聚類
B、對指標變量進行聚類。
正確答案:
第4題,在估計PLSA生成模型的參數(shù)時,使用()
A、極大似然估計
B、對數(shù)似然函數(shù)
C、特征獨立假設
D、貝葉斯定理
正確答案:
答案來源:(www.),在鏈接作弊的垃圾農(nóng)場中,作弊者擁有并完全控制的網(wǎng)頁稱為()
A、不可達網(wǎng)頁
B、可達網(wǎng)頁
C、自有網(wǎng)頁
正確答案:
第6題,潛在語義分析創(chuàng)新地引入了()
A、單詞維度
B、文本維度
C、話題維度
正確答案:
第7題,非頻繁模式( )
A、其置信度小于閾值
B、令人不感興趣
C、包含負模式和負相關模式
D、對異常數(shù)據(jù)項敏感
正確答案:
第8題,置信度(confidence)是衡量興趣度度量( )的指標
A、簡潔性
B、確定性
C、實用性
D、新穎性
正確答案:
第9題,決策樹中的葉結點表示()
A、特征
B、類
C、屬性
D、值域輸出
正確答案:
答案來源:(www.),數(shù)據(jù)產(chǎn)生方式變革中數(shù)據(jù)產(chǎn)生方式是主動的主要是來自哪個階段( )。
A、運營式系統(tǒng)階段
B、用戶原創(chuàng)內容階段
C、感知式系統(tǒng)階段
正確答案:
第11題,文本中所有單詞的出現(xiàn)情況表示了文本的()
A、種類
B、特征
C、語義內容
D、語義結構
正確答案:
答案來源:(www.),閔式距離參數(shù)是()時代表曼哈頓距離
A、0
B、1
C、2
D、無窮
正確答案:
第13題,為了計算中介度,必須計算所有邊上()的數(shù)目。
A、所有路徑
B、最短路徑
C、結點入度
D、節(jié)點出度
正確答案:
第14題,聚類屬于()
A、有監(jiān)督學習
B、無監(jiān)督學習
C、強化學習
D、對抗學習
正確答案:
答案來源:(www.),評價分類器效果時,表示正確分類的樣本數(shù)與總樣本數(shù)之比的指標是()。
A、準確率
B、精確率
C、召回率
D、F1值
正確答案:
第16題,邏輯斯諦分布的分布函數(shù)范圍在()
A、(-∞,+∞)
B、(0,1)
C、(-1/2,1/2)
D、(-1,1)
正確答案:
第17題,Apriori算法的加速過程依賴于以下哪個策略( )
A、抽樣
B、剪枝
C、緩沖
D、并行
正確答案:
第18題,向量空間模型中,將單詞在文本中出現(xiàn)的數(shù)據(jù)用一個()表示
A、單詞-文本矩陣
B、單詞-向量矩陣
C、距離矩陣
D、權重矩陣
正確答案:
第19題,潛在語義分析中,以()表示文本的語義內容
A、話題
B、話題向量
C、語義向量
D、距離向量
正確答案:
答案來源:(www.),KNN算法用MapReduce實現(xiàn),要進行幾輪MapReduce()
A、1
B、2
C、3
D、4
正確答案:
第21題,按社團形成機制分類,社團包括()
A、明顯的社團
B、預定義社團
C、自組織社團
D、隱含的社團
正確答案:,C
第22題,決策樹的生成過程是()
A、遞歸地進行下去,直至所有訓練據(jù)子集被基本正確分類,或者沒有合適的特征為止,最后每個子集都被分到葉結點上,即都有了明確的類
B、如果這些子集已經(jīng)能夠被基本正確分類,那么構建葉結點,并將這些子集分到所對應的葉結點中去
C、構建根結點,將所有訓練數(shù)據(jù)都放在根結點
D、選擇一個最優(yōu)特征,按照這一特征將訓練數(shù)據(jù)集分割成子集,使得各個子集有一個在當前條件下最好的分類
E、如果還有子集不能被基本正確分類,那么就對這些子集選擇新的最優(yōu)特征,繼續(xù)對其進行分割,構建相應的結點
正確答案:
第23題,回歸分析方法中,按照輸入變量個數(shù)分類,可分為
A、一元回歸
B、多元回歸
C、線性回歸
D、非線性回歸
正確答案:
第24題,下列哪些任務適合構建分類模型()
A、銀行業(yè)務中,客戶申請貸款,根據(jù)客戶的相關數(shù)據(jù)分析他是屬于"誠信"類還是"失信"類
B、郵件系統(tǒng)可以根據(jù)email標題和內容區(qū)分出垃圾郵件
C、醫(yī)學研究人員根據(jù)病理數(shù)據(jù),合理辨識病情狀況,采取合理治療手段
D、房價預測
正確答案:
答案來源:(www.),ID3算法流程為()
A、從根結點開始,對結點計算所有可能的特征的信息增益,選擇信息增益最大的特征作為結點的特征,由該特征的不同取值建立子結點
B、所有特征的信息增益均很小或沒有特征可以選擇
C、得到一個決策樹
D、對子結點遞歸地調用,構建決策樹
正確答案:
第26題,大數(shù)據(jù)在電信中的應用有
A、基于用戶、業(yè)務及流量分級的多維管控機制
B、精準的客戶分析及營銷
C、利用位置和軌跡信息服務社會
正確答案:,B,C
第27題,統(tǒng)計學習方法的組成
A、監(jiān)督學習
B、無監(jiān)督學習
C、強化學習
正確答案:
第28題,大數(shù)據(jù)在教育中的應用
A、網(wǎng)上公開課
B、慕課
C、智慧校園
D、翻轉課堂
正確答案:,B,C,D
第29題,下列屬于樸素貝葉斯缺點的是()
A、分類效果不穩(wěn)定
B、不適合增量式訓練
C、先驗模型可能導致結果不佳
D、對缺失數(shù)據(jù)不太敏感
正確答案:,D
答案來源:(www.),基于分類對象的分類有()
A、Q型聚類
B、凝聚方式
C、R型聚類
D、分解方式
正確答案:
第31題,kNN算法中,選擇較大的k值"學習"的估計誤差會減小。()
T、對
F、錯
正確答案:
第32題,SVM是在特征空間上的間隔最大的線性分類器。()
T、對
F、錯
正確答案:
第33題,可信度是對關聯(lián)規(guī)則的準確度的衡量。
T、對
F、錯
更多答案下載:(www.)
第34題,要防止過擬合,進行最優(yōu)的模型選擇,即選擇復雜度最適當?shù)哪P停赃_到使測試誤差最小的學習目的
T、對
F、錯
正確答案:
第35題,如果一個網(wǎng)頁被很多網(wǎng)頁所指向,那么該網(wǎng)頁很可能是重要的。()
T、對
F、錯
正確答案:
第36題,FP-growth算法可以避免冗余的IO讀寫
T、對
F、錯
更多答案下載:(www.)
第37題,通過分析已知訓練樣本類別的數(shù)據(jù)集屬性,通過訓練建立相應分類模型,是監(jiān)督學習。()
T、對
F、錯
正確答案:
第38題,大數(shù)據(jù)的速度快體現(xiàn)在數(shù)據(jù)產(chǎn)生速度快和要求分析處理速度快
T、對
F、錯
更多答案下載:(www.)
第39題,ID3算法的核心是在決策樹葉結點上應用信息增益準則選擇特征,遞歸地構建決策樹。
T、對
F、錯
正確答案:
第40題,數(shù)據(jù)采集,又稱數(shù)據(jù)獲取,是大數(shù)據(jù)生命周期的第一個環(huán)節(jié),通過RFID射頻識別技術、傳感器、交互型社交網(wǎng)絡以及移動互聯(lián)網(wǎng)等方式獲得的各種類型的結構化、半結構化及非結構化的海量數(shù)據(jù)。
T、對
F、錯
正確答案:
第41題,TrustRank算法中,創(chuàng)建優(yōu)質網(wǎng)頁集合時,不會選擇成員受限的域名。
T、對
F、錯
正確答案:
第42題,聚類分析中,一個類是樣本的一個子集。
T、對
F、錯
正確答案:
第43題,決策樹中為了防止過擬合現(xiàn)象可以對已生成的樹自上而下剪枝。()
T、對
F、錯
正確答案:
第44題,k均值聚類是硬聚類。()
T、對
F、錯
正確答案:
第45題,關聯(lián)規(guī)則可以用枚舉的方法產(chǎn)生。
T、對
F、錯
更多答案下載:(www.)
第46題,DAG中的父節(jié)點是唯一的。
T、對
F、錯
正確答案:F
第47題,PageRank算法是圖數(shù)據(jù)上的無監(jiān)督學習方法。()
T、對
F、錯
正確答案:
第48題,TF-IDF算法中,IDF指的是文檔頻率
T、對
F、錯
正確答案:
第49題,監(jiān)督學習是從標注數(shù)據(jù)中學習預測模型的機器學習問題
T、對
F、錯
正確答案:
答案來源:(www.),樸素貝葉斯等價于期望風險最小化。()
T、對
F、錯
正確答案:

