22春學(xué)期(高起本1709-1803、全層次1809-2103)《數(shù)據(jù)科學(xué)導(dǎo)論》在線作業(yè)-00003
試卷總分:100 得分:100
一、單選題 (共 20 道試題,共 40 分)
1.根據(jù)映射關(guān)系的不同可以分為線性回歸和()。
A.對數(shù)回歸
B.非線性回歸
C.邏輯回歸
D.多元回歸
2.為了解決任何復(fù)雜的分類問題,使用的感知機(jī)結(jié)構(gòu)應(yīng)至少包含()個(gè)隱含層。
A.1
B.2
C.3
D.4
3.具有偏差和至少()個(gè)S型隱含層加上一個(gè)()輸出層的網(wǎng)絡(luò)能夠逼近任何有理數(shù)。
A.1,線性
B.2,線性
C.1,非線性
D.2,非線性
4.以下哪個(gè)不是處理缺失值的方法()
A.刪除記錄
B.按照一定原則補(bǔ)充
C.不處理
D.隨意填寫
5.K-means聚類適用的數(shù)據(jù)類型是()。
A.數(shù)值型數(shù)據(jù)
B.字符型數(shù)據(jù)
C.語音數(shù)據(jù)
D.所有數(shù)據(jù)
6.單層感知機(jī)模型屬于()模型。
A.二分類的線性分類模型
B.二分類的非線性分類模型
C.多分類的線性分類模型
D.多分類的非線性分類模型
7.數(shù)據(jù)庫中相關(guān)聯(lián)的兩張表都存儲(chǔ)了用戶的個(gè)人信息,但在用戶的個(gè)人信息發(fā)生改變時(shí)只更新了一張表中的數(shù)據(jù),這時(shí)兩張表中就有了不一致的數(shù)據(jù),這屬于()
A.異常值
B.缺失值
C.不一致的值
D.重復(fù)值
8.某商品的產(chǎn)量(X,件)與單位成本(Y,元/件)之間的回歸方程為^Y=100-1.2X,這說明()。
A.產(chǎn)量每增加一臺(tái),單位成本增加100元
B.產(chǎn)量每增加一臺(tái),單位成本減少1.2元
C.產(chǎn)量每增加一臺(tái),單位成本平均減少1.2元
D.產(chǎn)量每增加一臺(tái),單位平均增加100元
9.下列兩個(gè)變量之間的關(guān)系中,哪個(gè)是函數(shù)關(guān)系()。
A.人的性別和他的身高
B.人的工資與年齡
C.正方形的面積和邊長
D.溫度與濕度
10.維克托?邁爾-舍恩伯格在《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》一書中,持續(xù)強(qiáng)調(diào)了一個(gè)觀點(diǎn):大數(shù)據(jù)時(shí)代的到來,使我們無法人為地去發(fā)現(xiàn)數(shù)據(jù)中的奧妙,與此同時(shí),我們更應(yīng)該注重?cái)?shù)據(jù)中的相關(guān)關(guān)系,而不是因果關(guān)系。其中,數(shù)據(jù)之間的相關(guān)關(guān)系可以通過以下哪個(gè)算法直接挖掘( )
A.K-means
B.Bayes Network
C.C4.5
D.Apriori
11.通過構(gòu)造新的指標(biāo)-線損率,當(dāng)超出線損率的正常范圍, 則可以判斷這條線路的用戶可能存在竊漏電等異常行為屬于數(shù)據(jù)變換中的()
A.簡單函數(shù)變換
B.規(guī)范化
C.屬性構(gòu)造
D.連續(xù)屬性離散化
12.只有非零值才重要的二元屬性被稱作:( ),其中購物籃數(shù)據(jù)就屬于這種屬性。
A.計(jì)數(shù)屬性
B.離散屬性
C.非對稱的二元屬性#對稱屬性
13.設(shè)X={1,2,3}是頻繁項(xiàng)集,則可由X產(chǎn)生()個(gè)關(guān)聯(lián)規(guī)則。
A.4
B.5
C.6
D.7
14.手肘法的核心指標(biāo)是()。
A.SES
B.SSE
C.RMSE
D.MSE
15.單層感知機(jī)是由()層神經(jīng)元組成。
A.一
B.二
C.三
D.四
16.特征選擇的四個(gè)步驟中不包括()
A.子集產(chǎn)生
B.子集評估
C.子集搜索
D.子集驗(yàn)證
17.以下哪一項(xiàng)不是特征選擇常見的方法()
A.過濾式
B.封裝式
C.嵌入式
D.開放式
18.層次聚類對給定的數(shù)據(jù)進(jìn)行()的分解。
A.聚合
B.層次
C.分拆
D.復(fù)制
19.層次聚類適合規(guī)模較()的數(shù)據(jù)集
A.大
B.中
C.小
D.所有
20.實(shí)體識(shí)別的常見形式()
A.同名異義
B.異名同義
C.單位不統(tǒng)一
D.屬性不同
二、多選題 (共 10 道試題,共 20 分)
21.多層感知機(jī)的學(xué)習(xí)過程包含()。
A.信號的正向傳播
B.信號的反向傳播
C.誤差的正向傳播
D.誤差的反向傳播
22.系統(tǒng)日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可擴(kuò)展性
D.高效率
23.K-means聚類中K值選取的方法是()。
A.密度分類法
B.手肘法
C.大腿法
D.隨機(jī)選取
24.Apriori算法的計(jì)算復(fù)雜度受()影響。
A.支持度閾值
B.項(xiàng)數(shù)
C.事務(wù)數(shù)
D.事務(wù)平均寬度
25.k近鄰法的基本要素包括()。
A.距離度量
B.k值的選擇
C.樣本大小
D.分類決策規(guī)則
26.一元回歸參數(shù)估計(jì)的參數(shù)求解方法有()。
A.最大似然法
B.距估計(jì)法
C.最小二乘法
D.歐式距離法
27.對于多層感知機(jī),()層擁有激活函數(shù)的功能神經(jīng)元。
A.輸入層
B.隱含層
C.輸出層
28.數(shù)據(jù)科學(xué)具有哪些性質(zhì)()
A.有效性
B.可用性
C.未預(yù)料
D.可理解
29.關(guān)聯(lián)規(guī)則的評價(jià)度量主要有:()。
A.支持度
B.置信度
C.準(zhǔn)確率
D.錯(cuò)誤率
30.距離度量中的距離可以是()
A.歐式距離
B.曼哈頓距離
C.Lp距離
D.Minkowski距離
三、判斷題 (共 20 道試題,共 40 分)
31.啤酒與尿布的故事是聚類分析的典型實(shí)例。
32.赤池信息準(zhǔn)則是衡量統(tǒng)計(jì)模型擬合優(yōu)良性的一種標(biāo)準(zhǔn)。
33.隨著特征維數(shù)的增加,樣本間區(qū)分度提高。
34.探索性數(shù)據(jù)分析的特點(diǎn)是研究從原始數(shù)據(jù)入手,完全以實(shí)際數(shù)據(jù)為依據(jù)。
35.一般而言,信息增益越大,則意味著使用屬性a來進(jìn)行劃分所獲得的“純度提升越大”,因此我們可用信息增益來進(jìn)行決策樹的最優(yōu)特征選擇。
36.Pearson相關(guān)系數(shù)是判斷特征之間、以及特征和目標(biāo)變量之間線性相關(guān)關(guān)系的統(tǒng)計(jì)量。
37.BFR聚類簇的坐標(biāo)可以與空間的坐標(biāo)保持一致。
38.在一元線性回歸中,輸入只包含一個(gè)單獨(dú)的特征。
39.為了更加準(zhǔn)確地描述變量之間的線性相關(guān)程度,可以通過計(jì)算相關(guān)系數(shù)來進(jìn)行相關(guān)分析。
40.K均值(K-Means)算法是密度聚類。
41.數(shù)據(jù)分析師的任務(wù):用模型來回答具體問題,了解數(shù)據(jù),其來源和結(jié)構(gòu)
42.交叉表被廣泛用于調(diào)查研究,商業(yè)智能,工程和科學(xué)研究
43.獲取數(shù)據(jù)的方式有多種,可以從網(wǎng)頁、測量、數(shù)據(jù)庫、傳統(tǒng)媒體、監(jiān)控等等方式
44.如果一個(gè)候選集至少有一個(gè)子集是非頻繁的,根據(jù)支持度的反單調(diào)屬性,這樣的候選項(xiàng)集肯定是非頻繁的。
45.對于項(xiàng)集來說,置信度沒有意義。
46.神經(jīng)網(wǎng)絡(luò)中誤差精度的提高可以通過增加隱含層中的神經(jīng)元數(shù)目來實(shí)現(xiàn)。
47.給定關(guān)聯(lián)規(guī)則A→B,意味著:若A發(fā)生,B也會(huì)發(fā)生。
48.隨著特征維數(shù)的增加,特征空間呈指數(shù)倍增長,樣本密度急劇減小,樣本稀疏。
49.一個(gè)人的身高與體重之間具有函數(shù)關(guān)系。
50.選擇較小的k值,相當(dāng)于用較小的鄰域中的訓(xùn)練實(shí)例進(jìn)行預(yù)測,學(xué)習(xí)的“近似誤差”會(huì)減小,“估計(jì)誤差”會(huì)增大,預(yù)測結(jié)果會(huì)對近鄰的點(diǎn)實(shí)例點(diǎn)非常敏感。
奧鵬,國開,廣開,電大在線,各省平臺(tái),新疆一體化等平臺(tái)學(xué)習(xí)
詳情請咨詢QQ : 3230981406或微信:aopopenfd777