23春學(xué)期(高起本:1709-2103、專升本/高起專:1909-2103)《數(shù)據(jù)科學(xué)導(dǎo)論》在線作業(yè)-00002
試卷總分:100 得分:100
一、單選題 (共 20 道試題,共 40 分)
1.一元線性回歸中,真實(shí)值與預(yù)測值的差稱為樣本的()。
A.誤差
B.方差
C.測差
D.殘差
2.在k近鄰法中,選擇較小的k值時,學(xué)習(xí)的“近似誤差”會(),“估計誤差”會()。
A.減小,減小
B.減小,增大
C.增大,減小
D.增大,增大
3.具有偏差和至少()個S型隱含層加上一個()輸出層的網(wǎng)絡(luò)能夠逼近任何有理數(shù)。
A.1,線性
B.2,線性
C.1,非線性
D.2,非線性
4.單層感知機(jī)模型屬于()模型。
A.二分類的線性分類模型
B.二分類的非線性分類模型
C.多分類的線性分類模型
D.多分類的非線性分類模型
5.多層感知機(jī)是由()層神經(jīng)元組成。
A.二
B.三
C.大于等于二層
D.大于等于三層
6.根據(jù)映射關(guān)系的不同可以分為線性回歸和()。
A.對數(shù)回歸
B.非線性回歸
C.邏輯回歸
D.多元回歸
7.聚類的最簡單最基本方法是()。
A.劃分聚類
B.層次聚類
C.密度聚類
D.距離聚類
8.以下哪一項(xiàng)不是特征選擇常見的方法()
A.過濾式
B.封裝式
C.嵌入式
D.開放式
9.實(shí)體識別屬于以下哪個過程()
A.數(shù)據(jù)清洗
B.數(shù)據(jù)集成
C.數(shù)據(jù)規(guī)約
D.數(shù)據(jù)變換
10.數(shù)據(jù)質(zhì)量檢驗(yàn)的主要任務(wù)就是檢查原始數(shù)據(jù)中是否存在“臟數(shù)據(jù)”,概括性來說,臟數(shù)據(jù)不包括以下()
A.普通值
B.異常值
C.不一致的值
D.重復(fù)值
11.以下屬于關(guān)聯(lián)分析的是( )
A.CPU性能預(yù)測
B.購物籃分析
C.自動判斷鳶尾花類別
D.股票趨勢建模
12.在一元線性回歸中,通過最小二乘法求得的直線叫做回歸直線或()。
A.最優(yōu)回歸線
B.最優(yōu)分布線
C.最優(yōu)預(yù)測線
D.最佳分布線
13.下列兩個變量之間的關(guān)系中,哪個是函數(shù)關(guān)系()。
A.人的性別和他的身高
B.人的工資與年齡
C.正方形的面積和邊長
D.溫度與濕度
14.通過構(gòu)造新的指標(biāo)-線損率,當(dāng)超出線損率的正常范圍, 則可以判斷這條線路的用戶可能存在竊漏電等異常行為屬于數(shù)據(jù)變換中的()
A.簡單函數(shù)變換
B.規(guī)范化
C.屬性構(gòu)造
D.連續(xù)屬性離散化
15.層次聚類適合規(guī)模較()的數(shù)據(jù)集
A.大
B.中
C.小
D.所有
16.在有統(tǒng)計學(xué)意義的前提下,標(biāo)準(zhǔn)化偏回歸系數(shù)的絕對值越大,說明相應(yīng)的自變量對y的作用()。
A.越小
B.越大
C.無關(guān)
D.不確定
17.以下哪一項(xiàng)不屬于數(shù)據(jù)變換()
A.簡單函數(shù)變換
B.規(guī)范化
C.屬性合并
D.連續(xù)屬性離散化
18.K-means聚類適用的數(shù)據(jù)類型是()。
A.數(shù)值型數(shù)據(jù)
B.字符型數(shù)據(jù)
C.語音數(shù)據(jù)
D.所有數(shù)據(jù)
19.設(shè)X={1,2,3}是頻繁項(xiàng)集,則可由X產(chǎn)生()個關(guān)聯(lián)規(guī)則。
A.4
B.5
C.6
D.7
20.比如一張表,從業(yè)務(wù)上講,一個用戶應(yīng)該只會有一條記錄, 那么如果某個用戶出現(xiàn)了超過一條的記錄,這就產(chǎn)生了()
A.異常值
B.不一致的值
C.重復(fù)值
D.缺失值
二、多選題 (共 10 道試題,共 20 分)
21.系統(tǒng)日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可擴(kuò)展性
D.高效率
22.多層感知機(jī)的學(xué)習(xí)過程包含()。
A.信號的正向傳播
B.信號的反向傳播
C.誤差的正向傳播
D.誤差的反向傳播
23.聚類的主要方法有()。
A.劃分聚類
B.層次聚類
C.密度聚類
D.距離聚類
24.對于多層感知機(jī),()層擁有激活函數(shù)的功能神經(jīng)元。
A.輸入層
B.隱含層
C.輸出層
25.關(guān)聯(lián)規(guī)則的評價度量主要有:()。
A.支持度
B.置信度
C.準(zhǔn)確率
D.錯誤率
26.K-means聚類中K值選取的方法是()。
A.密度分類法
B.手肘法
C.大腿法
D.隨機(jī)選取
27.什么情況下結(jié)點(diǎn)不用劃分()
A.當(dāng)前結(jié)點(diǎn)所包含的樣本全屬于同一類別
B.當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同
C.當(dāng)前結(jié)點(diǎn)包含的樣本集為空
D.還有子集不能被基本正確分類
28.數(shù)據(jù)科學(xué)具有哪些性質(zhì)()
A.有效性
B.可用性
C.未預(yù)料
D.可理解
29.一元回歸參數(shù)估計的參數(shù)求解方法有()。
A.最大似然法
B.距估計法
C.最小二乘法
D.歐式距離法
30.Apriori算法的計算復(fù)雜度受()影響。
A.支持度閾值
B.項(xiàng)數(shù)
C.事務(wù)數(shù)
D.事務(wù)平均寬度
三、判斷題 (共 20 道試題,共 40 分)
31.如果一個候選集至少有一個子集是非頻繁的,根據(jù)支持度的反單調(diào)屬性,這樣的候選項(xiàng)集肯定是非頻繁的。
32.交叉表可以幫助人們發(fā)現(xiàn)變量之間的相互作用。
33.K-means算法采用貪心策略,通過迭代優(yōu)化來近似求解。
34.Jaccard系數(shù)只關(guān)心個體間共同具有的特征是否一致這個問題。
35.對于項(xiàng)集來說,置信度沒有意義。
36.在樹的結(jié)構(gòu)中,特征越重要,就越遠(yuǎn)離根節(jié)點(diǎn)。
37.決策樹內(nèi)部結(jié)點(diǎn)表示一個類,葉結(jié)點(diǎn)表示一個特征或?qū)傩?/span>
38.樸素貝葉斯分類器有簡單、高效、健壯的特點(diǎn),但某些屬性可能會降低分類器的性能
39.決策樹學(xué)習(xí)的算法通常是一個遞歸地選擇最優(yōu)特征,并根據(jù)該特征對訓(xùn)練數(shù)據(jù)進(jìn)行分割,使得各個子數(shù)據(jù)集有一個最好的分類的過程,這一過程對應(yīng)著特征空間的劃分,也對應(yīng)著決策樹的構(gòu)建
40.關(guān)聯(lián)規(guī)則可以用枚舉的方法產(chǎn)生。
41.獲取數(shù)據(jù)為數(shù)據(jù)分析提供了素材和依據(jù),這里的數(shù)據(jù)只包括直接獲取的數(shù)據(jù)。
42.聚合方法是自底向上的方法。
43.多層感知機(jī)的學(xué)習(xí)能力有限,只能處理線性可分的二分類問題。
44.支持度是衡量關(guān)聯(lián)規(guī)則重要性的一個指標(biāo)。
45.可信度是對關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。
46.集中趨勢能夠表明在一定條件下數(shù)據(jù)的獨(dú)特性質(zhì)與差異
47.Apriori算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。
48.選擇較小的k值,相當(dāng)于用較小的鄰域中的訓(xùn)練實(shí)例進(jìn)行預(yù)測,學(xué)習(xí)的“近似誤差”會減小,“估計誤差”會增大,預(yù)測結(jié)果會對近鄰的點(diǎn)實(shí)例點(diǎn)非常敏感。
49.當(dāng)訓(xùn)練集較大的時候,標(biāo)準(zhǔn)BP算法通常會更快的獲得更好的解。
50.一般而言,信息增益越大,則意味著使用屬性a來進(jìn)行劃分所獲得的“純度提升越大”,因此我們可用信息增益來進(jìn)行決策樹的最優(yōu)特征選擇。
奧鵬,國開,廣開,電大在線,各省平臺,新疆一體化等平臺學(xué)習(xí)
詳情請咨詢QQ : 3230981406或微信:aopopenfd777