【南開】《數據科學導論》20春期末考核(標準答案)

可做奧鵬全部院校在線離線作業(yè)畢業(yè)論文QQ:3230981406 微信:aopopenfd777

發(fā)布時間:2020/9/6 2:56:02來源:admin瀏覽: 271 次

《數據科學導論》20春期末考核-00001

試卷總分:100  得分:100

一、單選題 (共 15 道試題,共 30 分)

1.下面不是分類的常用方法的有()

A.K近鄰法

B.樸素貝葉斯

C.決策樹

D.條件隨機場

答案:D

 

2.BFR聚類用于在()歐氏空間中對數據進行聚類

A.高維

B.中維

C.低維

D.中高維

答案:A

3.聚類是一種()。

A.有監(jiān)督學習

B.無監(jiān)督學習

C.強化學習

D.半監(jiān)督學習

答案:B

 

4.數據庫中相關聯的兩張表都存儲了用戶的個人信息,但在用戶的個人信息發(fā)生改變時只更新了一張表中的數據,這時兩張表中就有了不一致的數據,這屬于()

A.異常值

B.缺失值

C.不一致的值

D.重復值

 

5.某商品的產量(X,件)與單位成本(Y,元/件)之間的回歸方程為^Y=100-1.2X,這說明()。

A.產量每增加一臺,單位成本增加100元

B.產量每增加一臺,單位成本減少1.2元

C.產量每增加一臺,單位成本平均減少1.2元

D.產量每增加一臺,單位平均增加100元

 

6.在k近鄰法中,選擇較小的k值時,學習的“近似誤差”會(),“估計誤差”會()。

A.減小,減小

B.減小,增大

C.增大,減小

D.增大,增大

 

7.在回歸分析中,自變量為(),因變量為()。

A.離散型變量,離散型變量

B.連續(xù)型變量,離散型變量

C.離散型變量,連續(xù)型變量

D.連續(xù)型變量,連續(xù)型變量

 

8.手肘法的核心指標是()。

A.SES

B.SSE

C.RMSE

D.MSE

 

9.特征選擇的四個步驟中不包括()

A.子集產生

B.子集評估

C.子集搜索

D.子集驗證

 

10.一元線性回歸中,真實值與預測值的差稱為樣本的()。

A.誤差

B.方差

C.測差

D.殘差

 

11.K-means聚類適用的數據類型是()。

A.數值型數據

B.字符型數據

C.語音數據

D.所有數據

 

12.以下哪些不是缺失值的影響()

A.數據建模將丟失大量有用信息

B.數據建模的不確定性更加顯著

C.對整體總是不產生什么作用

D.包含空值的數據可能會使建模過程陷入混亂,導致異常的輸出

 

13.下列兩個變量之間的關系中,哪個是函數關系()。

A.人的性別和他的身高

B.人的工資與年齡

C.正方形的面積和邊長

D.溫度與濕度

 

14.考慮下面的頻繁3-項集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數據集中只有5個項,采用 合并策略,由候選產生過程得到4-項集不包含()

A.1,2,3,4

B.1,2,3,5

C.1,2,4,5

D.1,3,4,5

 

15.單層感知機模型屬于()模型。

A.二分類的線性分類模型

B.二分類的非線性分類模型

C.多分類的線性分類模型

D.多分類的非線性分類模型

 

二、多選題 (共 5 道試題,共 10 分)

16.系統日志收集的基本特征有()

A.高可用性

B.高可靠性

C.可擴展性

D.高效率

 

17.距離度量中的距離可以是()

A.歐式距離

B.曼哈頓距離

C.Lp距離

D.Minkowski距離

 

18.K-means聚類中K值選取的方法是()。

A.密度分類法

B.手肘法

C.大腿法

D.隨機選取

 

19.多層感知機的學習過程包含()。

A.信號的正向傳播

B.信號的反向傳播

C.誤差的正向傳播

D.誤差的反向傳播

 

20.一元回歸參數估計的參數求解方法有()。

A.最大似然法

B.距估計法

C.最小二乘法

D.歐式距離法

 

三、判斷題 (共 15 道試題,共 30 分)

21.Jaccard系數只關心個體間共同具有的特征是否一致這個問題。

 

22.標準BP算法是在讀取全部數據集后,對參數進行統一更新的算法。

 

23.使用SVD方法進行圖像壓縮不可以保留圖像的重要特征。

 

24.特征選擇和降維都是用于減少特征數量,進而降低模型復雜度、防止過度擬合。

 

25.一個人的身高與體重之間具有函數關系。

 

26.K均值(K-Means)算法是密度聚類。

 

27.數據科學可以回答復雜的問題,發(fā)現世界中隱藏的聯系并預測和指導未來。

 

28.選擇較小的k值,相當于用較小的鄰域中的訓練實例進行預測,學習的“近似誤差”會減小,“估計誤差”會增大,預測結果會對近鄰的點實例點非常敏感。

 

29.利用K近鄰法進行分類時,使用不同的距離度量所確定的最近鄰點都是相同的。

 

30.對于項集來說,置信度沒有意義。

 

31.每個類的先驗概率可以通過屬于該類的訓練記錄所占的比例來估計。

 

32.當維度增加時,特征空間的體積增加得很快,使得可用的數據變得稠密。

 

33.利用K近鄰法進行分類時,k值過小容易發(fā)生過擬合現象。

 

34.聚合方法是自底向上的方法。

 

35.平均減少的不純度越大,則特征重要度越高。

 

四、主觀填空題 (共 5 道試題,共 10 分)

36.##感知機足以解決任何復雜的分類問題。

 

判定系數取值范圍為[0,1],判定系數越接近##,表明變量之間的相關性越強。

 

38.在線性回歸分析中,當輸入特征的維度從一維增加到d維(d>1),則該問題為##問題。

 

39.多元線性回歸中,在有統計學意義的前提下,標準化偏回歸系數的絕對值越大,說明相應的自變量對y的作用##。

 

40.在k近鄰法中,通常采用##來選取最優(yōu)的k值。

 

五、簡答題 (共 2 道試題,共 20 分)

41.單層感知機和多層感知機分別解決的是哪類問題?

 

42.為什么某些屬性可能會降低樸素貝葉斯分類器的性能?

 


  • 上一篇:
  • 下一篇:
  • 作業(yè)咨詢 論文咨詢
    微信客服掃一掃

    回到頂部