22春學期(高起本1709-1803、全層次1809-2103)《大數據開發(fā)技術(二)》在線作業(yè)-00003
試卷總分:100 得分:100
一、單選題 (共 25 道試題,共 50 分)
1.Scala函數組合器可以把一個二維的列表展開成一個一維的列表的方法是()
A.filter
B.flatten
C.grouby
D.flatmap
2.GraphX中()方法可以查詢邊信息
A.numVertices
B.numEdges
C.vertices
D.edges
3.PairRDD中()函數可以合并具有相同鍵的值
A.mapValues
B.groupBy
C.groupByKey
D.reduceByKey
4.Scala列表方法中將函數應用到列表的所有元素的方法是()
A.filter
B.foreach
C.map
D.mkString
5.Spark Streming中()函數當被調用類型分別為(K,V)和(K,W)鍵值對的2個DStream 時,返回類型為(K,(V,W))鍵值對的一個新 DStream。
A.union
B.reduce
C.join
D.cogroup
6.Scala中如果函數中的每個參數在函數中最多只出現一次,則可以使用占位符()代替參數。
A.井號
B.下劃線
C.斜杠
D.逗號
7.GraphX中graph.edges可以得到()
A.頂點視圖
B.邊視圖
C.頂點與邊的三元組整體視圖
D.有向圖
8.Scala中合并兩個數組的方法是()
A.line
B.add
C.append
D.concat
9.Dstream輸出操作中()方法將DStream中的內容以文本的形式保存為文本文件
A.print
B.saveAsTextFiles
C.saveAsObjectFiles
D.saveAsHadoopFiles
10.var a=10; for(a<-1 until 20){ println(a); } 共循環(huán)了()次
A.10
B.11
C.20
D.19
11.GraphX中()方法可以查詢頂點信息
A.numVertices
B.numEdges
C.vertices
D.edges
12.以下哪個函數可以求兩個RDD交集 ()
A.union
B.substract
C.intersection
D.cartesian
13.一般情況下,對于迭代次數較多的應用程序,Spark程序在內存中的運行速度是Hadoop MapReduce運行速度的()多倍
A.2
B.10
C.100
D.1000
14.Mllib中metrics.fMeasureByThreshold 表示()指標
A.準確度
B.召回率
C.F值
D.ROC曲線
15.Graph類中如果根據邊數據創(chuàng)建圖,數據需要轉換成RDD[Edge[ED]類型,應該用()方法
A.Graph(vertices,edges, defaultVertexAttr)
B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D.GraphLoader.edgeListFile(sc,filename)
16.Scala中()方法返回一個列表,包含除了最后一個元素之外的其他元素
A.head
B.init
C.tail
D.last
17.以下算法中屬于無監(jiān)督學習算法的是()
A.KNN算法
B.邏輯回歸
C.隨機森林
D.Kmeans
18.Dstream輸出操作中()方法將DStream中的內容按對象序列化并且以SequenceFile的格式保存
A.print
B.saveAsTextFiles
C.saveAsObjectFiles
D.saveAsHadoopFiles
19.Scala函數組合器可以對集合中的元素進行分組操作,結果得到的是一個Map的方法是()
A.filter
B.flatten
C.grouby
D.flatmap
20.MLlib 中可以調用mllib.tree.DecisionTree 類中的靜態(tài)方法()訓練回歸樹
A.trainClassifier
B.trainRegressor
C.LogisticRegressionModel
D.LabeledPoint
21.Graph類中如果要直接通過邊數據文件創(chuàng)建圖,要求數據按空格分隔,應該用()方法
A.Graph(vertices,edges, defaultVertexAttr)
B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D.GraphLoader.edgeListFile(sc,filename)
22.GraphX中()是存放著存放頂點的RDD
A.RDD[Edge]
B.EdgeRDD
C.RDD[(VertexId,VD)]
D.VertexRDD
23.Scala元組的值是通過將單個的值包含在()中構成的
A.小括號
B.中括號
C.大括號
D.尖括號
24.GraphX中()方法可以釋放邊緩存
A.cache
B.presist
C.unpersistVertices
D.edges.unpersist
25.PairRDD的()方法,可以把兩個RDD中鍵相同的元素組合在一起,合并為一個RDD。
A.join
B.union
C.substract
D.intersection
二、多選題 (共 10 道試題,共 20 分)
26.Spark SQL讀取的數據源支持()
A.Hive表
B.Parquent文件
C.JSON數據
D.關系數據庫
27.GraphX中Edge邊對象存有()字段
A.srcId
B.dstId
C.attr
D.val
28.以下哪種方法可以讓Spark不自定義分區(qū)也能對任何類型RDD 簡單重分區(qū)()
A.resetpartition
B.repartiton
C.Partition
D.coalesce
29.Scala函數支持()
A.遞歸函數
B.高階函數
C.柯里化
D.匿名函數
30.Scala中使用() 方法來連接兩個集合
A.append
B.++
C.concat
D.Set.++()
31.Spark支持使用()語言編寫應用
A.Scala
B.Python
C.Java
D.R
32.Scala支持()
A.顯式參數
B.隱式參數
C.轉換
D.多態(tài)方法
33.Spark DataFrame中()方法可以獲取若干行數據
A.first
B.head
C.take
D.collect
34.Spark是一個()計算框架
A.快速
B.分布式
C.可擴展
D.容錯
35.Spark DataFrame中()方法可以返回一個List
A.collect
B.take
C.takeAsList
D.collectAsList
三、判斷題 (共 15 道試題,共 30 分)
36.Scala中Map的isEmpty函數在Map為空時返回false
37.Scala 集合分為可變的和不可變的集合
38.RDD的flatMap操作是將函數應用于RDD 之中的每一個元素,將返回的迭代器(數組、列表等)中的所有元素構成新的RDD 。
39.Scala函數組合器中foreach和map類似,有返回值
40.Scala中列表是可變的
41.Scala中默認情況下使用的是可變的Map
42.RDD的filter過濾會將返回值為true的過濾掉
43.Scala函數組合器中groupBy是對集合中的元素進行分組操作,結果得到的是一個Map
44.val如同Java里面的非final變量,可以在它的聲明周期中被多次賦值。
45.用戶可以在Hadoop YARN上運行Spark
46.RDD的sortBy函數包含參數numPartitions,該參數決定排序后的RDD的分區(qū)個數,默認排序后的分區(qū)個數和排序之前的個數相等,即為this.partitions.size。
47.Spark GraphX課通過mapVertices[VD2: ClassTag](map: (VertexId, VD) => VD2)實現對頂點屬性經過變換生成新的圖
48.Spark Streming中對DStream的任何操作都會轉化成對底層RDDs的操作
49.Spark對只有未曾設置存儲級別的RDD才能設置存儲級別,設置了存儲級別的RDD不能修改其存儲級別
50.Scala中++i和i++表示變量i自增1
奧鵬,國開,廣開,電大在線,各省平臺,新疆一體化等平臺學習
詳情請咨詢QQ : 3230981406或微信:aopopenfd777

