22秋學(xué)期(高起本1709-1803、全層次1809-2103)《大數(shù)據(jù)開發(fā)技術(shù)(二)》在線作業(yè)-00003
試卷總分:100 得分:100
一、單選題 (共 25 道試題,共 50 分)
1.以下算法中屬于聚類算法的是()
A.KNN算法
B.邏輯回歸
C.隨機森林
D.Kmeans
2.Spark GraphX中類Graph的reverse方法可以()
A.反轉(zhuǎn)圖中所有邊的方向
B.按照設(shè)定條件取出子圖
C.取兩個圖的公共頂點和邊作為新圖,并保持前一個圖頂點與邊的屬性
D.合并邊相同的屬性
3.GraphX中()是提供頂點的各種操作方法的對象
A.RDD[Edge]
B.EdgeRDD
C.RDD[(VertexId,VD)]
D.VertexRDD
4.Spark Streming中DStream的每個RDD都是由()分割開來的數(shù)據(jù)集
A.分區(qū)
B.一小段時間
C.數(shù)據(jù)量
D.隨機
5.請問RDD的()操作作用于K-V類型的RDD上,返回指定K的所有V值
A.search
B.find
C.findByKey
D.lookup
6.GraphX中()方法可以查詢邊信息
A.numVertices
B.numEdges
C.vertices
D.edges
7.Scala源代碼被編譯成()字節(jié)碼,所以它可以運行于JVM之上
A.Spark
B.Scala
C.Java
D.JDK
8.Scala中重寫一個非抽象方法必須使用()修飾符。
A.extends
B.override
C.extend
D.overrides
9.Graph類中如果要直接通過邊數(shù)據(jù)文件創(chuàng)建圖,要求數(shù)據(jù)按空格分隔,應(yīng)該用()方法
A.Graph(vertices,edges, defaultVertexAttr)
B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D.GraphLoader.edgeListFile(sc,filename)
10.Scala列表方法中通過給定的方法將所有元素重新計算的方法是()
A.filter
B.foreach
C.map
D.mkString
11.Mllib中線性會館算法中的參數(shù)stepSize表示()
A.要運行的迭代次數(shù)
B.梯度下降的步長
C.是否給數(shù)據(jù)加干擾特征或者偏差特征
D.Lasso 和ridge 的正規(guī)化參數(shù)
12.Scala列表方法中丟棄前n個元素,并返回新列表的方法是()
A.drop
B.head
C.filter
D.init
13.以下算法中屬于無監(jiān)督學(xué)習(xí)算法的是()
A.KNN算法
B.邏輯回歸
C.隨機森林
D.Kmeans
14.var a=10; do{ a+=1; }while(a<20) 共循環(huán)了()次
A.9
B.10
C.11
D.12
15.Scala中如果函數(shù)無返回值,則函數(shù)返回類型為()
A.NULL
B.Void
C.Nothing
D.Unit
16.var a=10; while(a<20){ a+=1; } 共循環(huán)了()次
A.9
B.10
C.11
D.12
17.遞歸函數(shù)意味著函數(shù)可以調(diào)用它()
A.其他函數(shù)
B.主函數(shù)
C.子函數(shù)
D.自身
18.Scala函數(shù)組合器可以接收一個可以處理嵌套列表的函數(shù),然后把返回結(jié)果連接起來的方法是()
A.map
B.foreach
C.flatten
D.flatmap
19.Spark中DataFrame的()方法是進行排序查詢
A.order by
B.group by
C.select by
D.sort by
20.Spark Streming中()函數(shù)可以對統(tǒng)計DStream中每個RDD包含的元素的個數(shù),得到一個新的DStream
A.count
B.union
C.length
D.reduce
21.Spark Streming中()函數(shù)可以對源DStream中的每一個元素應(yīng)用func方法進行計算,如果func函數(shù)返回結(jié)果為true,則保留該元素,否則丟棄該元素,返回一個新的Dstream
A.map
B.flatMap
C.filter
D.union
22.()是AMPLab發(fā)布的一個R開發(fā)包,使得R擺脫單機運行的命運,可以作為Spark的Job運行在集群上
A.SparkR
B.BlinkDB
C.GraphX
D.Mllib
23.Graph類中如果根據(jù)邊數(shù)據(jù)創(chuàng)建圖,數(shù)據(jù)需要轉(zhuǎn)換成RDD[Edge[ED]類型,應(yīng)該用()方法
A.Graph(vertices,edges, defaultVertexAttr)
B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D.GraphLoader.edgeListFile(sc,filename)
24.Scala函數(shù)組合器可以過濾移除使得傳入的函數(shù)的返回值為false的元素的方法是()
A.filter
B.flatten
C.grouby
D.flatmap
25.以下哪個函數(shù)可以求兩個RDD交集 ()
A.union
B.substract
C.intersection
D.cartesian
二、多選題 (共 10 道試題,共 20 分)
26.Spark Streaming能夠處理來自()的數(shù)據(jù)
A.Kafka
B.Flume
C.Twitter
D.ZeroMQ
27.Scala系統(tǒng)支持()作為對象成員
A.通用類
B.內(nèi)部類
C.抽象類
D.復(fù)合類
28.Scala中可以用()方法來連接兩個或多個列表
A.::
B.#:::
C.List.:::()
D.List.concat()
29.Scala中構(gòu)造列表的兩個基本單位是 ()
A.Nil
B.Nill
C.::
D.List
30.Spark創(chuàng)建DataFrame對象方式有()
A.結(jié)構(gòu)化數(shù)據(jù)文件
B.外部數(shù)據(jù)庫
C.RDD
D.Hive中的表
31.Spark的RDD持久化操作有()方式
A.cache
B.presist
C.storage
D.long
32.TF-IDF中TF指的是()
A.詞頻
B.詞在文檔中出現(xiàn)的次數(shù)
C.逆文檔概率
D.詞在文檔集中出現(xiàn)的概率
E.詞在文檔集中出現(xiàn)的概率
33.MapReudce不適合()任務(wù)
A.大數(shù)據(jù)計算
B.迭代
C.交互式
D.離線分析
34.Spark支持的文件格式包括()
A.文本文件
B.JSON
C.CSV
D.SequenceFile
35.Spark Streaming的特點有()
A.單極性
B.可伸縮
C.高吞吐量
D.容錯能力強
三、判斷題 (共 15 道試題,共 30 分)
36.RDD的sortBy排序默認是升序
37.RDD的flatMap操作是將函數(shù)應(yīng)用于RDD 之中的每一個元素,將返回的迭代器(數(shù)組、列表等)中的所有元素構(gòu)成新的RDD 。
38.Scala中Map的isEmpty函數(shù)在Map為空時返回false
39.Spark中DataFrame 的查詢操作也是一個懶操作, 僅僅生成一個查詢計劃, 只有觸發(fā)Action 操作才會進行計算并返回查詢結(jié)果。
40.RDD中的collect 函數(shù)是一個行動操作,把RDD 所有元素轉(zhuǎn)換成數(shù)組并返回到Driver 端,適用于大數(shù)據(jù)處理后的返回。
41.RDD是一個可讀寫的數(shù)據(jù)結(jié)構(gòu)
42.RDD中zip操作要求兩個RDD的partition數(shù)量以及元素數(shù)量都相同
43.RDD中join操作最后只返回兩個RDD 都存在的鍵的連接結(jié)果。
44.Spark取代Hadoop僅僅是取代MapReduce這種計算框架,Spark可以取代HDFS嗎
45.SparkContext類中makeRDD方法不可將單機數(shù)據(jù)創(chuàng)建為分布式RDD
46.Scala是Scalable Language的簡寫,是一門多范式的編程語言,設(shè)計初衷是不包括面向?qū)ο缶幊痰奶匦浴?/p>
47.PairRDD中g(shù)roupBy(func)func返回key,傳入的RDD的各個元素根據(jù)這個key進行分組。
48.PairRDD中mapValues是針對鍵值對(Key,Value)類型的數(shù)據(jù)中的key和Value進行Map操作
49.MLlib由一些通用的學(xué)習(xí)算法和工具組成,包括分類、回歸、聚類、協(xié)同過濾、降維等,同時還包括底層的優(yōu)化原語和高層的管道API。
50.RDD的轉(zhuǎn)換操作是用于觸發(fā)轉(zhuǎn)換操作的操作,這個時候才會真正開始進行計算。
奧鵬,國開,廣開,電大在線,各省平臺,新疆一體化等平臺學(xué)習(xí)
詳情請咨詢QQ : 3230981406或微信:aopopenfd777