24秋學(xué)期《并行程序設(shè)計》在線作業(yè)【資料答案】

可做奧鵬全部院校在線離線作業(yè)畢業(yè)論文QQ:3230981406 微信:aopopenfd777

發(fā)布時間:2024-09-09 14:49:57來源:admin瀏覽: 0 次

24秋學(xué)期(高起本:1709-2103、專升本/高起專:2003-2103)《并行程序設(shè)計》在線作業(yè)-00001

試卷總分:100  得分:100

一、單選題 (共 50 道試題,共 100 分)

1.起泡排序改為奇偶轉(zhuǎn)置排序,消除了循環(huán)步間的數(shù)據(jù)依賴的原因是____。

A.增大了元素比較距離

B.減小了元素比較距離

C.改為元素兩兩分組比較

D.消除了元素比較


2.伸縮性的含義不包括____。

A.硬件能升級擴展

B.擴大系統(tǒng)規(guī)模構(gòu)造成本增長不快

C.程序在新硬件下仍能高效運行

D.程序在更大規(guī)模系統(tǒng)下仍能高效運行


3.下列子句中____不是OpenMP的同步指令。

A.nowait

B.critical

C.atomic

D.barrier


4.n個數(shù)求和的串行程序,通過一個循環(huán)將每個數(shù)累加到全局變量sum中,其多線程版本簡單將循環(huán)范圍改變?yōu)槊總€線程負載的范圍,存在的問題是____。

A.負載不均

B.通信開銷大

C.CPU空閑等待嚴重

D.sum累加產(chǎn)生競爭條件,導(dǎo)致結(jié)果錯誤


5.CUDA共享內(nèi)存是由____共享。

A.Grid中所有線程

B.一個Block中所有線程

C.一個Warp中所有線程

D.GPU中所有線程


6.互斥量mutex機制,在任何時刻____進入它保護的區(qū)域。

A.允許任意數(shù)量任意類型的線程

B.允許一個讀線程任意個寫線程

C.允許一個寫線程任意個讀線程

D.只允許一個線程


7.當(dāng)問題規(guī)模不變時,隨著處理器數(shù)量增大,效率降低的性質(zhì)對____成立。

A.部分并行算法

B.代價最優(yōu)并行算法

C.所有并行算法

D.以上皆錯


8.對奇偶轉(zhuǎn)置排序進行OpenMP并行化,第一種策略是直接對內(nèi)層循環(huán)使用omp parallel for指令,第二種策略是對外層循環(huán)使用omp parallel指令,對內(nèi)層循環(huán)使用omp for指令,后者相對于前者的優(yōu)點是____。

A.保持了數(shù)據(jù)依賴

B.消除了大量線程創(chuàng)建、銷毀開銷

C.有利于負載均衡

D.減少了線程間交互


9.加速比計算中串行時間應(yīng)該取求解同一問題的哪個串行算法的時間____。

A.任意一個串行算法

B.作為并行算法基礎(chǔ)的那個串行算法

C.已知最優(yōu)的串行算法

D.所有串行算法的平均時間


10.OpenMP的缺點不包括____。

A.常見并行結(jié)構(gòu)的表達并不總可行

B.局部性處理不易

C.不易編寫多核單核通用程序

D.性能控制不易


11.16步循環(huán),4個線程,循環(huán)0-3、4-7、8-11、12-15分別分配給線程0、1、2、3,這是OpenMP的____劃分策略。

A.static

B.fixed

C.dynamic

D.guided


12.天河1A和天河2號都是主要依靠____獲得強大的計算能力。

A.單核CPU

B.多核CPU

C.眾核CPU

D.眾核協(xié)處理器


13.主線程創(chuàng)建了4個線程,它們打印各自的線程號(0-3),未使用任何同步,則輸出順序____。

A.必然是0 1 2 3

B.必然是4 3 2 1

C.不可能是4 3 2 1

D.以上皆錯


14.對矩陣乘法串行程序的主體三重循環(huán),我們選擇最內(nèi)層循環(huán)進行向量化的原因是____。

A.它最后執(zhí)行

B.外層循環(huán)中沒有計算操作

C.是隨意選擇的

D.它的連續(xù)循環(huán)步是對不同元素進行相同運算


15.在矩陣乘法之前將第二個矩陣轉(zhuǎn)置,其作用不包括____。

A.增大訪存空間局部性

B.減少運算次數(shù)

C.優(yōu)化SIMD訪存

D.以上皆錯


16.CPU cache大小為32KB,64*64的兩個矩陣進行加法計算,下面說法正確的是____。

A.可利用cache時間局部性優(yōu)化性能

B.可利用cache空間局部性優(yōu)化性能

C.可通過矩陣分片優(yōu)化性能

D.訪存方面無優(yōu)化可能


17.對下面程序,說法正確的是 # pragma omp parallel for num_threads(thread_count) \ reduction(+:sum) for (k = 1; k <= n; k++) { sum += factor/(2*k-1); factor = -factor; }

A.破壞了數(shù)據(jù)依賴

B.未破壞數(shù)據(jù)依賴

C.取決于變量聲明

D.比臨界區(qū)方式性能差


18.多個線程進行并行求和,每個線程將自己負責(zé)的值依次讀入局部變量x,累加到全局變量sum上,sum+=x,對此,下面說法正確的是

A.讀取x存在數(shù)據(jù)依賴,不能并發(fā)進行

B.累加順序被改變,結(jié)果是錯誤的

C.加法操作是簡單運算,無需同步

D.加法操作不是原子操作,需要同步保證數(shù)據(jù)依賴


19.n個節(jié)點的線性陣列中,節(jié)點最遠通信距離為____。

A.1

B.O(logn)

C.O(sqrt(n))

D.O(n)


20.SSE的shuffle指令的8位二進制整數(shù)參數(shù)被劃分為4個2位二進制整數(shù)imm8[0:3],若imm8[2]=j則表示___。

A.將第一個源寄存器的第j個元素放在目標寄存器位置2

B.將第二個源寄存器的第j個元素放在目標寄存器位置2

C.將第一個源寄存器的第2個元素放在目標寄存器位置2

D.將第二個源寄存器的第2個元素放在目標寄存器位置2


21.采用搜索分解設(shè)計15數(shù)碼問題的并行算法,不包含下面哪個步驟____。

A.串行生成一定規(guī)模的搜索樹

B.當(dāng)前每個葉結(jié)點為根的子樹搜索分配給一個處理器

C.發(fā)現(xiàn)解的處理器通知其他處理器

D.將所有處理器的結(jié)果組合成最終解


22.采用劃分子矩陣技術(shù)優(yōu)化矩陣乘法CUDA程序,主要思想是訪存更多在____。

A.CPU內(nèi)存

B.GPU顯存

C.GPU共享內(nèi)存

D.GPU寄存器


23.MMX有____個專用寄存器。

A.4

B.8

C.16

D.32


24.1) R=XR*1.3;G=XG*1.8;B=XB*1.1; 2) R=X[0]*1.3;G=X[1]*1.8;B=X[2]*1.1; 這兩個程序片段哪個進行向量化效率更高?

A.1)

B.2)

C.不確定

D.以上皆錯


25.n個處理器、n個內(nèi)存模塊的交叉開關(guān)構(gòu)造成本為____。

A.O(logn)

B.O(n)

C.O(nlogn)

D.O(n^2)


26.SSE intrinsics _mm_load_pd命令的功能是____。

A.對齊向量讀取單精度浮點數(shù)

B.未對齊向量讀取單精度浮點數(shù)

C.對齊向量讀取雙精度浮點數(shù)

D.未對齊向量讀取雙精度浮點數(shù)


27.天河1號、天河2號、神威.太湖之光總體上都是____架構(gòu)

A.單核

B.多核

C.眾核

D.集群


28.任務(wù)依賴圖中頂點權(quán)重之和表示____。

A.任務(wù)數(shù)

B.任務(wù)難度

C.串行執(zhí)行時間

D.并行執(zhí)行時間


29.MPI組通信操作不包括哪類____。

A.通信

B.同步

C.點對點

D.計算


30.OpenMP的循環(huán)調(diào)度策略不會影響算法的____。

A.負載均衡

B.調(diào)度開銷

C.計算總量

D.數(shù)據(jù)局部性


31.關(guān)于障礙機制,下面說法錯誤的是____。

A.會導(dǎo)致快速線程阻塞,不應(yīng)使用

B.在需要強制線程步調(diào)一致時,應(yīng)使用

C.可用互斥量機制實現(xiàn)

D.屬于一種組通信


32.OpenMP編譯指示的作用范圍是____。

A.其后一個語句

B.其后連續(xù)語句

C.其后直到函數(shù)結(jié)束

D.整個函數(shù)


33.記并行時間為T,串行時間為T',處理器數(shù)量為p,則額外開銷應(yīng)如何計算?

A.T'-T

B.T-T'

C.pT

D.pT-T'


34.兩個矩陣相乘前將第二個矩陣轉(zhuǎn)置,是使用利用數(shù)據(jù)訪問的_____達到更高的cache命中率。

A.時間局部性

B.空間局部性

C.計算局部性

D.混合局部性


35.鏈表數(shù)據(jù)結(jié)構(gòu)的查找、插入、刪除等操作,既有對鏈表的讀也有對鏈表的寫,對此,采用互斥量加解鎖整個鏈表的同步機制相比加解鎖每個節(jié)點的方式的缺點是____。

A.粒度太粗,節(jié)點讀寫一致性不能保證

B.粒度太粗,線程不必要的等待

C.粒度太細,加解鎖開銷大

D.粒度太細,總體讀寫一致性不能保證


36.對矩陣每行排序的程序進行多線程并行化,對矩陣采用____。

A.簡單均勻塊劃分即可保證負載均衡

B.循環(huán)劃分才能實現(xiàn)負載均衡

C.動態(tài)劃分才能實現(xiàn)負載均衡

D.隨機劃分才能實現(xiàn)負載均衡


37.____執(zhí)行pthread_sem_post操作,當(dāng)前線程會喚醒阻塞線程。

A.當(dāng)信號量已加鎖時

B.當(dāng)信號量為0時

C.當(dāng)信號量已超過閾值時

D.當(dāng)信號量已銷毀時


38.我們在小規(guī)模系統(tǒng)和小規(guī)模輸入下測試了幾個并行算法,應(yīng)選擇哪個應(yīng)用在實際系統(tǒng)中?

A.選擇性能測試并行時間最少者

B.選擇性能測試加速比最大者

C.選擇性能測試效率最高者

D.應(yīng)結(jié)合可擴展性分析做出選擇


39.AVX_512有____個專用寄存器。

A.4

B.8

C.16

D.32


40.實現(xiàn)任何時刻都只有一個線程進行共享變量更新的OpenMP指令是____。

A.omp parallel

B.omp barrier

C.omp critical

D.omp reduce


41.動態(tài)線程編程模式的優(yōu)點是____。

A.線程創(chuàng)建開銷低

B.線程管理開銷低

C.線程終止開銷低

D.系統(tǒng)資源利用率高


42.關(guān)于MPI_recv對源地址的標識,下列說法正確的是____。

A.只能使用進程編號

B.可以使用IP地址

C.可以使用IPV6地址

D.可以使用MPI_ANY_SOURCE


43.以下____不是MPI基本原語。

A.MPI_Comm_rank

B.MPI_Comm_no

C.MPI_Comm_size

D.MPI_Init


44.通常忙等待方法的性能要比互斥量方法的性能____。

A.更高

B.更低

C.高低不確定

D.以上皆錯


45.n個元素排序問題,如果只能通過元素比較交換構(gòu)造算法,則n個處理器的并行排序算法達到____的運行時間才是代價最優(yōu)的。

A.O(logn)

B.O(n)

C.O(nlogn)

D.O(n^2)


46.pthread_join通過____指定要等待的線程。

A.pthread_create返回的線程句柄

B.線程的系統(tǒng)ID

C.創(chuàng)建線程時設(shè)置的線程號

D.創(chuàng)建線程時設(shè)置的線程名


47.推動GPU應(yīng)用于通用高性能計算爆發(fā)式增長的開發(fā)工具是____。

A.OpenGL

B.OpenCL

C.DirectX

D.CUDA


48.在使用條件變量時,還需配套使用一個____。

A.互斥量

B.信號量

C.障礙

D.自旋鎖


49.將起泡排序程序改寫為奇偶轉(zhuǎn)置排序,關(guān)于其兩層循環(huán)是否存在數(shù)據(jù)依賴,下面說法正確的是____。

A.外層存在,內(nèi)層不存在

B.外層不存在,內(nèi)層存在

C.兩層都不存在

D.兩層都存在


50.float a[64]; for (i=0; i<60; i+=4) Va = a[i+2:i+5]; 系統(tǒng)向量化訪存是按16字節(jié)對齊的,則此向量化程序每個循環(huán)步產(chǎn)生____個內(nèi)存訪問操作。

A.1

B.2

C.3

D.4




奧鵬,國開,廣開,電大在線,各省平臺,新疆一體化等平臺學(xué)習(xí)
詳情請咨詢QQ : 3230981406或微信:aopopenfd777

作業(yè)咨詢 論文咨詢
微信客服掃一掃

回到頂部